L'apprentissage automatique contradictoire cherche à manipuler un modèle d'apprentissage automatique par des entrées trompeuses conçues pour provoquer son dysfonctionnement. Découvrez ses techniques et pourquoi il est important.
Read in English (Lire en Anglais).
L'adversarial machine learning est une technique que les professionnels peuvent utiliser pour étudier les attaques de modèles d'apprentissage automatique (machine learning en anglais) afin d'identifier les points faibles et de former une défense contre les attaques malveillantes. Les attaques adverses cherchent à manipuler les modèles d'apprentissage automatique en fournissant des données d'entrée trompeuses. Ces entrées trompeuses entraînent un dysfonctionnement du modèle d'apprentissage automatique, ce qui risque d'exposer des données ou de perturber la fonction exploitée par l'apprentissage automatique.
Malgré son nom, l'apprentissage automatique contradictoire est une description des méthodes que vous pouvez utiliser pour évaluer les vulnérabilités des modèles d'apprentissage automatique - il ne s'agit pas d'un type d'apprentissage automatique. L'ingénieur logiciel britannique John Graham-Cumming a introduit ce concept en 2004 lorsqu'il a découvert que les spammeurs pouvaient manipuler les applications d'apprentissage automatique pour contourner les filtres anti-spam.
Les attaquants ciblent les modèles d'apprentissage automatique pour de nombreuses raisons et avec de nombreuses méthodes pour les manipuler. Les résultats de la manipulation de l'IA ou des systèmes d'apprentissage automatique vont des résultats incorrects rendus par les applications d'IA générative aux violations de données.
L'IA étant un sujet brûlant dans le monde des affaires, jouissant d’une popularité croissante et d’une attention accrue à mesure que la technologie augmente sa capacité d'automatisation des tâches, il est essentiel de comprendre ses vulnérabilités pour protéger les entreprises contre les cyberattaques. FRANCE NUM signale que, selon une enquête BVA de mai 2023, 35 pour cent des entreprises de plus de 10 salariés utilisent déjà des technologies liées à l’intelligence artificielle [1].
L'utilisation accrue de l'IA dans les entreprises, et en particulier dans les secteurs qui impliquent l'information et la sécurité de l'information, souligne l'importance de la sécurité contre les attaques adverses.
Les modèles d'apprentissage automatique s'entraînent à effectuer des actions programmées en traitant de vastes ensembles de données. Ils classent les éléments de données en catégories et déterminent des actions basées sur ce que le modèle peut comprendre en fonction de la façon dont il a été formé.
L'apprentissage automatique contradictoire consiste à perturber ce flux de travail en introduisant une donnée destinée à tromper le modèle et à l'empêcher de fonctionner correctement. Cela peut également être utile pour comprendre comment obtenir les résultats souhaités en manipulant les données.
La manipulation des véhicules autonomes est un exemple qui souligne le danger potentiel de l'adversarial machine learning. Ces véhicules utilisent des modèles d'apprentissage automatique pour interpréter les panneaux de signalisation. De légères modifications de ces panneaux, telles que l'apposition d'un autocollant sur un panneau de cédez-le-passage ou toute autre modification légère du panneau affectant sa classification, peuvent entraîner un dysfonctionnement du modèle d'apprentissage automatique.
Les adversaires utilisent deux tactiques principales pour manipuler les modèles d'apprentissage automatique : les attaques « boîte noire » et « boîte blanche ». Dans une attaque boîte blanche, le manipulateur a accès au code du modèle et peut en contrôler le fonctionnement interne. En revanche, l'attaquant ne connaît que les résultats du modèle d'apprentissage automatique lors d'une attaque boîte noire. Un adversaire peut toujours manipuler un modèle d'apprentissage automatique même s'il n'a pas accès au code du modèle.
Les attaques d'apprentissage automatique contradictoire ont généralement le même objectif global, mais utilisent des tactiques différentes pour l'atteindre. Vous constaterez que ces attaques se classent généralement dans l'une des trois catégories suivantes.
Dans une attaque par empoisonnement, l'adversaire « empoisonne » le modèle d'apprentissage automatique pour qu'il soit moins performant, en contaminant les données pour provoquer une vulnérabilité. Les filtres anti-spam de Google fournissent un exemple d'empoisonnement des données. Des adversaires ont tenté à plusieurs reprises de tromper le filtre de Google en signalant des quantités massives d'e-mails comme n'étant pas des spams.
Les attaques par évasion ont lieu sur des modèles d’intelligence artificielle entraînée. L'adversaire modifie légèrement une entrée pour manipuler la façon dont le modèle d'apprentissage automatique la classe. Il peut s'agir, par exemple, de placer un autocollant sur un panneau d'arrêt pour faire croire au modèle d'apprentissage automatique d'une voiture auto-conduite qu'il s'agit d'un panneau de cédez-le-passage.
Les attaques par évasion visent souvent à contourner les filtres anti-spam ou anti-malware, les adversaires utilisant un langage trompeur ou marquant les logiciels ou les courriels de manière trompeuse. Les attaquants utilisent des tactiques d'essai et d'erreur pour comprendre les opérations d'un modèle d'apprentissage automatique. Par exemple, un adversaire peut envoyer un grand nombre de courriels avec des variations de langage et observer ceux qui passent au travers d'un filtre anti-spam.
Une attaque par extraction implique qu'un attaquant manipule un modèle d'apprentissage automatique pour créer une réplique du modèle ou pour voler des données du modèle. Comme les attaques par évasion, les attaques par extraction s'appuient souvent sur les déductions que l'attaquant peut faire sur les résultats générés par le modèle.
Les attaques de type « adversarial machine learning » compromettent l'efficacité des modèles d'apprentissage automatique. Les manipulations causent des dommages, érodent la confiance dans l'application du modèle ou contournent les mesures de sécurité telles que les filtres pour les contenus nuisibles.
Un exemple contradictoire est un terme qui fait référence aux données d'entrée fournies à un modèle d'apprentissage automatique afin de le manipuler pour qu'il fonctionne mal. Ces données peuvent sembler inoffensives pour un être humain, mais elles ciblent la capacité de l'apprentissage automatique à classer correctement les données.
Par exemple, les caméras de sécurité sont parfois exploitées par des modèles d'apprentissage automatique. Si un adversaire remarque que le système de sécurité d'un site tient compte du fait qu'une personne chargée de l'entretien entre dans le bâtiment à une certaine heure chaque nuit, le modèle d'apprentissage automatique peut autoriser n'importe quelle action à cette heure-là sans alerte de sécurité. Un adversaire qui en prendrait note pourrait potentiellement manipuler le modèle d'apprentissage automatique afin qu’il ne détecte pas une menace si le modèle autorise n'importe qui à entrer dans le bâtiment à cette heure-là sans alerte de sécurité.
Les entreprises disposent de plusieurs moyens pour lutter contre l'apprentissage automatique contradictoire, et il devient de plus en plus essentiel pour elles d'élaborer des stratégies à cette fin. Les attaques de type « Adversarial Machine Learning » restent dangereuses et augmentent potentiellement le niveau de destruction qu'elles peuvent causer à mesure que les entreprises s’appuient davantage sur les applications d'IA. Microsoft dépense aujourd'hui plus de 20 milliards de dollars rien que pour la cybersécurité [2]. Le secteur de la sécurité de l'information atteindra 215 milliards de dollars en 2024, soit une augmentation de 14,3 pour cent par rapport à l'estimation de 2023, selon le cabinet Gartner de conseil en gestion [3].
De nombreuses entreprises, dont Microsoft et Google, mettent leur code à disposition en tant que code source ouvert afin d'améliorer la cybersécurité, en particulier dans un environnement qui évolue rapidement, comme celui de l'intelligence artificielle. On pourrait penser que le code source ouvert conduirait plutôt à une augmentation des manipulations parce qu'il est accessible à un grand nombre de personnes. Cependant, le code source ouvert permet également aux experts du monde entier de transmettre leurs connaissances en matière de mesures de cybersécurité. Les experts en programmation, les chercheurs et les professionnels de haut niveau ayant accès au code, les entreprises peuvent facilement identifier les vulnérabilités et les corriger.
Les méthodes existantes de défense contre les attaques par adversarial machine learning se heurtent à un problème encore non résolu. Les défenses contre les attaques anticipées ou détectées ne sont pas adaptatives. La maintenance doit être effectuée régulièrement pour protéger les modèles d'apprentissage automatique contre les vulnérabilités.
Les programmeurs ajustent les modèles d'apprentissage automatique pour qu'ils s'adaptent aux menaces et se protègent des attaques principalement à l'aide de deux techniques.
L'apprentissage par des exemples contradictoires est un protocole dans lequel les humains introduisent dans le modèle des exemples contradictoires — des entrées corrompues qui provoquent le dysfonctionnement des modèles d'apprentissage automatique. Le modèle qualifie alors comme menaçantes ces données malveillantes connues. De la même manière que le modèle d'apprentissage automatique apprend à classer les données dans le cadre de son processus normal, le modèle s'entraîne également à rejeter les perturbations. Cette méthode implique des efforts de maintenance et de surveillance continus, car les tentatives de manipulation du modèle d'apprentissage automatique évoluent elles-mêmes.
La distillation défensive est une méthode très adaptable de formation des modèles d'apprentissage automatique pour prévenir les attaques. Un « réseau enseignant » s'entraîne sur un ensemble de données. Un autre réseau, le « réseau apprenant », utilise les probabilités de classe du réseau enseignant — la probabilité de classification des entrées par le modèle — comme cibles douces dans sa propre formation. Comme le réseau d'apprentissage fonctionne avec des informations plus nuancées, il est capable de classer les informations à un niveau plus profond.
Vous pouvez approfondir les concepts de l'apprentissage automatique avec le cours Construire des arbres de décision, des SVM et des réseaux neuronaux artificiels de CertNexus, proposé sur Coursera, qui peut vous aider à explorer les concepts clés que les praticiens de l'intelligence artificielle doivent connaître. Vous pouvez former et évaluer plusieurs composants de réseaux neuronaux et optimiser les performances des applications d'IA pour des tâches telles que le traitement du langage.
FRANCE NUM. « Exploiter l'intelligence artificielle pour améliorer le fonctionnement de sa TPE PME : mode d'emploi, https://www.francenum.gouv.fr/guides-et-conseils/pilotage-de-lentreprise/gestion-traitement-et-analyse-des-donnees/exploiter. » Consulté le 9 décembre 2024.
Yahoo News. « Microsoft's security arm is now a $20 billion per year business, https://finance.yahoo.com/news/microsofts-security-arm-is-now-a-20-billion-per-year-business-213419664.html. » Consulté le 9 décembre 2024.
Gartner. « Gartner prévoit que les dépenses mondiales en matière de sécurité et de gestion des risques augmenteront de 14 % en 2024, https://www.gartner.com/en/newsroom/press-releases/2023-09-28-gartner-forecasts-global-security-and-risk-management-spending-to-grow-14-percent-in-2024. » Consulté 9 décembre 2024.
Équipe éditoriale
L’équipe éditoriale de Coursera est composée de rédacteurs, de rédacteurs et de vérificateurs de fai...
Ce contenu a été mis à disposition à des fins d'information uniquement. Il est conseillé aux étudiants d'effectuer des recherches supplémentaires afin de s'assurer que les cours et autres qualifications suivis correspondent à leurs objectifs personnels, professionnels et financiers.