L'apprentissage automatique expose-t-il votre système industriel aux pirates informatiques ?
Avec la contribution de Rédacteurs nord-américains de DigiKey
2019-12-02
Chaque méthode informatique suppose ses propres défis en matière de sécurité, et l'apprentissage automatique (ML, machine learning) n'échappe pas à la règle. La bonne nouvelle, c'est que les vulnérabilités de ce segment de l'intelligence artificielle (IA) sont assez prévisibles. La mauvaise, c'est qu'elles ne sont pas si faciles à détecter.
L'apprentissage automatique suppose des défis qui résident dans l'importante quantité de données impliquées et leur niveau de précision élevé, ainsi que dans le fait que cette méthode s'appuie sur un enrichissement et une amélioration graduels. L'apprentissage automatique traite les données à partir de schémas imperceptibles par les humains, ce qui constitue à la fois un atout et une vulnérabilité.
Chaque domaine de l'intelligence artificielle produit des résultats : un haut rendement, une haute qualité et, souvent, une innovation sans précédent. Dans le processus de fabrication, par exemple, l'IA permet une détection et une correction faciles des problèmes, et les méthodes de sécurité basées sur l'IA protègent les processus impliqués.
L'apprentissage automatique s'enrichit grâce à des algorithmes de formation et détermine l'issue probable d'une situation, tandis que les algorithmes d'apprentissage profond (DL, deep learning), autre sous-ensemble de l'IA, permettent au logiciel de s'autoformer à la réalisation de tâches. Dans ce cas, les réseaux neuronaux multicouches sont exposés à des millions de points de données, qui sont comme la capacité du cerveau humain à reconnaître des schémas, et à catégoriser et clarifier les informations.
Vulnérabilités liées à l'apprentissage automatique
Revenons-en à la question initiale. L'apprentissage automatique expose-t-il votre système industriel aux pirates informatiques ? La réponse est simple : rien n'est infaillible, surtout pas une technologie qui évolue rapidement. Cela étant dit, il existe des systèmes d'apprentissage automatique/apprentissage profond bien conçus et d'autres moins bien conçus. Certains sont donc plus sensibles au piratage.
Selon Gartner, d'ici 2025, l'apprentissage automatique fera partie de toutes les solutions de sécurité. En attendant, on observe une multiplication par deux du nombre de failles de sécurité à gérer. Parmi les exemples d'efforts concrets, citons Google qui réussit à bloquer environ 99 % des messages indésirables grâce à l'apprentissage automatique. Le programme Watson d'IBM aurait permis d'empêcher 200 millions de cyberattaques ciblant Wimbledon en 2017. Les algorithmes d'apprentissage automatique jouent un rôle majeur dans la sécurisation des plateformes cloud et dans l'analyse des activités suspectes, notamment les identifiants de connexion et autres anomalies.
Le mode d'attaque le plus couramment utilisé est une technique d'opposition : une tentative d'infiltration s'opère au moyen d'une entrée malveillante dans un modèle de sorte que ce dernier commette une erreur. Au moment d'une nouvelle entrée comportant des données malveillantes subtilement instillées, le comportement du modèle est perturbé, sans que ses performances statistiques soient altérées. Les modèles d'apprentissage automatique peuvent aussi être attaqués d'autres manières, à savoir :
- La compromission de l'intégrité. Si le modèle d'apprentissage automatique omet de filtrer un ou plusieurs cas préjudiciables qui parviennent à s'insinuer dans le système, alors le risque de piratage devient réel.
- Les attaques exploratoires. Celles-ci sont utilisées pour comprendre les prévisions du modèle grâce aux valeurs des enregistrements d'entrée.
- Les attaques causales. Celles-ci altèrent les données de formation et le modèle. Les enregistrements d'entrée qui franchissent le système peuvent faire l'objet d'un enregistrement malveillant qui réussit à s'introduire ou d'un enregistrement bienveillant dont l'entrée est bloquée.
- Les attaques d'intégrité. Si des entrées malveillantes parviennent à s'infiltrer, le pirate peut entrer dans le système normalement, et ce dernier peut étiqueter les entrées malveillantes comme des entrées bienveillantes.
- Les attaques de disponibilité. Celles-ci surviennent lorsque le modèle est formé grâce aux données d'un pirate et que les entrées bienveillantes sont filtrées par le système. Dans ce scénario, les enregistrements légitimes peuvent être supprimés.
S'il est vrai que l'activité délictueuse intensifie les attaques perpétrées à l'encontre de l'apprentissage automatique, la situation n'est pas aussi simple qu'il n'y paraît. Heureusement, vous pouvez commencer à protéger votre système à certains emplacements très faciles à identifier, avant d'ajouter des technologies avancées pour renforcer la sécurité. Par exemple, il sera plus facile de lancer une attaque si le logiciel de votre système n'est pas à jour et si les correctifs ne sont pas téléchargés dès qu'ils sont disponibles. Des informations d'identification solides et l'authentification à plusieurs facteurs sont deux aspects importants. En outre, les réseaux doivent implémenter des technologies de sécurité allant au-delà de la simple combinaison nom d'utilisateur/mot de passe.
Par où commencer ?
Les kits suivants sont disponibles pour aider au développement d'applications d'IA :
Le kit de développement NVIDIA Jetson Nano de Seeed Technology offre les performances nécessaires pour les charges de travail d'IA comme l'apprentissage profond, la vision par ordinateur, l'informatique avec processeur graphique et le traitement multimédia (Figure 1). Il permet aux utilisateurs d'exécuter les structures et les modèles d'IA pour des applications comme la classification d'images, la détection d'objets, la segmentation et le traitement de la parole. Ce kit constitue donc un moyen simple de connecter un ensemble divers de capteurs pour activer des applications d'IA variées.
Figure 1 : Le kit Jetson Nano est pris en charge par le JetPack de Seeed Technology, qui inclut un BSP (Board Support Package), un système d'exploitation Linux, une plateforme NVIDIA CUDA, une bibliothèque cuDNN et des bibliothèques logicielles TensorRT pour les applications IA. (Source de l'image : Seeed)
Adafruit et DigiKey ont récemment dévoilé la carte d'évaluation embarquée BrainCraft EDGE BADGE (Figure 2), repoussant les limites de l'apprentissage automatique grâce à de petits microcontrôleurs exécutant une version miniature de TensorFlow Lite. Cette carte de la taille d'une carte bancaire (illustrée à la Figure 2) est alimentée par le microcontrôleur ATSAMD51J19 de Microchip avec une mémoire Flash de 512 Ko et une RAM de 192 Ko. Ce kit inclut une entrée microphone intégrée pour la reconnaissance vocale et une bibliothèque Arduino avec des démonstrations pour reconnaître différentes paires de mots et différents gestes.
Figure 2 : Ce badge Supercon peut aussi faire office de badge de nom programmé avec CircuitPython. Il se présente comme une clé USB et ne nécessite pas d'environnement de développement intégré (IDE) pour afficher un nom, des codes QR ou d'autres informations. (Source de l'image : Adafruit)
Enfin, les capteurs avancés, comme le LSM6DOX de STMicroelectronics, combinent un cœur d'apprentissage automatique, une machine à états finis et des fonctions numériques avancées, ce qui apporte un vrai plus à la gamme de microprocesseurs STM32 de la société, afin de fournir les performances et la précision nécessaires aux fonctions d'IA.
Tendances à venir
Il existe aujourd'hui des modèles informatiques basés sur le cloud qui incluent des plateformes d'apprentissage automatique, disponibles par le biais de l'informatique cognitive, de l'apprentissage automatique automatisé, de la gestion et du déploiement de modèles d'apprentissage automatique, et de l'informatique basée sur un processeur graphique. Toutefois, si l'on considère la multitude de données nécessaires aux applications d'apprentissage automatique et d'apprentissage profond, il n'est pas étonnant que les gros titres rapportent des incidents toujours plus importants de piratage du cloud.
Les entreprises ont raison de faire preuve de prudence au moment de placer des données sensibles dans le cloud lorsque celles-ci impliquent l'intelligence artificielle et l'apprentissage automatique. Les politiques de sécurité requises pour assurer une réelle protection des données sensibles et les moyens de contrôler le piratage ne sont pas nécessairement aussi fiables que ce qu'ils devraient être.
La quantité même de données générée par l'IoT est ahurissante. Les données nécessaires pour lancer l'IA, l'automatisation, l'apprentissage automatique, etc., surtout si elles incluent des données héritées, doivent absolument se limiter à celles indiquées pour l'application.
Voici une brève liste des étapes qu'un développeur doit suivre au moment d'implémenter l'intelligence artificielle/l'apprentissage automatique :
- Connaître les lacunes dans les données existantes et comprendre où elles se trouvent
- Comprendre quels flux de travail seront affectés par un projet d'IA potentiel
- S'assurer de l'adhésion de l'ensemble de l'entreprise à un projet final établi et communiqué, et savoir comment chaque personne est impliquée dans le processus
- Prendre le parti de la maîtrise de la technologie et des possibilités offertes par celle-ci, plutôt que celui de la réduction des coûts
- Commencer par un nettoyage des données pour détecter, corriger et supprimer les enregistrements corrompus ou inexacts
Résumé
L'IA et l'apprentissage automatique requièrent des algorithmes et des décisions de pilotage des données de haute qualité. L'intelligence artificielle, l'apprentissage automatique et l'apprentissage profond auront très certainement un impact majeur sur l'avenir de la plupart des entreprises, à un moment ou un autre. Les algorithmes d'apprentissage automatique constituent déjà la principale méthode de détection des logiciels malveillants basés sur des fichiers, et de blocage des logiciels malveillants en général. Ils déterminent également les applications dangereuses à utiliser et les isolent des systèmes de production. L'IA est aussi utilisée dans les services financiers, les soins de santé et les assurances afin de protéger les données hautement sensibles.
Le concept de l'IA et de l'apprentissage automatique nous captive véritablement. Quand leur potentiel sera pleinement exploité, ces outils seront tout simplement incroyables. Assurez-vous de posséder de solides connaissances en interne ou de faire appel à un partenaire cloud ou d'implémentation afin d'échapper aux pièges du piratage informatique.

Avertissement : les opinions, convictions et points de vue exprimés par les divers auteurs et/ou participants au forum sur ce site Web ne reflètent pas nécessairement ceux de DigiKey ni les politiques officielles de la société.