Protection & Sécurité

Apprentissage automatique : un outil à double tranchant ?

Temps de lecture: 9 minutes

L’intelligence artificielle (IA) et l’apprentissage automatique (ML) font partie de l’un des sujets les plus débattus en informatique. Certains espèrent que ces technologies offriront un jour une protection ultime contre les malwares, tandis que d’autres craignent que ces dernières puissent servir à alimenter des cyberattaques encore plus sophistiquées. Aucune de ces perspectives n’est fausse, vous allez voir pourquoi.

L’intelligence artificielle ne se limite pas à l’apprentissage automatique

L’intelligence artificielle et l’apprentissage automatique font l’objet de débats depuis longtemps. L’ampleur du changement que ces technologies peuvent apporter n’est pas encore totalement connu. Mais une chose est sûre : l’intelligence artificielle que nous voyons sur les écrans de cinéma reste futuriste.

Les termes « intelligence artificielle » et « apprentissage automatique » sont souvent utilisés à tort comme synonymes. Dans le cas de l’intelligence artificielle, il s’agit de faire en sorte que la machine puisse apprendre et agir de manière indépendante et « intelligente », sans interaction humaine et uniquement sur la base de données externes. L’apprentissage automatique, quant à lui, utilise des algorithmes de traitement des données pour effectuer certaines tâches de manière autonome. L’ordinateur peut rapidement identifier des structures et des anomalies dans de grandes quantités de données, et les décomposer en petites unités essentielles au problème (génération de modèles). Néanmoins, l’apprentissage automatique est généralement considéré comme le cœur de l’intelligence artificielle.  

Humains et androïdes ? La dream team qui peut vaincre les pirates informatiques

L’apprentissage automatique revêt une grande importance dans la lutte contre la cybercriminalité, notamment pour détecter les malwares. En utilisant d’énormes ensembles de données, l’apprentissage automatique est formé à classer correctement les fichiers et les échantillons dans les catégories « inoffensif » ou « malveillant ». Grâce à cela, les nouveaux éléments et les éléments inconnus peuvent être automatiquement affectés à l’une des deux catégories. De vastes quantités de données en entrée sont nécessaires pour que chaque élément d’information soit correctement catégorisé. Il est souvent affirmé à tort qu’un algorithme est en mesure de libeller parfaitement de nouveaux éléments simplement parce qu’on lui a fourni de grandes quantités de données. En réalité, la vérification effectuée par un humain via un contrôle final en cas de résultats douteux reste nécessaire.

Les humains sont toujours plus aptes que les machines à comprendre le contexte et à agir de manière concrète et créative. C’est un domaine dans lequel les algorithmes peuvent être améliorés. Par exemple, les développeurs professionnels de malwares peuvent habilement dissimuler leur objectif réel. Un malware peut être dissimulé dans les pixels d’un fichier image inoffensif, et des fragments de code malveillant peuvent se cacher dans des fichiers particuliers. L’effet malveillant ne se manifeste alors que lorsque les éléments individuels sont combinés. L’algorithme d’apprentissage automatique peut être incapable d’identifier ce processus et peut prendre une mauvaise décision. En revanche, un « chasseur de virus » humain pourrait reconnaître le danger avec plus de fiabilité grâce à sa formation, son expérience et son intuition. Il est donc nécessaire que les humains et les machines travaillent ensemble pour empêcher activement les actions malveillantes. 

L’apprentissage automatique n’est qu’une petite partie de la stratégie de sécurité informatique

L’apprentissage automatique est un élément important des stratégies de sécurité informatique depuis les années 1990. La dernière décennie digitale nous a appris qu’il n’existe pas de solutions simples à des problèmes complexes. C’est particulièrement vrai dans le cyberespace, où la situation peut changer en quelques secondes. Dans le monde d’aujourd’hui, il serait imprudent de ne compter que sur une seule technologie pour construire une cyberdéfense résiliente. Les décideurs en matière d’informatique doivent prendre conscience que, si l’apprentissage automatique est un outil incontestablement précieux dans la lutte contre la cybercriminalité, il ne devrait être qu’un élément de la stratégie de sécurité globale d’une organisation, et que la mise en œuvre de solutions informatiques sophistiquées nécessite toujours l’expertise de personnes réelles : les responsables de la sécurité ainsi que les administrateurs informatiques.

Les cybercriminels suivent également l’évolution de l’ère « intelligente » 

L’apprentissage automatique est tout aussi populaire dans le secteur de la cybercriminalité. De plus en plus de pirates utilisent l’apprentissage automatique pour localiser et exploiter des victimes potentielles, ou voler de précieuses données via des campagnes de spam et d’hameçonnage. L’apprentissage automatique peut être utilisé pour découvrir des lacunes et des points faibles. Les criminels utilisent également des algorithmes d’apprentissage automatique pour protéger leur propre infrastructure informatique (par exemple des botnets). 

Les entreprises qui utilisent l’apprentissage automatique à grande échelle sont parfois particulièrement attrayantes pour les attaquants. En infectant par exemple des ensembles de données d’entrée, les cybercriminels font en sorte que des systèmes par ailleurs fonctionnels produisent des résultats erronés et fassent de mauvais choix stratégiques, provoquant le chaos, des perturbations opérationnelles, et parfois même des dommages irréparables. 

Des malwares s’appuyant sur l’apprentissage automatique : le cas d’Emotet 

Emotet est un malware basé sur l’apprentissage automatique qui circule sur Internet depuis des années. Les pirates l’ont utilisé pour télécharger automatiquement des applications indésirables, notamment des chevaux de Troie bancaires, sur les ordinateurs de leurs victimes. Grâce à l’apprentissage automatique, Emotet est capable de sélectionner ses victimes de manière très spécifique. Son efficacité à échapper aux détecteurs de botnet et aux pièges de type honeypots est étonnante. 

Lors de ces attaques, Emotet collecte des données télémétriques sur ses victimes potentielles et les envoie au serveur de commande et de contrôle (C&C) de l’attaquant pour analyse. Il reçoit en retour des commandes ou des modules supplémentaires, et ne sélectionne que les modules correspondant aux commandes reçues en fonction des données de télémétrie. Il semble également capable de distinguer les humains réels des machines virtuelles et des environnements automatisés utilisés par les chercheurs et les enquêteurs en cybersécurité. 

La capacité d’Emotet à faire la différence entre des processus légitimes et artificiels est particulièrement frappante. Dans un premier temps, ces derniers sont acceptés, mais ils sont ensuite mis sur liste noire en quelques heures. Pendant que l’appareil de la victime continue de transmettre des données, sur les machines/bots figurant sur la liste noire, le code malveillant se met en quelque sorte en sommeil et cesse toute activité malveillante. 

Apprentissage automatique et IoT

Depuis qu’il existe, l’Internet des objets (IoT) est une cible de choix pour les attaquants. De nos jours, le nombre de routeurs, de caméras de surveillance et d’autres appareils intelligents ne cesse d’augmenter. Dans de nombreux cas, cependant, ces dispositifs sont extrêmement peu fiables et peuvent souvent être espionnés ou utilisés à mauvais escient. Cela se produit généralement en raison des paramètres d’usine utilisés par défaut, de mots de passe faibles ou d’autres vulnérabilités bien connues.

Grâce aux algorithmes d’apprentissage automatique, les attaquants peuvent exploiter des failles de sécurité. Ils peuvent par exemple :

  • Trouver des vulnérabilités jusqu’alors inconnues dans les appareils IoT et collecter de grandes quantités de données sur le trafic et le comportement des utilisateurs, qui peuvent ensuite être utilisées pour former des algorithmes afin d’améliorer leurs mécanismes cachés. 
  • Comprendre les comportements et les processus standard de certains malwares rivaux afin de les supprimer au besoin ou de les utiliser à leurs propres fins. 
  • Créer chaque année des ensembles de mots de passe les plus utilisés aux fins de former les modèles, sur la base de millions de phrases et de mots de passe fuités. Cela pourrait permettre aux attaquants de pénétrer encore plus facilement dans des dispositifs IoT comparables. 

Comment résister aux menaces en ligne

Grâce au big data et à l’amélioration de la puissance de calcul, l’apprentissage automatique a été largement utilisé dans différents domaines ces dernières années, y compris la sécurité informatique. Mais le monde de la sécurité digitale est en constante évolution. Il est donc impossible de protéger en permanence l’infrastructure de votre entreprise contre des menaces qui évoluent fréquemment, uniquement à l’aide d’algorithmes d’apprentissage automatique. Des solutions multicouches combinées à des personnes expertes et compétentes sont le seul moyen de conserver une longueur d’avance sur les pirates.