Tech&Co Intelligence artificielle
Intelligence artificielle

DarkBERT: à quoi peut servir le ChatGPT du dark web?

DarkBERT a pour fonction de ratisser la partie cachée d'internet pour y trouver des informations.

Les robots conversationnels fleurissent à mesure que le succès de ChatGPT grandit. Depuis sa généralisation fin 2022, l'intelligence artificielle créée par OpenAI a séduit au moins 200 millions d'utilisateurs. Une vague qui n'est clairement pas passée inaperçue, et qui fait des émules.

Dans cette tendance, un groupe de chercheurs sud-coréens a voulu repenser l'utilisation du robot conversationnel en le liant au dark web, cette partie immense et difficilement accessible d'internet où pullulent les activités illicites.

DarkBERT, de son nom, a donc pour but d'aider à "traiter les cybermenaces sur le dark web", indique le rapport publié le 18 mai 2023 par le groupe de chercheurs sud-coréens, repéré par O1net et consulté par Tech&Co.

DarkBERT s'appuie sur des modèles de langage déjà existants. "Nous comparons DarkBERT à d'autres modèles de langage largement utilisés tels que BERT (Google) et RoBERTa (Meta), qui ont été entraînés sur des données glanées sur l'internet 'de surface' pour vérifier l'efficacité de DarkBERT dans le domaine textuel du dark web", indiquent les chercheurs dans le rapport.

Les données sensibles écartées

De fait, DarkBERT a été entraîné avec 5,3 gigaoctets de données issues du dark web. Certaines données ont été volontairement omises, à l'instar de données personnelles sensibles.

"Il est indispensable que le modèle n'apprenne pas des représentations issues d'informations sensibles", précise le rapport.

Parmi les informations sensibles mentionnées par les chercheurs se trouvent principalement des données personnelles volées, qui se revendent à prix d'or sur les forums dédiés du dark web. On y trouve des documents relatifs à l'identité ou encore des informations financières ou médicales, etc. Difficile d'accès, le dark web est un repère idéal pour les activités illicites, allant de la vente d'arme et de drogue à la revente de ces précieuses données.

"Comme de nouveaux forums émergent chaque jour, des ressources humaines massives sont nécessaires pour identifier manuellement chaque menace. Automatiser la détection de potentielles menaces pourrait considérablement réduire le travail des experts en cybersécurité", déclarent les chercheurs.

Le modèle, qui est toujours en voie d'essai, est prometteur, selon le groupe de chercheurs. "Notre étude démontre que DarkBERT dépasse les modèles de langage actuel et pourrait servir comme une ressource de qualité pour de futures recherches sur le dark web", déclarent-ils à l'issue de ce rapport.

Victoria Beurnez