Tech&Co
Facebook

Mark Zuckerberg utilise vos photos Facebook et Instagram pour entraîner son IA

Meta utilise les centaines de milliards de publications disponibles chaque jour pour entraîner son modèle de langage d'intelligence artificielle. Ce qu'a rappelé Mark Zuckerberg.

A l'occasion de sa présentation de résultats auprès des investisseurs, le jeudi 1er février, Mark Zuckerberg s'est félicité de la quantité de données que récupère Meta, son entreprise, auprès des utilisateurs afin d'entraîner son modèle d'intelligence artificielle.

"Sur Facebook et Instagram, il y a des centaines de milliards de photos et vidéos partagées publiquement. Nous estimons que cela est plus grand que le Common Crawl (l'une des plus grandes bases de données en ligne au monde, ndlr). On compte aussi le grand nombre de commentaires que les utilisateurs publient en ligne sur nos différentes plateformes", a dévoilé Mark Zuckerberg à l'occasion de cette conférence, rapporte le média spécialisé Gizmodo.

Le modèle de langage de Facebook, dévoilé en février 2023 pour concurrencer ChatGPT, est Llama 2. L'entreprise l'a rendu accessible gratuitement quelques mois après sa sortie. Ces modèles, qu'il s'agisse de ChatGPT, Google Bard ou Llama 2, sont entraînés sur des millions de données publiques ou privées, ce qui par ailleurs a conduit à certaines polémiques par rapport à la vie privée et au droit d'auteur.

Des données "majoritairement" publiques

L'entreprise n'agit pas vraiment dans le secret: elle avait annoncé en septembre dernier utiliser les contenus partagés publiquement pour entraîner son intelligence artificielle, en excluant les publications issues de comptes privés. Elle avait également affirmé ne pas utiliser les conversations privées entre utilisateurs.

"Nous avons essayé d'exclure les jeux de données qui relèvent de l'intimité de nos utilisateurs", avait déclaré Nick Clegg, président des affaires mondiales au sein de l'entreprise, ajoutant que la "vaste majorité" des données concernées sont issues de comptes publics, rapportait alors l'agence de presse Reuters. Ce qui n'exclut donc pas l'utilisation de données privées et/ou intimes.

Cette pratique n'est pas exclusive à Meta: pour entraîner Grok, son intelligence artificielle, Elon Musk se sert chez Twitter. Mais avec plusieurs milliards d'utilisateurs actifs sur ses plateformes, Meta dispose d'une quantité de données personnelles pharaonique.

Victoria Beurnez