Tech&Co Intelligence artificielle
Intelligence artificielle

Comment fonctionne Sora, l'IA qui génère des vidéos ultraréalistes?

L'intelligence artificielle générative, dévoilée jeudi 15 février par Open AI se base sur le modèle de DALL-E et ChatGPT, mais pas que.

Vous connaissiez peut-être DALL-E, le générateur d'images, concurrent de Midjourney, développé par OpenAI. Jeudi 15 février, l'entreprise américaine est passée à l'étape supérieure et a dévoilé Sora, un générateur de clips vidéo.

Sur le papier, les deux intelligences artificielles fonctionnent de la même manière. La génération de contenus est rendue possible grace à une requête textuelle, que Sora comprend mieux que DALL-E 3 et ChatGPT (l'autre produit star de OpenAI) malgré une base commune.

"Sora s'appuie sur des recherches antérieures sur les modèles DALL-E et GPT. Il utilise la technique de récapitulation de DALL-E 3, qui consiste à générer des légendes hautement descriptives pour les données d'entraînement visuel. En conséquence, le modèle est capable de suivre plus fidèlement les instructions textuelles de l’utilisateur dans la vidéo générée", explique Open AI dans un communiqué.

Transformer les données visuelles

Elle utilise un vaste ensemble de données issues de vidéos. Ces vidéos sont ensuite analysées par le système, qui va générer des millions de mots descriptifs des images. Cette étape cruciale permet ensuite d'organiser l'information visuelle, au format textuel, pour comprendre les requêtes qui seront écrites par les utilisateurs.

Lorsque l'utilisateur émet sa requête textuelle, Sora l'analyse et en extrait les mots-clés qu'elle juge pertinents comme le sujet, l'action, le lieu, l'heure ou encore l'ambiance. Elle recherche ensuite les vidéos les plus appropriées aux mots-clés. Avant de les extraire de sa base de données et de les assembler pour créer le clip vidéo.

Le New York Times relève qu'OpenAI ne précise pas le nombre de vidéos apprises par son système. L'entreprise a toutefois indiqué que certaines vidéos étaient accessibles au grand public, d'autres sous licence de droits d'auteur.

En plus de générer une vidéo à partir d'une requête textuelle, Sora est capable de générer un clip à partir d'une "image fixe existante" et même d'assimiler une vidéo existante existante pour "la rallonger" en ajoutant d'autres plans.

Des limites dans le développement

L'IA peut aussi étirer une vidéo déjà existante en l'étendant "vers l’avant et vers l’arrière, afin de produire une boucle infinie transparente", détaille OpenAI. Le décor et les éléments environnants peuvent être embellis par Sora.

La cohérence des images générées est l'un des points clés du développement de Sora selon OpenAI. "Au fur et à mesure que la caméra se déplace et tourne, les personnes et les éléments de la scène se déplacent de manière cohérente dans l'espace tridimensionnel", explique l'entreprise de Sam Altman.

Mais toutes ces promesses technologiques ont des limites. "Des interactions, comme manger de la nourriture, n’entraînent pas toujours des changements corrects dans l’état de l’objet". Par exemple, une personne peut mordre dans un cookie, sans que ce dernier n'ait de trace de morsure par la suite.

L'outil, dont le nom veut dire "ciel" en japonais (en référence à l'infinité de possibilités qu'offre Sora), n'est pour le moment pas destiné à une utilisation par le grand public. La génération de vidéo reste donc interne à Open AI.

Willem Gay