Comment fonctionne Sora, l'IA qui génère des vidéos ultraréalistes?

Le 16/02/2024 à 13:03

L'intelligence artificielle générative, dévoilée jeudi 15 février par Open AI se base sur le modèle de DALL-E et ChatGPT, mais pas que.

Vous connaissiez peut-être DALL-E, le générateur d'images, concurrent de Midjourney, développé par OpenAI. Jeudi 15 février, l'entreprise américaine est passée à l'étape supérieure et a dévoilé Sora, un générateur de clips vidéo.

Sur le papier, les deux intelligences artificielles fonctionnent de la même manière. La génération de contenus est rendue possible grace à une requête textuelle, que Sora comprend mieux que DALL-E 3 et ChatGPT (l'autre produit star de OpenAI) malgré une base commune.

"Sora s'appuie sur des recherches antérieures sur les modèles DALL-E et GPT. Il utilise la technique de récapitulation de DALL-E 3, qui consiste à générer des légendes hautement descriptives pour les données d'entraînement visuel. En conséquence, le modèle est capable de suivre plus fidèlement les instructions textuelles de l’utilisateur dans la vidéo générée", explique Open AI dans un communiqué.

Transformer les données visuelles

Elle utilise un vaste ensemble de données issues de vidéos. Ces vidéos sont ensuite analysées par le système, qui va générer des millions de mots descriptifs des images. Cette étape cruciale permet ensuite d'organiser l'information visuelle, au format textuel, pour comprendre les requêtes qui seront écrites par les utilisateurs.

Lorsque l'utilisateur émet sa requête textuelle, Sora l'analyse et en extrait les mots-clés qu'elle juge pertinents comme le sujet, l'action, le lieu, l'heure ou encore l'ambiance. Elle recherche ensuite les vidéos les plus appropriées aux mots-clés. Avant de les extraire de sa base de données et de les assembler pour créer le clip vidéo.

Le New York Times relève qu'OpenAI ne précise pas le nombre de vidéos apprises par son système. L'entreprise a toutefois indiqué que certaines vidéos étaient accessibles au grand public, d'autres sous licence de droits d'auteur.

En plus de générer une vidéo à partir d'une requête textuelle, Sora est capable de générer un clip à partir d'une "image fixe existante" et même d'assimiler une vidéo existante existante pour "la rallonger" en ajoutant d'autres plans.

Des limites dans le développement

L'IA peut aussi étirer une vidéo déjà existante en l'étendant "vers l’avant et vers l’arrière, afin de produire une boucle infinie transparente", détaille OpenAI. Le décor et les éléments environnants peuvent être embellis par Sora.

La cohérence des images générées est l'un des points clés du développement de Sora selon OpenAI. "Au fur et à mesure que la caméra se déplace et tourne, les personnes et les éléments de la scène se déplacent de manière cohérente dans l'espace tridimensionnel", explique l'entreprise de Sam Altman.

Mais toutes ces promesses technologiques ont des limites. "Des interactions, comme manger de la nourriture, n’entraînent pas toujours des changements corrects dans l’état de l’objet". Par exemple, une personne peut mordre dans un cookie, sans que ce dernier n'ait de trace de morsure par la suite.

OpenAI, cette société qui révolutionne l'intelligence artificielle

Willem Gay

Comment fonctionne Sora, l'IA qui génère des vidéos ultraréalistes?

Transformer les données visuelles

Des limites dans le développement

OpenAI, cette société qui révolutionne l'intelligence artificielle

"Sam a commencé à mentir": les raisons du licenciement surprise de Sam Altman d'OpenAI enfin dévoilées

Pourquoi OpenAI n'a finalement pas copié la voix de Scarlett Johansson pour ChatGPT

Guerre interne, sécurité... pourquoi les départs se multiplient chez OpenAI

Les plus lus

Impôts, prix du gaz, noms de rues, CBD… Tout ce qui change au 1er juin 2024

Isère: des jeunes dénoncent une attaque "raciste" lors d'une fête de village

"Qu'est-ce que c'est que ce bazar?": ces Islandais ont été candidats par erreur à l'élection présidentielle

We Love Green, les Eurockéennes, Solidays... Comment le rap s'est imposé dans les grands festivals

Roland-Garros 2024: Le programme complet des matchs du samedi 1er juin avec Gracheva, Zverev et Djokovic

A la Une