Tech&Co Intelligence artificielle
Intelligence artificielle

Cette IA fait chanter n'importe quelle photo avec un réalisme bluffant

Une antenne scientifique du groupe Alibaba a dévoilé son nouveau modèle d'IA générative, qui permet la création de clip vidéo à partir d'une image portrait et d'une bande son.

L'intelligence artificielle générative n'en finit plus d'impressionner. Après Sora, qui permet de générer un clip vidéo à partir d'une image ou d'une requête textuelle. Et Suno qui vous donne l'occasion d'être un producteur de musique en générant des morceaux à partir d'un texte. EMO concentre le meilleur des deux IA.

L'Institut d'Alibaba pour l'intelligence informatique (Alibaba Cloud Intelligence) a présenté, dans un article de recherche publié le 27 février, son nouveau modèle d’intelligence artificielle, qui a pour nom "EMO". Elle permet de transformer des photos de portraits - couplées avec des bandes son - en vidéos réalistes grâce à "une synthèse audio-vidéo avancée". En clair, n'importe quelle photo peut soudainement se mettre à chanter avec une précision des lèvres impressionnante.

Les chercheurs indiquent "contourner les besoins de modèles 3D" pour donner vie aux portraits. "Notre méthode garantit des animations très expressives et réalistes", souligne l'article. Alibaba (propriétaire chinois du site AliExpress) s'enthousiasme, aussi, de résultats expérimentaux "convaincants" qui démontrent que EMO est capable de produire "des vidéos convaincantes".

Riche base de données

La qualité de la vidéo générée peut laisser perplexe, tant le réalisme est au rendez-vous. Les pommettes des figurants bougent, tout comme les cordes vocales (gorge) et les sourcils. Il faut quelques secondes à un œil averti pour se rendre compte que la vidéo est le fruit d'une génération par intelligence artificielle.

"Nous avons constitué une base de données audio-vidéo riche de 250 heures de contenus et de 150 millions d’images. Les contenus audio sont riches en information concernant les expressions faciales, permettant théoriquement de générer un large panel de mouvements faciaux", détaille l'article.

L'algorithme simplifié d'une génération de vidéo à partir d'un portrait, par EMO AI.
L'algorithme simplifié d'une génération de vidéo à partir d'un portrait, par EMO AI. © EMO AI (capture d'écran)

EMO transforme les données audio en animation faciale, un peu à la manière de Sora qui transforme les données visuelles - de sa base de donnée - en script pour mieux comprendre les requêtes demandées par les utilisateurs.

Dans l'article, l'équipe se dit "parfaitement consciente" des problèmes d'éthique que peut générer un tel algorithme de génération de vidéo. Elle "s'est engagée à explorer des méthodes de détection des vidéos synthétiques". Pour le moment, elle n'est pas encore mise à disposition du grand public.

Willem Gay