Sora : découvrez les incroyables vidéos créées par la nouvelle IA d'OpenAI

OpenAI présente Sora, sa nouvelle IA capable de générer des vidéos d'un réalisme époustouflant à partir d'une simple description textuelle. Les résultats sont tellement impressionnants qu'ils soulèvent déjà des questions éthiques.

Rien ne semble pouvoir arrêter OpenAI, qui multiplie les projets d'intelligence artificielle générative avec des outils tous plus bluffants les uns que les autres ! Alors que l'entreprise derrière ChatGPT a annoncé développer son propre moteur de recherche pour concurrencer Google – rien que ça ! –, l'entreprise américaine vient de dévoiler un tout nouvel outil. Baptisé Sora, qui signifie "ciel" en japonais, en référence à l'infinité de possibilités offertes – rien à voir avec le héros de Kingdom Hearts –, il permet de générer des vidéos à partir d'une simple demande textuelle. Sam Altman avait déjà annoncé son projet en janvier 2023, sans toutefois donner beaucoup de détails. Concrètement, il fonctionne comme n'importe quel éditeur d'images dopé à l'IA – comme DALL-E – : il suffit d'écrire sa demande pour que l'intelligence artificielle s'exécute, mais au lieu de créer une image, il génère une vidéo, dont la durée peut aller jusqu'à 60 secondes. Et le moins que l'on puisse dire, c'est que le résultat est bluffant de réalisme ! Voilà qui risque d'inquiéter les artistes, qui mettent généralement plusieurs heures à produire ce genre de contenu...

Sora : des vidéos d'un réalisme époustouflant

"Sora est capable de générer des scènes complexes avec plusieurs personnages, des types de mouvements spécifiques et des détails précis sur le sujet et l'arrière-plan. Le modèle comprend non seulement ce que l'utilisateur a demandé dans l'invite, mais aussi comment ces choses existent dans le monde physique", explique OpenAI. Ces courtes vidéos produisent des scènes diverses et variées, comme un couple marchant dans les rues enneigées de Tokyo, des mammouths courant dans la neige, un monstre en admiration devant une bougie, ou encore la visite d'une galerie d'art avec de nombreuses œuvres d'art de styles différents. Voici un exemple de prompt : "La belle ville de Tokyo enneigée est agitée. La caméra se déplace au sein des rues animées, suivant plusieurs personnages en train d'apprécier la météo hivernale et de faire du shopping. Des pétales de sakura [ndla : fleurs de cerisiers] volent dans les airs, en compagnie de flocons de neige." On vous laisse juger du résultat !

Les vidéos sont extrêmement réalistes et comportent de multiples détails, avec une caméra qui s'amuse à virevolter dans le ciel. Il y a même un petit monstre que l'on croirait tout droit sorti d'un film d'animation de Pixar ou de Dreamworks ! Heureusement qu'il y a un marqueur, sinon il serait difficile de les différencier de vidéos authentiques. Mais comment est-ce possible ? "Sora s'appuie sur des recherches antérieures sur les modèles DALL-E et GPT. Il utilise la technique de récapitulation de DALL-E 3, qui consiste à générer des légendes hautement descriptives pour les données d'entraînement visuel. En conséquence, le modèle est capable de suivre plus fidèlement les instructions textuelles de l'utilisateur dans la vidéo générée", explique Open AI dans un communiqué.

L'IA utilise un important ensemble de données issues de vidéos, qui sont ensuite analysées par le système, qui va générer des millions de mots descriptifs des images. Lorsque l'utilisateur émet sa requête par écrit, Sora l'analyse et en extrait les mots-clés qu'elle juge pertinents. Elle recherche ensuite les vidéos qui correspondent le mieux aux mots-clés, puis les extrait de sa base de données et les assemble pour créer le clip vidéo. Mieux encore, l'outil est capable d'étirer une vidéo déjà existante en l'étendant "vers l'avant et vers l'arrière, afin de produire une boucle infinie transparente". Elle fait bien évidemment en sorte que les personnages se déplacent de manière cohérente dans l'espace tridimensionnel.

Vous pouvez découvrir de nombreux exemples de vidéos réalisées avec Sora sur la page de présentation d'OpenAI. Petite astuce : en cliquant simplement sur un des panneaux latéraux à droite d'une vidéo, vous en verrez d'autres qui ne sont pas affichées par défaut. Et certaines valent vraiment le détour, tant elles sont spectaculaires.

Sora : une IA à ne pas mettre entre toutes les mains

Reste que, si on prête attention, certains détails ne laissent pas de doute quant à l'origine de la vidéo. Par exemple, les jambes de la femme qui déambule la nuit dans les rues de Tokyo s'intervertissent à la 15e seconde de la vidéo. Quant au couple, on peut remarquer un freeze qui fait tache. OpenAI en est bien conscient. "Le modèle actuel a des faiblesses. Il peut rencontrer des difficultés en voulant simuler avec précision la physique d'une scène complexe, et peut ne pas comprendre des cas spécifiques de causalité. Par exemple, un personnage peut manger un morceau de cookie et, l'instant d'après, le cookie reste intact", concède l'entreprise.

Mais on peut légitimement s'interroger sur les dangers qui peuvent découler d'un outil si puissant. Comment différencier le faux du réel ? Même si OpenAI prend soin d'incorporer des marqueurs afin d'identifier les vidéos générées par Sora, la plupart des internautes risquent de passer à côté et de prendre pour argent comptant ce qu'ils voient. Et c'est sans compter les contenus problématiques... Aussi, pour le moment, l'IA n'est pas destinée au grand public. L'entreprise annonce prendre "plusieurs mesures de sécurité importantes avant de rendre Sora disponible dans les produits d'OpenAI". Une équipe d'experts "dans les domaines de la désinformation et des contenus haineux" s'occupe de tester l'outil pour le pousser dans ses derniers retranchements afin de mettre en place les garde-fous les plus résistants possibles. Par la suite, l'entreprise de Sam Altman compte déployer l'accès à Sora auprès de quelques artistes, designers et cinéastes afin d'obtenir des retours. Bref, nous ne sommes pas près de l'avoir entre les mains !