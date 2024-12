Lecture Zen Résumer l'article

Présentée par OpenAI comme une révolution pour créer des vidéos, la première version de Sora est aussi impressionnante que décevante. Une simple phrase suffit bel et bien pour générer un film, mais le contenu est souvent rempli d’erreurs. Le tout avec des limites frustrantes.

En février 2024, en annonçant Sora, OpenAI avait fait parler le monde entier. Le créateur de ChatGPT se disait capable de générer des vidéos ultra-réalistes à partir de phrases simples, ce qui laissait craindre le pire à l’heure de la désinformation et de la post-vérité. Toutes les vidéos publiées par OpenAI étaient incroyables : il était impossible de distinguer le vrai du faux.

Dix mois plus tard, Sora est enfin disponible. Le service, qui nécessite un VPN en France, est arrivée dans une première version grand public le 9 décembre 2024. Sora est-il à la hauteur des attentes ? Nous avons essayé la V1 de Sora pendant plusieurs heures et voici notre avis.

Une interface réussie, avec des outils simples à comprendre

Commençons par le positif : l’interface de Sora est très réussie.

OpenAI a pris la décision de lancer un site distinct, sora.com, plutôt que d’intégrer son générateur de vidéos à ChatGPT. On ne peut que saluer cette initiative qui permet de ne pas inonder le chatbot de nouveaux services, tout en offrant des outils dédiés à la vidéo dans une web-application. L’interface de Sora est suffisamment bien pensée pour que n’importe qui puisse l’utiliser (en attendant que le service soit suffisament mature pour l’intégrer à ChatGPT, ce qui finira forcément par arriver).

Sur la page d’accueil de Sora, il y a plusieurs onglets dans une barre latérale :

La section « Explore » permet de voir les créations des autres, pour s’en inspirer.

La section « Library » affiche ses propres créations, pour les télécharger ou pour les modifier.

Une barre flottante en bas de l’écran sert à générer une vidéo. Il suffit d’insérer une phrase et de choisir les paramètres de son choix. Bonne nouvelle : Sora comprend le français (mais traduit la demande en anglais).

En haut à droite, il y a les réglages et la file d’attente, qui dit où en sont ses dernières demandes.

L’interface de la bibliothèque Sora, avec ses créations et le champ pour prompter des demandes. // Source : Capture Numerama

Les outils d’édition de vidéos sont aussi bien conçus, avec la possibilité de créer ce qu’OpenAI qualifie de « storyboard ».

Pour faire simple : on peut demander à Sora de générer une image à la première seconde, de créer une transition de flou, puis d’afficher autre chose à la troisième seconde. On peut ainsi diriger sa propre vidéo. On remarque d’ailleurs que Sora améliore systématiquement le prompt de son utilisateur en proposant de lui-même quelque chose de beaucoup plus long et précis.

Le storyboard de Sora, ici avec une image importée qui est immédiatement décrite par l’IA. // Source : Capture Numerama

Autre point fort : la rapidité. Quand il n’y a pas des problèmes techniques (le lancement de Sora a été compliqué, avec des serveurs pris d’assaut), Sora met en moyenne 30 secondes pour générer une vidéo. Le service dispose aussi d’une interface web, même si le téléchargement de vidéos est plus compliqué que sur ordinateur.

De trop nombreuses limites techniques qui réduisent l’intérêt de Sora V1

Malheureusement, tout n’est pas parfait. Un des gros problèmes de Sora est la présence de nombreuses limites techniques mises en place par OpenAI pour ne pas saturer ses serveurs. Seuls les abonnés payants à ChatGPT ont accès au service et seuls ceux qui payent 200 dollars par mois pour ChatGPT Pro peuvent vraiment en bénéficier dans son intégralité. ChatGPT Plus, à 20 dollars par mois, propose un Sora très bridé.

Avec un abonnement ChatGPT Plus, on dispose d’un Sora très light. // Source : Numerama

Avec ChatGPT Plus, on dispose de 1 000 crédits par mois, ce qui revient à 50 vidéos dans la qualité la plus basse (480p, dix secondes au maximum et une seule demande à la fois). Tout est fait pour dissuader l’utilisateur qui souhaiterait trop utiliser Sora, au risque de ne rien pouvoir faire après. On peut créer des vidéos de 10 secondes en 480p, mais seulement de 5 secondes en 720p. Il semble difficile de trouver un usage aux vidéos générées par Sora dans ces qualités.

Autre limite regrettable : Sora est capable de transformer une photo en vidéo, mais ne peut le faire correctement que si l’on paye l’abonnement à 200 dollars par mois. Autrement, il n’animera que des objets ou des animaux, les humains seront bloqués. On sent qu’OpenAI veut vendre son nouvel abonnement le plus cher.

Les photos avec des humains nécessitent l’abonnement à 200 dollars par mois. // Source : Numerama

Dernier problème technique : l’envoi d’image pour créer une vidéo est assez étrange, avec des résultats parfois très fidèles à la réalité, mais toujours trop différents pour être plausibles. En l’état, Sora est une expérimentation, mais pas un outil qui confond le vrai et le faux.

Nos premières vidéos générées avec Sora : du bon et du très mauvais

Et les vidéos dans tout ça ? Nous avons généré une quinzaine d’exemples, que vous pouvez retrouver dans un thread Twitter. Certaines vidéos sont très bonnes, d’autres (la plupart en réalité) sont très moyennes.

"Un chat déguisé en super héros avec une cape en train de voler au-dessus de Times square à New York" pic.twitter.com/IyHxE8Rd4K — Numerama (@Numerama) December 9, 2024

Pour pouvoir le visualiser, vous devez accepter l’usage étant opéré par Twitter avec vos données qui pourront être utilisées pour les finalités suivantes : vous permettre de visualiser et de partager des contenus avec des médias sociaux, favoriser le développement et l’amélioration des produits d’Humanoid et de ses partenaires, vous afficher des publicités personnalisées par rapport à votre profil et activité, vous définir un profil publicitaire personnalisé, mesurer la performance des publicités et du contenu de ce site et mesurer l’audience de ce site (en savoir plus) En cliquant sur « J’accepte tout », vous consentez aux finalités susmentionnées pour l’ensemble des cookies et autres traceurs déposés par Humanoid et ses partenaires. Vous gardez la possibilité de retirer votre consentement à tout moment. Pour plus d’informations, nous vous invitons à prendre connaissance de notre Politique cookies. J’accepte tout Gérer mes choix

Souvent, Sora a un gros problème avec la physique. L’exemple le plus marquant dans nos tests est celui d’un joueur de football qui raterait un pénalty. Pour une raison qui nous dépasse, Sora lui fait faire plusieurs acrobaties et ajoute un second tireur sur le terrain. La balle apparaît et disparaît sans que l’on sache trop pourquoi.

Autre exemple : celui d’un père Noël qui court sur les Champs Élysées. L’avenue parisienne est parfaite, avec des personnes réalistes qui marchent, mais le père Noël ne ressemble à rien. Son visage est caché, il a deux barbes et son bonnet n’a aucune physique. Dans d’autres vidéos, nous avons tenté de générer un chat super-héros et un aigle au-dessus d’un canyon. À chaque fois, la manière de se déplacer ne semble pas naturelle.

"un joueur de foot du real madrid qui tire un penalty mais le gardien l'arrête" (avec de très gros problèmes physiques) pic.twitter.com/mibMT4YwbI — Numerama (@Numerama) December 9, 2024

Pour pouvoir le visualiser, vous devez accepter l’usage étant opéré par Twitter avec vos données qui pourront être utilisées pour les finalités suivantes : vous permettre de visualiser et de partager des contenus avec des médias sociaux, favoriser le développement et l’amélioration des produits d’Humanoid et de ses partenaires, vous afficher des publicités personnalisées par rapport à votre profil et activité, vous définir un profil publicitaire personnalisé, mesurer la performance des publicités et du contenu de ce site et mesurer l’audience de ce site (en savoir plus) En cliquant sur « J’accepte tout », vous consentez aux finalités susmentionnées pour l’ensemble des cookies et autres traceurs déposés par Humanoid et ses partenaires. Vous gardez la possibilité de retirer votre consentement à tout moment. Pour plus d’informations, nous vous invitons à prendre connaissance de notre Politique cookies. J’accepte tout Gérer mes choix

Dans certains cas, Sora fait des choses impressionnantes. Nos vidéos d’un homme sur son téléphone dans le métro et d’un koala qui mange une feuille sont dignes de la réalité. Sora est doué avec les tâches simples, où il y a peu d’action.

En revanche, pour créer une infographie en 2D d’un camion de livraison (nous imaginions l’introduction d’un reportage sur un centre de distribution Amazon), Sora fait n’importe quoi. Il génère du texte aléatoirement et mélange les images.

"Someone in the Parisian metro (line 8) texting with his smartphone. He wears glasses and seems tired by his day" (on a testé en anglais, pour voir si c'était mieux) pic.twitter.com/qWcrom2NtL — Numerama (@Numerama) December 9, 2024

Pour pouvoir le visualiser, vous devez accepter l’usage étant opéré par Twitter avec vos données qui pourront être utilisées pour les finalités suivantes : vous permettre de visualiser et de partager des contenus avec des médias sociaux, favoriser le développement et l’amélioration des produits d’Humanoid et de ses partenaires, vous afficher des publicités personnalisées par rapport à votre profil et activité, vous définir un profil publicitaire personnalisé, mesurer la performance des publicités et du contenu de ce site et mesurer l’audience de ce site (en savoir plus) En cliquant sur « J’accepte tout », vous consentez aux finalités susmentionnées pour l’ensemble des cookies et autres traceurs déposés par Humanoid et ses partenaires. Vous gardez la possibilité de retirer votre consentement à tout moment. Pour plus d’informations, nous vous invitons à prendre connaissance de notre Politique cookies. J’accepte tout Gérer mes choix

Sa connaissance de la géographie est aussi imparfaite. À Nice, Sora remplace les galets par du sable. Il confond aussi un homme et une femme, malgré une demande claire.

Dans une autre vidéo, toujours à Nice, il invente un aéroport qui n’est pas celui de la ville, tout en ne montrant pas le bon bateau. Les visages des humains sont bons, mais notre personnage principal n’a que quatre doigts.

"Un grand-père et son petit-fils sur un cataman à St-Laurent-du-Var, en face de l'aéroport de Nice" (spoiler : l'aéroport de Nice ne ressemble pas vraiment à ça) pic.twitter.com/HJMG4I0aI7 — Numerama (@Numerama) December 9, 2024

Pour pouvoir le visualiser, vous devez accepter l’usage étant opéré par Twitter avec vos données qui pourront être utilisées pour les finalités suivantes : vous permettre de visualiser et de partager des contenus avec des médias sociaux, favoriser le développement et l’amélioration des produits d’Humanoid et de ses partenaires, vous afficher des publicités personnalisées par rapport à votre profil et activité, vous définir un profil publicitaire personnalisé, mesurer la performance des publicités et du contenu de ce site et mesurer l’audience de ce site (en savoir plus) En cliquant sur « J’accepte tout », vous consentez aux finalités susmentionnées pour l’ensemble des cookies et autres traceurs déposés par Humanoid et ses partenaires. Vous gardez la possibilité de retirer votre consentement à tout moment. Pour plus d’informations, nous vous invitons à prendre connaissance de notre Politique cookies. J’accepte tout Gérer mes choix

Enfin, Sora est parfois capricieux au niveau du droit d’auteur. Nous comprenons parfaitement qu’il refuse d’animer une photo de la phryge, par peur d’enfreindre la loi, mais nous avons découvert qu’il refusait le terme « panda », sans que l’on sache pourquoi. Le prompt est converti en une « histoire » par l’outil, mais la vidéo finale refuse d’apparaître.

Dans certains cas, Sora est trop prudent et refuse de générer des choses. // Source : Capture Numerama

Contrairement à ChatGPT, qui avait immédiatement su provoquer un effet waouh, Sora est très imparfait. Il est probable que ce type d’outil devienne suffisamment performant pour générer des images ultra-réalistes à l’avenir, mais OpenAI a encore des progrès à réaliser.

En l’état, la V1 de Sora est surtout un super jouet pour les amateurs de nouvelles technologies, avec parfois de très bonnes surprises, mais pas un produit capable d’illustrer des projets professionnels. Pour ça, il faudra sans doute attendre plusieurs années.

