Lecture Zen Résumer l'article

Grâce au modèle Veo 2, désormais intégré à l’interface Gemini, Google permet à tous ses utilisateurs, y compris en France, de générer des vidéos de 8 secondes à partir d’une simple phrase écrite. Une prouesse technologique similaire à Sora (OpenAI), mais avec de nombreux défauts dans la gestion de la physique.

En décembre 2024, peu après le lancement de Sora (OpenAI) aux États-Unis, Google avait annoncé Veo 2, son nouveau modèle de génération de vidéos. L’entreprise mettait en avant une technologie bien plus performante que celle du créateur de ChatGPT, capable de comprendre la physique terrienne, de mieux reproduire les mouvements et de réaliser des vidéos 4K. Une petite prouesse technologique bloquée dans l’Union européenne et seulement accessible sur liste d’attente, depuis l’outil expérimental VideoFX.

Quatre mois plus tard, le 15 avril 2025, l’entreprise californienne annonce le déploiement de Veo 2 dans Google Gemini, son concurrent de ChatGPT. Contrairement à Sora, qui force les utilisateurs à se rendre sur un site distinct, Veo 2 prend la forme d’un modèle à sélectionner dans l’interface Gemini. On perd alors la possibilité de discuter, mais chaque phrase écrite est convertie en vidéo de 8 secondes, en qualité 720p et au format 16:9. Tous les abonnés payants à Gemini Advanced y ont accès : Google ne dit rien sur les utilisateurs gratuits.

Veo 2 se sélectionne en tant que modèle depuis l’interface Gemini, on ne peut plus poser de questions normales quand il est sélectionné. // Source : Capture Numerama

Que vaut Veo 2 dans Gemini ? Numerama a passé une matinée à jouer avec l’outil de Google, puisque l’entreprise nous a permis d’y accéder 24 heures avant son lancement. Les premiers résultats sont assez mitigés, avec une exécution prometteuse, mais des vidéos qui souffrent des mêmes problèmes que Sora.

On a généré 10 vidéos avec Google Gemini et c’est très inégal

Google répond au succès du générateur d’images de ChatGPT avec la possibilité de générer des vidéos de 8 secondes depuis Gemini. L’accès à Veo 2 est extrêmement facile. Il suffit d’entrer une phrase, d’attendre approximativement une minute et une vidéo au format MP4 apparaît. On peut la télécharger ou la regarder depuis la conversation.

Générer une vidéo dans Gemini est extrêmement simple. Il n’y pas d’interface dédiée ou d’éditeur comme dans Sora. // Source : Capture Numerama

La génération de vidéos dans Gemini est simple, mais à des années-lumière des promesses faites par Google en décembre 2024. Les vidéos sont en 720p et non pas en 4K. Il n’est pas possible de générer du contenu vertical pour les réseaux sociaux. Et on ne peut pas envoyer une image/photo pour l’animer. Tout ce que Gemini accepte est une phrase écrite, qu’il convertit en une courte vidéo.

Avec Veo 2 dans Gemini, Google fait le choix d’une approche extrêmement basique, alors que Sora propose un vrai éditeur de vidéos avec un storyboard et de multiples options (qualité, durée, nombre de tentatives, etc.). L’approche de Gemini vise à initier les utilisateurs à la génération de vidéos, mais n’est pas vraiment celle d’un modèle leader en la matière (de nombreux modèles open source, notamment chinois, surpasse les solutions des Américains). La preuve avec les exemples ci-dessous :

Les vidéos satisfaisantes générées par Google Gemini

Sur notre vingtaine d’essais, seulement quatre ou cinq sont plutôt convaincants. Voici nos prompts ainsi que quelques commentaires :

1) Génère un couple en train de manger des spaghettis. L’homme mange à la fourchette, la femme les aspire

Ici, nous avons tenté de jouer avec une des faiblesses des modèles de génération de vidéos : les pâtes. Veo 2 ne respecte pas parfaitement la consigne (les deux mangent à la fourchette), mais les pâtes ne disparaissent pas mystérieusement. Des morceaux tombent de la bouche, mais la physique est globalement respectée. Sora a tendance à échouer ici.

Ce contenu est bloqué car vous n’avez pas accepté les cookies et autres traceurs. Ce contenu est fourni par YouTube.

Pour pouvoir le visualiser, vous devez accepter l’usage étant opéré par YouTube avec vos données qui pourront être utilisées pour les finalités suivantes : vous permettre de visualiser et de partager des contenus avec des médias sociaux, favoriser le développement et l’amélioration des produits d’Humanoid et de ses partenaires, vous afficher des publicités personnalisées par rapport à votre profil et activité, vous définir un profil publicitaire personnalisé, mesurer la performance des publicités et du contenu de ce site et mesurer l’audience de ce site (en savoir plus) En cliquant sur « J’accepte tout », vous consentez aux finalités susmentionnées pour l’ensemble des cookies et autres traceurs déposés par Humanoid et ses partenaires. Vous gardez la possibilité de retirer votre consentement à tout moment. Pour plus d’informations, nous vous invitons à prendre connaissance de notre Politique cookies. J’accepte tout Gérer mes choix

2) Génère une vidéo dans le style des films de 1920 en noir et blanc, avec des hommes qui marchent dans la rue à Paris

Malgré quelques mouvements étranges avec les mains, la physique et le style sont ici respectés. On se croirait effectivement dans le vieux Paris avec des figurants qui ont l’air authentiques.

Ce contenu est bloqué car vous n’avez pas accepté les cookies et autres traceurs. Ce contenu est fourni par YouTube.

Pour pouvoir le visualiser, vous devez accepter l’usage étant opéré par YouTube avec vos données qui pourront être utilisées pour les finalités suivantes : vous permettre de visualiser et de partager des contenus avec des médias sociaux, favoriser le développement et l’amélioration des produits d’Humanoid et de ses partenaires, vous afficher des publicités personnalisées par rapport à votre profil et activité, vous définir un profil publicitaire personnalisé, mesurer la performance des publicités et du contenu de ce site et mesurer l’audience de ce site (en savoir plus) En cliquant sur « J’accepte tout », vous consentez aux finalités susmentionnées pour l’ensemble des cookies et autres traceurs déposés par Humanoid et ses partenaires. Vous gardez la possibilité de retirer votre consentement à tout moment. Pour plus d’informations, nous vous invitons à prendre connaissance de notre Politique cookies. J’accepte tout Gérer mes choix

3) Un présentateur télé au journal de 20 heures en train d’annoncer une mauvaise nouvelle sur un ton grave

Pourra-t-on un jour générer de faux bulletins télévisés avec Google Gemini ? L’outil ne gère pas les sons aujourd’hui, mais son faux présentateur télé est parfaitement réaliste. Dommage que la carte à l’arrière de l’écran raconte n’importe quoi, puisque Veo 2 gère très mal le texte. Les détails sont en tout cas très bons : regardez les mains du présentateur, avec le stylo et la bague.

Ce contenu est bloqué car vous n’avez pas accepté les cookies et autres traceurs. Ce contenu est fourni par YouTube.

Pour pouvoir le visualiser, vous devez accepter l’usage étant opéré par YouTube avec vos données qui pourront être utilisées pour les finalités suivantes : vous permettre de visualiser et de partager des contenus avec des médias sociaux, favoriser le développement et l’amélioration des produits d’Humanoid et de ses partenaires, vous afficher des publicités personnalisées par rapport à votre profil et activité, vous définir un profil publicitaire personnalisé, mesurer la performance des publicités et du contenu de ce site et mesurer l’audience de ce site (en savoir plus) En cliquant sur « J’accepte tout », vous consentez aux finalités susmentionnées pour l’ensemble des cookies et autres traceurs déposés par Humanoid et ses partenaires. Vous gardez la possibilité de retirer votre consentement à tout moment. Pour plus d’informations, nous vous invitons à prendre connaissance de notre Politique cookies. J’accepte tout Gérer mes choix

4) Gros plan sur un koala en train de manger une feuille avec un effet de zoom de plus en plus près

Les animaux et la génération de vidéos, c’est généralement réussi. Ici, on jurerait qu’il s’agit d’un vrai koala. C’est assez bluffant, même si les feuilles se coupent bizarrement.

Ce contenu est bloqué car vous n’avez pas accepté les cookies et autres traceurs. Ce contenu est fourni par YouTube.

Pour pouvoir le visualiser, vous devez accepter l’usage étant opéré par YouTube avec vos données qui pourront être utilisées pour les finalités suivantes : vous permettre de visualiser et de partager des contenus avec des médias sociaux, favoriser le développement et l’amélioration des produits d’Humanoid et de ses partenaires, vous afficher des publicités personnalisées par rapport à votre profil et activité, vous définir un profil publicitaire personnalisé, mesurer la performance des publicités et du contenu de ce site et mesurer l’audience de ce site (en savoir plus) En cliquant sur « J’accepte tout », vous consentez aux finalités susmentionnées pour l’ensemble des cookies et autres traceurs déposés par Humanoid et ses partenaires. Vous gardez la possibilité de retirer votre consentement à tout moment. Pour plus d’informations, nous vous invitons à prendre connaissance de notre Politique cookies. J’accepte tout Gérer mes choix

Les vidéos qui partent en cacahuètes

Malheureusement pour Google, la plupart de nos autres générations étaient beaucoup moins bonnes, avec des consignes mal comprises ou pas respectées.

5) Un chaton noir avec les yeux verts avec une cape de super-héros rouge en train de survoler Time Square

Veo 2 a compris ce que l’on voulait voir, mais ne fait aucun effort pour réaliser l’action demandée. Il y a bien un chaton noir avec une cape à Time Square, mais il ne vole pas. Seule la cape s’anime, le chaton semble complètement à l’arrêt. Le mouvement au début de la vidéo est d’ailleurs très étrange, car non sollicité.

Ce contenu est bloqué car vous n’avez pas accepté les cookies et autres traceurs. Ce contenu est fourni par YouTube.

Pour pouvoir le visualiser, vous devez accepter l’usage étant opéré par YouTube avec vos données qui pourront être utilisées pour les finalités suivantes : vous permettre de visualiser et de partager des contenus avec des médias sociaux, favoriser le développement et l’amélioration des produits d’Humanoid et de ses partenaires, vous afficher des publicités personnalisées par rapport à votre profil et activité, vous définir un profil publicitaire personnalisé, mesurer la performance des publicités et du contenu de ce site et mesurer l’audience de ce site (en savoir plus) En cliquant sur « J’accepte tout », vous consentez aux finalités susmentionnées pour l’ensemble des cookies et autres traceurs déposés par Humanoid et ses partenaires. Vous gardez la possibilité de retirer votre consentement à tout moment. Pour plus d’informations, nous vous invitons à prendre connaissance de notre Politique cookies. J’accepte tout Gérer mes choix

6) Un homme d’une trentaine d’années, aux cheveux noirs et portant des lunettes, marche tranquillement aux côtés d’une femme brune sur la promenade des Anglais à Nice. Le soleil brille intensément, illuminant la scène avec une lumière dorée. Derrière eux, la plage est animée avec des gens qui bronzent, allongés sur leurs serviettes multicolores. La mer Méditerranée scintille en arrière-plan, et les palmiers longent la promenade, ajoutant une touche tropicale au cadre

Si ce prompt vous semble un peu long, c’est parce qu’il vient de Sora. Nous avons récupéré le prompt imaginé par OpenAI pour générer une vidéo en décembre 2024, lorsque nous avions essayé le service. Il a l’avantage d’avoir de nombreux détails, même si Sora avait fait n’importe quoi.

Bonne nouvelle : Veo 2 respecte les détails. Mauvaise nouvelle : sa compréhension de la physique est catastrophique. On croirait que notre couple est sur un tapis roulant, avec un arrière-plan sur écran vert qui défile derrière lui. Les arbres bougent d’ailleurs comme des humains, avec des objets complètement imaginaires. Bref : c’est inutilisable, car Veo 2 ne tient pas la promesse de Google en physique. À la fin, le couple change de sens en faisant du sur place.

Ce contenu est bloqué car vous n’avez pas accepté les cookies et autres traceurs. Ce contenu est fourni par YouTube.

Pour pouvoir le visualiser, vous devez accepter l’usage étant opéré par YouTube avec vos données qui pourront être utilisées pour les finalités suivantes : vous permettre de visualiser et de partager des contenus avec des médias sociaux, favoriser le développement et l’amélioration des produits d’Humanoid et de ses partenaires, vous afficher des publicités personnalisées par rapport à votre profil et activité, vous définir un profil publicitaire personnalisé, mesurer la performance des publicités et du contenu de ce site et mesurer l’audience de ce site (en savoir plus) En cliquant sur « J’accepte tout », vous consentez aux finalités susmentionnées pour l’ensemble des cookies et autres traceurs déposés par Humanoid et ses partenaires. Vous gardez la possibilité de retirer votre consentement à tout moment. Pour plus d’informations, nous vous invitons à prendre connaissance de notre Politique cookies. J’accepte tout Gérer mes choix

7) Génère une vidéo d’un footballeur noir aux cheveux rasés sur un terrain de football. Il est en plein match avec des adversaires, accélère depuis la droite du terrain, fait un dribble, tire et marque en enroulant du pied gauche. Il célèbre en faisant un salto. Il porte un maillot du PSG.

Initialement, ce prompt commençait par « Génère une vidéo d’Ousmane Dembélé », mais Google Gemini refuse les noms de personnalité. Nous avons donc remplacé le nom de la star du PSG par une description rapide de son physique.

Quoi qu’il en soit, le résultat est affreux. Comme Sora, Veo 2 ne comprend rien au foot. Les mouvements des jambes n’ont aucun sens, le joueur ne semble pas répondre à la gravité, le numéro du joueur change trois fois et la balle va dans tous les sens. Pire : ses adversaires ont un maillot quasiment identique à celui du PSG, avec un gardien qui passe devant et derrière le joueur sans raison.

Ce contenu est bloqué car vous n’avez pas accepté les cookies et autres traceurs. Ce contenu est fourni par YouTube.

Pour pouvoir le visualiser, vous devez accepter l’usage étant opéré par YouTube avec vos données qui pourront être utilisées pour les finalités suivantes : vous permettre de visualiser et de partager des contenus avec des médias sociaux, favoriser le développement et l’amélioration des produits d’Humanoid et de ses partenaires, vous afficher des publicités personnalisées par rapport à votre profil et activité, vous définir un profil publicitaire personnalisé, mesurer la performance des publicités et du contenu de ce site et mesurer l’audience de ce site (en savoir plus) En cliquant sur « J’accepte tout », vous consentez aux finalités susmentionnées pour l’ensemble des cookies et autres traceurs déposés par Humanoid et ses partenaires. Vous gardez la possibilité de retirer votre consentement à tout moment. Pour plus d’informations, nous vous invitons à prendre connaissance de notre Politique cookies. J’accepte tout Gérer mes choix

8) Génère une vidéo de quatre femmes dans une capsule dans l’espace, dans des tenues toutes bleues et moulantes. Elles découvrent l’apesanteur et on peut apercevoir la Terre par la fenêtre

Il y a beaucoup à dire sur cette séquence, qui est un hommage au vol Blue Origin du 14 avril avec Katy Perry. Première observation : Google joue à fond la carte de la diversité. Seconde observation : la femme à gauche est la seule à expérimenter l’apesanteur, avec un salto approximatif, alors que les deux autres ne bougent pas. Les mouvements de la Terre sont aussi très rapides.

Ce contenu est bloqué car vous n’avez pas accepté les cookies et autres traceurs. Ce contenu est fourni par YouTube.

Pour pouvoir le visualiser, vous devez accepter l’usage étant opéré par YouTube avec vos données qui pourront être utilisées pour les finalités suivantes : vous permettre de visualiser et de partager des contenus avec des médias sociaux, favoriser le développement et l’amélioration des produits d’Humanoid et de ses partenaires, vous afficher des publicités personnalisées par rapport à votre profil et activité, vous définir un profil publicitaire personnalisé, mesurer la performance des publicités et du contenu de ce site et mesurer l’audience de ce site (en savoir plus) En cliquant sur « J’accepte tout », vous consentez aux finalités susmentionnées pour l’ensemble des cookies et autres traceurs déposés par Humanoid et ses partenaires. Vous gardez la possibilité de retirer votre consentement à tout moment. Pour plus d’informations, nous vous invitons à prendre connaissance de notre Politique cookies. J’accepte tout Gérer mes choix

9) Génère la vidéo d’un homme brun de 30 ans dans un Apple Store qui essaye un casque Apple Vision Pro pour la première fois. La vendeuse lui apporte et il le met, puis le serre sur le côté

Gemini n’a aucun problème à imiter les logos, mais ne connaît pas le casque d’Apple. Il génère un casque VR random (par déduction) et laisse un homme avec un regard assez effrayant l’enfiler. Problème : le casque semble passer à travers sa tête.

Ce contenu est bloqué car vous n’avez pas accepté les cookies et autres traceurs. Ce contenu est fourni par YouTube.

Pour pouvoir le visualiser, vous devez accepter l’usage étant opéré par YouTube avec vos données qui pourront être utilisées pour les finalités suivantes : vous permettre de visualiser et de partager des contenus avec des médias sociaux, favoriser le développement et l’amélioration des produits d’Humanoid et de ses partenaires, vous afficher des publicités personnalisées par rapport à votre profil et activité, vous définir un profil publicitaire personnalisé, mesurer la performance des publicités et du contenu de ce site et mesurer l’audience de ce site (en savoir plus) En cliquant sur « J’accepte tout », vous consentez aux finalités susmentionnées pour l’ensemble des cookies et autres traceurs déposés par Humanoid et ses partenaires. Vous gardez la possibilité de retirer votre consentement à tout moment. Pour plus d’informations, nous vous invitons à prendre connaissance de notre Politique cookies. J’accepte tout Gérer mes choix

10) Génère la vidéo de personnes fuyant une randonnée à Bryce Canyon à cause d’une tempête de neige, elles remontent en courant

Les six premières secondes sont parfaites, avec des mouvements et un décor conforme à la description. Problème : ce qui était une GoPro devient un smartphone, avec une personne effrayée qui devient soudainement souriante et s’arrête, au lieu de fuir.

Ce contenu est bloqué car vous n’avez pas accepté les cookies et autres traceurs. Ce contenu est fourni par YouTube.

Pour pouvoir le visualiser, vous devez accepter l’usage étant opéré par YouTube avec vos données qui pourront être utilisées pour les finalités suivantes : vous permettre de visualiser et de partager des contenus avec des médias sociaux, favoriser le développement et l’amélioration des produits d’Humanoid et de ses partenaires, vous afficher des publicités personnalisées par rapport à votre profil et activité, vous définir un profil publicitaire personnalisé, mesurer la performance des publicités et du contenu de ce site et mesurer l’audience de ce site (en savoir plus) En cliquant sur « J’accepte tout », vous consentez aux finalités susmentionnées pour l’ensemble des cookies et autres traceurs déposés par Humanoid et ses partenaires. Vous gardez la possibilité de retirer votre consentement à tout moment. Pour plus d’informations, nous vous invitons à prendre connaissance de notre Politique cookies. J’accepte tout Gérer mes choix

Google Gemini se dote d’un jouet, mais Veo 2 peut faire beaucoup mieux

Bref, le nouvel outil de Gemini n’est qu’un gadget. Générer des vidéos est toujours très amusant, mais on est loin d’une révolution technologique. Google est très bon sur certains aspects (le nombre de doigts, les mouvements humains…), mais se rate complètement sur d’autres, malgré la courte durée des vidéos (8 secondes).

Veo 2 est disponible pour tous les abonnés Gemini Advanced, avec une limite mensuelle d’essais non communiquée par Google. On peut imaginer qu’OpenAI répondra rapidement à son rival en intégrant Sora à ChatGPT, avec moins d’options que dans l’outil classique.

Google Gemini Télécharger gratuitement

Cet article existe grâce à Numerama+ Les abonnés Numerama+ offrent les ressources nécessaires à la production d’une information de qualité et permettent à Numerama de rester gratuit. Zéro publicité, fonctions avancées de lecture, articles résumés par l’I.A, contenus exclusifs et plus encore. Découvrez les nombreux avantages de Numerama+. S'abonner à Numerama+

Vous avez lu 0 articles sur Numerama ce mois-ci Il y a une bonne raison de ne pas s'abonner à Numerama+ Tout le monde n'a pas les moyens de payer pour l'information.

C'est pourquoi nous maintenons notre journalisme ouvert à tous. Mais si vous le pouvez,

voici trois bonnes raisons de soutenir notre travail : 1 Numerama+ contribue à offrir une expérience gratuite à tous les lecteurs de Numerama .

2 Vous profiterez d'une lecture sans publicité , de nombreuses fonctions avancées de lecture et des contenus exclusifs .

3 Aider Numerama dans sa mission : comprendre le présent pour anticiper l'avenir. Si vous croyez en un web gratuit et à une information de qualité accessible au plus grand nombre, rejoignez Numerama+. S'abonner à Numerama+

Toute l'actu tech en un clin d'œil Ajoutez Numerama à votre écran d'accueil et restez connectés au futur ! Installer Numerama

Marre des réseaux sociaux ? Rejoignez la communauté Numerama sur WhatsApp !