Gemini Nano, Gemini Pro et Gemini Ultra : Google dévoile un nouveau modèle de langage décliné en trois tailles pour s’adapter à différents besoins. Après Bard et le Pixel 8 en 2023, Google devrait accélérer ses travaux sur l’intelligence artificielle générative en 2024. Gemini a tout pour s’imposer comme le principal rival de GPT-4, avec pour objectif de transformer tous les services Google.

Trouvez-vous Google Bard inférieur à ChatGPT ? Laissez encore quelques semaines au chatbot de la firme de Mountain View : il devrait radicalement s’améliorer.

Le 6 décembre, peu après les rumeurs de la presse américaine sur un report de son projet, Google a dévoilé par communiqué de presse Gemini, son nouveau modèle de langage conçu pour renverser l’avance prise par OpenAI avec sa propre technologie, GPT-4.

Les prétentions de Google sont fortes : Gemini fait mieux que GPT-4 sur quasiment toutes les tâches, alors que son précédent modèle de langage (LLM) LaMDA était trop souvent imparfait. La route est encore longue, mais Gemini devrait être au cœur de la révolution technologie de l’intelligence artificielle en 2024. Les premières démos sont remarquables : elles montrent une IA capable de comprendre le monde et de réagir comme un être humain.

Gemini perçoit le monde : la démo de Google est fascinante

Développé par DeepMind, la filiale de Google spécialisée dans l’IA, le modèle de langage Gemini 1.0 a tout de la révolution espérée par Google depuis l’apparition de ChatGPT fin 2022.

« Le lancement de l’ère Gemini », comme Google l’appelle, est celui de modèles informatiques capables de comprendre le monde qui les entoure et de réagir sans avoir à être sollicités, de façon naturelle. Une des premières démos partagées par Google montre une IA digne de Jarvis (Iron Man), avec une capacité incroyable de compréhension de ce qu’on lui montre. Voir Gemini à l’action fait immédiatement penser à un futur dans lequel les lunettes connectées pourraient enfin trouver la place qui leur est promise.

Capable de reconnaître un dessin en temps réel, de deviner ce qui va se produire dans une image, de jouer à un jeu en répondant aux gestes de « son humain » ou de réagir à des situations par l’humour, Gemini entretient le fantasme de la super-IA susceptible de penser comme une vraie personne. Google DeepMind explique avoir conçu le premier « vrai modèle multimodal » au monde, avec la capacité d’intégrer du texte, de l’image ou du son à sa réflexion, là où ses concurrents additionnent ces savoir-faire.

Une des forces de la démonstration en vidéo est que l’utilisateur ne pose jamais de questions, c’est Gemini qui devine seul le contexte et qui parle.

Gemini va être intégré partout

Pour Google, Gemini n’est pas un logiciel mais « un allié utile et intuitif ». Un changement radical d’approche, qui amène progressivement l’IA à véritablement intégrer nos vies.

Pour intégrer Gemini partout, Google compte décliner son modèle en trois tailles :

  • Gemini Ultra est la version maximale du LLM. Elle se destine à des tâches de haute complexité et a servi d’exemple pour toutes les démos impressionnantes du 6 décembre.
  • Gemini Pro est un modèle polyvalent, conçu pour intégrer à terme tous les services de Google (dont Bard, qui va l’utiliser pour battre ChatGPT).
  • Gemini Nano est une version allégée de Gemini, conçue pour être utilisée localement par un smartphone, par exemple. L’idée est qu’un appareil puisse utiliser l’IA sans recourir aux serveurs de Google.
Les trois versions de Gemini.
Les trois versions de Gemini. // Source : Google

Selon Google, Gemini Ultra surpasse GPT-4 dans 30 des 32 référentiels académiques utilisés dans la recherche et le développement des LLM. Il devient même le premier modèle plus intelligent qu’un humain en matière de « compréhension massive du langage multitâche » (57 sujets parmi les mathématiques, la physique, l’histoire, le droit, la médecine ou l’éthique). Une affirmation à interpréter avec prudence, puisque les IA génératives sont encore loin de la réflexion scientifique humaine, mais qui augure néanmoins du passage d’un cap.

Selon Google, Gemini Ultra surpasse GPT-4 dans la quasi-totalité des benchmarks.
Selon Google, Gemini Ultra surpasse GPT-4 dans la quasi-totalité des benchmarks. // Source : Google

En reconnaissance d’image, Gemini Ultra fait mieux que les modèles d’OpenAI dans 100 % des cas. C’est cette fameuse approche qui lui permet de se placer comme le premier LLM « capable de comprendre le monde autour de lui ». Google affirme que son IA est capable de « capacités de raisonnement sophistiqués ». Il est aussi présenté comme un outil idéal pour les développeurs, avec une compétence inédite dans la génération de code.

Gemini est disponible dès aujourd’hui

Google affirme que Gemini est « sensiblement plus rapide que les modèles antérieurs, plus petits et dotés de capacités moindres ». L’entreprise va progressivement le déployer partout, en remplacement de ses intelligences artificielles existantes.

Dès aujourd’hui, Google Bard va remplacer LaMDA par Gemini Pro, pour enfin gagner en intelligence. Seule limite : il faudra lui parler en anglais pour débloquer le nouveau modèle de langage, dont le lancement en français interviendra dans un second temps. Google affirme désormais que Bard avec Gemini Pro est meilleur que ChatGPT, du moins dans la version gratuite (GPT-3.5).

Dans une vidéo promotionnelle, Google utilise le nouveau Bard avec Gemini Pro pour écrire une vidéo YouTube de A à Z.
Dans une vidéo promotionnelle, Google utilise le nouveau Bard avec Gemini Pro pour écrire une vidéo YouTube de A à Z. // Source : Google

Sur les smartphones Pixel, ce sera Gemini Nano. Une mise à jour du Pixel 8 Pro permettra au dernier mobile de Google d’améliorer ses capacités de reconnaissance du texte ou de prédiction des réponses, grâce à Gemini. On imagine que Google pourrait, à terme, déployer Gemini Nano sur tous les smartphones Android. De quoi mettre la pression à Apple, qui est très attendu en juin 2024 sur ce terrain.

En 2024, Google prévoit aussi de faire basculer son moteur de recherche, Chrome et d’autres technologies vers Gemini, pour améliorer leurs facultés de prédiction. Son année s’annonce riche en changement. Dans la recherche, Gemini accélèrerait l’affichage des résultats de 40 %.

Début 2024, Google lancera une version spéciale de Bard, nommée Bard Advanced, avec le modèle de langage Gemini Ultra. Google veut encore faire quelques tests avant de le mettre dans la nature. Cette nouvelle version pourrait s’accompagner d’un abonnement payant, mais Google n’a rien confirmé pour l’instant.

Les supercalculateurs Cloud TPE v5p utilisés par Google pour concevoir Gemini. // Source : Google
Les supercalculateurs Cloud TPE v5p utilisés par Google pour concevoir Gemini. // Source : Google

« Le lancement de Gemini marque un jalon important dans le développement de l’IA et ouvre aussi un nouveau chapitre dans l’histoire de Google ». À en croire le communiqué publié par la marque le 6 décembre, Gemini est une annonce majeure pour le monde de la tech.

En ce qui concerne les rumeurs sur le report de Gemini, Google nous a répondu par la déclaration suivante : « Honnêtement, nous ne prêtons pas attention aux rumeurs concernant les délais ». L’entreprise ajoute avoir « prévu » de lancer Gemini cette semaine « depuis longtemps ». Difficile de comprendre ce qu’il s’est réellement passé, alors que plusieurs médias parlaient de « défaillances » qui auraient incité Google à attendre quelques mois. En ce qui concerne OpenAI, le lancement de GPT-5 est toujours attendu, avec sans doute Gemini dans le viseur.

Nouveauté : Découvrez

La meilleure expérience de Numerama, sans publicité,
+ riche, + zen, + exclusive.

Découvrez Numerama+

Si vous avez aimé cet article, vous aimerez les suivants : ne les manquez pas en vous abonnant à Numerama sur Google News.