Dans une vidéo, Google montre l’incroyable compréhension du monde de Gemini Ultra, son modèle d’IA décrit comme supérieur à GPT-4. Gemini Ultra commente ce qu’il voit, blague et fait des liens sur ce qu’on lui montre. En amont du lancement de l’Apple Vision Pro, ce nouvel usage s’annonce révolutionnaire.

Avec son Vision Pro début 2024, Apple sait probablement qu’il n’est qu’au tout début de la révolution de l’informatique spatiale.

Le 6 décembre 2023, Google a dévoilé Gemini, son nouveau modèle de langage ultra-intelligent conçu pour être le cerveau de tous ses futurs produits et services. Présenté comme « la première intelligence artificielle multimodale », Gemini est capable de traiter du texte, des images et du son simultanément, comme s’il s’agissait d’une seule information. De quoi en faire un « allié » pour l’être humain, plutôt qu’un simple service numérique.

Dans une vidéo de 6 minutes et 22 secondes, Google montre Gemini en action. On y découvre une IA capable de commenter tout ce qu’elle voit, d’imiter la logique humaine, de plaisanter, de deviner ce qu’il va se passer dans une vidéo et de jouer à des jeux. L’émergence de casques de réalité mixte en 2024 pourrait donner du sens à cette démonstration.

Gemini a l’air incroyable

Avec une intelligence artificielle dotée de « yeux », Google a de quoi bouleverser l’informatique moderne. Si sa première implémentation dans Bard sera plus classique, avec un chatbot similaire à ChatGPT, le potentiel maximal de Gemini pourra être débloqué grâce à sa super-multimodalité, qui lui permet de comprendre ce qu’il voit.

Dans sa vidéo, Google montre divers exemples :

  • Gemini réagit à un dessin en temps réel et commente chaque avancée, en essayant de deviner ce qu’il va se passer. Il peut aussi partager son étonnement lorsqu’il comprend ce que lui cachait le dessinateur.
  • Gemini donne des cours de langue, pour apprendre à traduire des mots en expliquant leur étymologie.
  • Gemini invente un jeu sur un planisphère et fait des blagues en fonction de ce que fait son utilisateur.
  • Gemini joue avec son utilisateur, en devinant dans quelle main il cache une pièce et peut réagir avec humour si l’utilisateur l’a trompé.
  • Gemini peut trouver les points communs entre deux objets.
  • Gemini peut répondre à un dilemme en analysant une situation (quelle route prendre par exemple).
  • Gemini peut prédire la suite d’une vidéo.
  • Gemini peut inventer de la musique à partir d’une situation qui lui est montrée.
Les IA n'aiment pas les dilemmes, mais Gemini recommande au canard de rejoindre l'autre canard, pour éviter l'ours.
Les IA n’aiment pas les dilemmes, mais Gemini recommande au canard de rejoindre l’autre canard, pour éviter l’ours. // Source : Google

Le point commun entre toutes ces démos : l’utilisateur ne parle pas ou peu. Gemini commente juste ce qu’il voit et devine ce qu’il faut faire. L’utilisateur peut aussi lui poser des questions, comme s’il s’adressait à un vrai humain. Bluffant.

Sur quel appareil fonctionnera Gemini Ultra ?

Ce que Google ne dit pas est le matériel utilisé. Imagine-t-on vraiment quelqu’un tenir son smartphone pour filmer un dessin pendant plusieurs minutes, tout en parlant à haute voix ? En ouvrant « l’ère de Gemini », Google introduit théoriquement celle du post-smartphone. Ses intentions ne sont sans doute pas celles-là pour le moment, mais la porte est ouverte pour la première fois

Avec l’annonce de Gemini, Google nous fait différemment réfléchir à certains produits. Le Ai Pin de Humane, qui consiste en un pin avec une caméra accrochée sur la poitrine, aurait du sens pour parler à Gemini. Autre comeback : les Google Glass, version 2024, seraient nettement plus productives.

Youtube/Google AR & VR
Les Google Glass sont sorties trop tôt. // Source : Youtube/Google AR & VR

Le produit le plus évident pour une telle révolution technologique est le casque de réalité mixte, poussé par Apple avec son Vision Pro. Si la marque californienne est distancée sur le terrain de l’IA, son Vision Pro semble le produit idéal pour une intelligence artificielle capable de commenter ce qu’elle voit. Un Siri dopé à Gemini donnerait une nouvelle dimension au produit d’Apple, en le transformant en un super-cerveau humain.

En attendant les annonces d’Apple en juin 2024, qui pourrait annoncer son propre modèle de langage, Google a une carte à jouer. Allié à Samsung et à Qualcomm pour le développement d’un casque de réalité mixte concurrent de celui d’Apple, Google devrait lancer un Android XR en 2024. Si ce système d’exploitation embarque une version de Gemini capable de transformer le produit en une super-IA digne d’Iron Man, alors Google pourrait tenir sa revanche sur les Google Glass.

Attendu d’ici mars 2024, l’Apple Vision Pro semble bien parti pour se transformer très rapidement. visionOS 2.0 n’aura probablement rien à voir avec la première version, si Apple réussit à emboiter le pas de l’IA générative. Ce n’est pas gagné, mais cela semble inévitable à « l’ère de Gemini ».

Nouveauté : Découvrez

La meilleure expérience de Numerama, sans publicité,
+ riche, + zen, + exclusive.

Découvrez Numerama+

Abonnez-vous à Numerama sur Google News pour ne manquer aucune info !