À Mountain View, Numerama a pu obtenir des informations exclusives sur « Project Astra », la nouvelle expérimentation de DeepMind qui offre à l’intelligence artificielle Gemini des yeux et des oreilles. La réponse de Google à ChatGPT Voice est plutôt encourageante.

« Gemini, est-ce que tu vois un dinosaure ? » Dans une cabine à proximité du Shoreline Amphitheatre, la salle de conférence en plein air de la Google I/O, Numerama a pu essayer en avant-première le projet Astra.

Cette démo fermée, à l’abri des regards, ne pouvait pas être photographiée ou filmée (et nous le regrettons). En revanche, nous avons pu poser plein de questions à des responsables du projet chez DeepMind, qui ont évidemment été très attentifs à l’annonce de GPT-4o quelques heures plus tôt. Sur le principe, Astra et ChatGPT Voice font exactement la même chose. À quoi ressemble le projet Astra dans le vrai monde ? Voici un premier aperçu.

À quoi ressemble la démo du projet Astra ?

Dans la salle de démo de Google, le projet Astra prenait la forme d’un ordinateur relié à une caméra, elle-même accrochée au plafond.

Sur l’écran de l’ordinateur, l’interface de Gemini, avec une conversation textuelle. La caméra filme une table en temps réel et communique un flux vidéo à l’intelligence artificielle de Google, qui peut voir ce qu’on lui montre en permanence et l’intégrer à ses réponses, y compris en temps réel (il peut interrompre une phrase pour intégrer un élément lié à l’apparition d’un objet).

Première question posée à Astra : « raconte-moi une histoire ». L’intelligence artificielle commence alors à inventer un monde imaginaire, jusqu’à ce qu’on insère un dinosaure en plastique dans son champ de vision. Elle s’interrompt et ajoute « le personnage principal s’appelle Rex le tyrannosaure ». Son idée est que Rex doit réussir à franchir une ligne pour s’en sortir. Le responsable de DeepMind tente de créer une ligne à l’écran avec sa main, l’IA rebondit et déclare : « Une main maléfique attaque Rex ». Aussi drôle que bluffant !

Deuxième démo : DeepMind imagine une technologie comme Astra pour surveiller une activité. La consigne est la suivante : « dis-moi dès que tu vois un instrument ». Plusieurs objets passent sous la caméra, Astra ne dit rien. Une batterie apparaît, il indique « je vois un instrument ». On pourrait imaginer un usage plus sérieux, comme pour surveiller un bébé endormi, une personne malintentionnée ou le comportement d’un animal. Sa capacité à comprendre ce qu’il voit le rend plus intelligent qu’une caméra de surveillance.

Astra peut-il parler français ? DeepMind explique qu’Astra n’est pas un modèle de langage indépendant, mais Gemini 1.5 Pro. Il peut donc parfaitement faire la même chose en français dès aujourd’hui.

Quel sera l’avenir du projet Astra ?

Les équipes de DeepMind ont confirmé à Numerama que la vidéo de démonstration de Gemini parue en décembre 2023 correspondait bien à une démo du projet Astra. La version actuellement montrée à la presse utilise le modèle Gemini 1.5 Pro, avec une compréhension native des images. Le flux vidéo est découpé en plusieurs photos, que l’IA analyse en temps réel pour comprendre les évolutions (elle a donc besoin d’une grande puissance de calcul pour aller vite).

D’où part cette idée ? DeepMind explique que le concept derrière Astra était de « créer une IA capable de voir le monde ». Le projet n’a pas été conçu spécifiquement pour les smartphones Android, même si son intégration à l’application Gemini (dans la fonction Gemini Live) a du sens. Il sera très certainement possible de déployer certaines de ses capacités très rapidement (comme ChatGPT Voice), même si d’autres pourraient prendre deux ans à être finalisées, notamment au niveau de la fiabilité et de la rapidité des réponses. Les lunettes semblent aussi idéales pour une telle IA, puisqu’elles peuvent notamment servir aux personnes malvoyantes.

Dans sa vidéo, Google montre des lunettes de réalité augmentée. Elles servent à illustrer l'utilisation future d'Astra.
Dans sa vidéo, Google montre des lunettes de réalité augmentée. Elles servent à illustrer l’utilisation future d’Astra. // Source : Google

Quel est l’avis des équipes d’Astra sur GPT-4o ? Personne ne se dit surpris sur le timing de l’annonce, puisqu’OpenAI a l’habitude de jouer sur une communication agressive. En revanche, Google se dit plutôt fier de ses propres avancées. Astra ne parle peut-être pas comme GPT-4o, mais dispose de capacités de reconnaissance similaire.

Découvrez les bonus

+ rapide, + pratique, + exclusif

Zéro publicité, fonctions avancées de lecture, articles résumés par l'I.A, contenus exclusifs et plus encore.

Découvrez les nombreux avantages de Numerama+.

S'abonner à Numerama+

Vous avez lu 0 articles sur Numerama ce mois-ci

Il y a une bonne raison de ne pas s'abonner à

Tout le monde n'a pas les moyens de payer pour l'information.
C'est pourquoi nous maintenons notre journalisme ouvert à tous.

Mais si vous le pouvez,
voici trois bonnes raisons de soutenir notre travail :

  • 1 Numerama+ contribue à offrir une expérience gratuite à tous les lecteurs de Numerama.
  • 2 Vous profiterez d'une lecture sans publicité, de nombreuses fonctions avancées de lecture et des contenus exclusifs.
  • 3 Aider Numerama dans sa mission : comprendre le présent pour anticiper l'avenir.

Si vous croyez en un web gratuit et à une information de qualité accessible au plus grand nombre, rejoignez Numerama+.

S'abonner à Numerama+

Si vous avez aimé cet article, vous aimerez les suivants : ne les manquez pas en vous abonnant à Numerama sur Google News.