Dans son AI Studio, Google propose une version expérimentale de Gemini Live qui parle de manière beaucoup plus naturelle que le service existant. Elle s’appuie sur un modèle de génération native d’audio, capable de reproduire le phrasé humain.

Après nano-banana, son impressionnant modèle de génération et d’édition d’images, Google met à disposition des développeurs un nouveau modèle capable de générer de l’audio nativement, pour aller plus vite et parler plus naturellement. Gemini 2.5 Flash Native Audio, comme Google l’appelle, est destiné à remplacer Gemini Live, le concurrent de ChatGPT Voice intégré à Google Gemini. Les développeurs peuvent l’essayer sous la forme d’une API depuis le 23 septembre 2025, tandis que le grand public peut mesurer ses capacités sur le Google AI Studio.

Gemini parle encore plus naturellement et fait des pauses comme un humain

À la manière de Moshi, le modèle vocal du laboratoire français Kyutai, Gemini 2.5 Flash Native Audio est un modèle capable de gérer des sons nativement.

Contrairement à d’autres assistants vocaux, qui écoutent ce que vous dites, font de la transcription en texte, l’envoient à un LLM, récupèrent une réponse écrite et la font lire à un modèle de synthèse vocal, Gemini 2.5 Flash Native Audio reconnaît des sons et en génère automatiquement. C’est ce qui le rend plus rapide, plus proche de l’humain (il fait des pauses et reproduit notre manière de parler) et plus susceptible de comprendre quand son interlocuteur fait des pauses ou attend une réponse. Un modèle comme Gemini 2.5 Flash Native Audio n’a pas été entraîné avec des millions de textes, mais avec des millions d’extraits de son.

Depuis l'AI Studio, Google génère du son à partir de vos questions.
Depuis l’AI Studio, Google génère du son à partir de vos questions. // Source : Numerama

Curieusement, la version actuelle de Gemini 2.5 Flash Native Audio ne peut toujours pas imiter des émotions, alors que ChatGPT Voice le fait depuis des mois. Il s’agit sans doute d’une limite imposée par Google, dans le sens où Gemini a forcément été entraîné avec différentes émotions. Ses réponses sont heureusement beaucoup plus naturelles et agréables à écouter : on s’approche de plus en plus de conversations téléphoniques. Les développeurs peuvent dès aujourd’hui utiliser ce modèle pour, par exemple, concevoir un service client vocal qui aurait la voix de Gemini 2.5 Flash Native Audio.

En l’état, le modèle de Google n’est pas relié à Internet ou aux autres outils Gemini, ce qui le rend moins pertinent que le vrai Gemini Live (il y a plusieurs options sur le côté, mais il ne s’agit pas d’un assistant vocal à part entière). À terme, on peut imaginer que Google prépare une grande refonte de son IA générative avec de nouvelles nombreuses capacités, dont un mode IA très avancé. La logique voudrait que Gemini 3.0 sorte avant la fin de l’année. En attendant, si vous souhaitez essayer le modèle d’audio natif, rendez-vous sur le Google AI Studio.

Découvrez les bonus

+ rapide, + pratique, + exclusif

Zéro publicité, fonctions avancées de lecture, articles résumés par l'I.A, contenus exclusifs et plus encore.

Découvrez les nombreux avantages de Numerama+.

S'abonner à Numerama+

Vous avez lu 0 articles sur Numerama ce mois-ci

Il y a une bonne raison de ne pas s'abonner à

Tout le monde n'a pas les moyens de payer pour l'information.
C'est pourquoi nous maintenons notre journalisme ouvert à tous.

Mais si vous le pouvez,
voici trois bonnes raisons de soutenir notre travail :

  • 1 Numerama+ contribue à offrir une expérience gratuite à tous les lecteurs de Numerama.
  • 2 Vous profiterez d'une lecture sans publicité, de nombreuses fonctions avancées de lecture et des contenus exclusifs.
  • 3 Aider Numerama dans sa mission : comprendre le présent pour anticiper l'avenir.

Si vous croyez en un web gratuit et à une information de qualité accessible au plus grand nombre, rejoignez Numerama+.

S'abonner à Numerama+
Toute l'actu tech en un clien d'oeil

Toute l'actu tech en un clin d'œil

Ajoutez Numerama à votre écran d'accueil et restez connectés au futur !


Tous nos articles sont aussi sur notre profil Google : suivez-nous pour ne rien manquer !