En mai 2024, avec la nouvelle version de ChatGPT Voice alimentée par le modèle GPT-4o, OpenAI présentait au monde la première intelligence artificielle capable d’analyser la voix en temps réel. Plus besoin de transformer un son en un texte écrit (c’est de cette façon que fonctionnent Siri ou Google Assistant), les modèles de demain seront capables de reconnaître directement des bruits et de deviner ce que vous allez dire ensuite, quitte à aller plus vite que le cerveau humain. Pris dans différentes polémiques (dont l’imitation de la voix de Scarlett Johansson), OpenAI a repoussé la sortie du nouveau ChatGPT Voice à l’automne.
Et puis, par surprise le 3 juillet, le laboratoire français Kyutai a dévoilé son propre modèle vocal, baptisé Moshi. Lui aussi peut répondre à la voix en temps réel, grâce à une capacité d’analyse native de la voix. Moshi, qui est un projet open source à but non commercial, est disponible en test sur le site de Kyutai. Pour rappel, il s’agit d’un laboratoire fondé notamment par Xavier Niel, qui rêve de rivaliser avec les géants américains et chinois.
Comment essayer Moshi dès aujourd’hui ?
Sur son site, Kyutai présente Moshi comme une « IA conversationnelle expérimentale ». Chaque conversation est limitée à 5 minutes, puisque Moshi se met rapidement à raconter n’importe quoi (le LLM qu’il utilise, Helium, a aussi été développé par Kyutai). L’objectif est d’expérimenter les réponses vocales en temps réel, en discutant avec lui, en lui demandant de créer un jeu ou d’imiter une émotion. Le résultat est assez bluffant, puisque Moshi est vraiment très rapide.
Attention : Moshi, même s’il dit lui-même être né à Paris, ne parle qu’anglais. Pour toucher un public mondial, Kyutai a fait le choix de ne l’entraîner que dans la langue de Shakespeare au lancement.
Une fois sur le site de Moshi, il suffit d’insérer un mail et d’attendre son tour. On pourra ensuite parler à l’assistant vocal en donnant au navigateur l’accès à son micro. Les démos actuellement proposées passent par Internet, même si Kyutai a créé une version locale, avec un plus petit LLM.
Quand Moshi parle, un orbe vert indique qu’il émet du bruit. Quand vous parlez, une ondulation permet de voir l’entrée sonore. Il n’est pas rare que Moshi coupe la parole de son interlocuteur, en anticipant ce qu’il va dire. Il s’agit d’un bug de jeunesse. Ses réponses sont aussi affichées à l’écrit.
Assez régulièrement durant nos premiers tests, Moshi s’est mis à raconter n’importe quoi, en répétant constamment les mêmes phrases, parfois sur un ton presque agacé, qui peut faire sourire. Se déconnecter et le relancer suffit à le réinitialiser.
Avec Moshi, Kyutai devance OpenAI et lance le premier assistant vocal en temps réel disponible pour le grand public. Les serveurs pourraient rapidement tomber, surtout si un grand nombre de curieux découvrent son existence.
+ rapide, + pratique, + exclusif
Zéro publicité, fonctions avancées de lecture, articles résumés par l'I.A, contenus exclusifs et plus encore.
Découvrez les nombreux avantages de Numerama+.
Vous avez lu 0 articles sur Numerama ce mois-ci
Tout le monde n'a pas les moyens de payer pour l'information.
C'est pourquoi nous maintenons notre journalisme ouvert à tous.
Mais si vous le pouvez,
voici trois bonnes raisons de soutenir notre travail :
- 1 Numerama+ contribue à offrir une expérience gratuite à tous les lecteurs de Numerama.
- 2 Vous profiterez d'une lecture sans publicité, de nombreuses fonctions avancées de lecture et des contenus exclusifs.
- 3 Aider Numerama dans sa mission : comprendre le présent pour anticiper l'avenir.
Si vous croyez en un web gratuit et à une information de qualité accessible au plus grand nombre, rejoignez Numerama+.
Marre des réseaux sociaux ? Rejoignez-nous sur WhatsApp !