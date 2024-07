Lecture Zen Résumer l'article

Moshi est la première intelligence artificielle de Kyutai, le laboratoire de recherche lancé par Xavier Niel, Rodolphe Saadé et Eric Schmidt en novembre 2023. Il s’agit du premier modèle capable de répondre à des questions orales en temps réel, avec une rapidité digne d’un être humain. Kyutai devance OpenAI, qui a repoussé la sortie de son ChatGPT Voice à l’automne.

En mai 2024, avec la nouvelle version de ChatGPT Voice alimentée par le modèle GPT-4o, OpenAI présentait au monde la première intelligence artificielle capable d’analyser la voix en temps réel. Plus besoin de transformer un son en un texte écrit (c’est de cette façon que fonctionnent Siri ou Google Assistant), les modèles de demain seront capables de reconnaître directement des bruits et de deviner ce que vous allez dire ensuite, quitte à aller plus vite que le cerveau humain. Pris dans différentes polémiques (dont l’imitation de la voix de Scarlett Johansson), OpenAI a repoussé la sortie du nouveau ChatGPT Voice à l’automne.

Et puis, par surprise le 3 juillet, le laboratoire français Kyutai a dévoilé son propre modèle vocal, baptisé Moshi. Lui aussi peut répondre à la voix en temps réel, grâce à une capacité d’analyse native de la voix. Moshi, qui est un projet open source à but non commercial, est disponible en test sur le site de Kyutai. Pour rappel, il s’agit d’un laboratoire fondé notamment par Xavier Niel, qui rêve de rivaliser avec les géants américains et chinois.

Comment essayer Moshi dès aujourd’hui ?

Sur son site, Kyutai présente Moshi comme une « IA conversationnelle expérimentale ». Chaque conversation est limitée à 5 minutes, puisque Moshi se met rapidement à raconter n’importe quoi (le LLM qu’il utilise, Helium, a aussi été développé par Kyutai). L’objectif est d’expérimenter les réponses vocales en temps réel, en discutant avec lui, en lui demandant de créer un jeu ou d’imiter une émotion. Le résultat est assez bluffant, puisque Moshi est vraiment très rapide.

Attention : Moshi, même s’il dit lui-même être né à Paris, ne parle qu’anglais. Pour toucher un public mondial, Kyutai a fait le choix de ne l’entraîner que dans la langue de Shakespeare au lancement.

Une fois sur le site de Moshi, il suffit d’insérer un mail et d’attendre son tour. On pourra ensuite parler à l’assistant vocal en donnant au navigateur l’accès à son micro. Les démos actuellement proposées passent par Internet, même si Kyutai a créé une version locale, avec un plus petit LLM.

La page d’accès à Moshi sur le site de Kyutai. // Source : Numerama

Quand Moshi parle, un orbe vert indique qu’il émet du bruit. Quand vous parlez, une ondulation permet de voir l’entrée sonore. Il n’est pas rare que Moshi coupe la parole de son interlocuteur, en anticipant ce qu’il va dire. Il s’agit d’un bug de jeunesse. Ses réponses sont aussi affichées à l’écrit.

L’interface de Moshi, par Kyutai. // Source : Numerama

Assez régulièrement durant nos premiers tests, Moshi s’est mis à raconter n’importe quoi, en répétant constamment les mêmes phrases, parfois sur un ton presque agacé, qui peut faire sourire. Se déconnecter et le relancer suffit à le réinitialiser.

Ici, nous avons demandé à Moshi de nous poser des questions. Peu importe la réponse, il dit penser qu’il s’agit de la bonne réponse. // Source : Numerama

Avec Moshi, Kyutai devance OpenAI et lance le premier assistant vocal en temps réel disponible pour le grand public. Les serveurs pourraient rapidement tomber, surtout si un grand nombre de curieux découvrent son existence.

