Comme d’autres, OpenAI s’intéresse aux voix synthétiques, pour permettre à une IA d’imiter la voix d’une personne. Le groupe de Sam Altman prétend avoir trouvé un moyen de générer un clone vocal d’un humain en seulement 15 secondes.

Dans un futur proche, pourra-t-on donner à ChatGPT la voix de son meilleur ami, d’un parent ou, pourquoi pas, sa propre voix ? Le modèle vocal créé par OpenAI fin 2022, sobrement appelé « Voice Engine », semble de plus en plus efficace. Des géants comme Apple permettent de générer une voix en 15 minutes, OpenAI dit pouvoir le faire en 15 secondes. Il lui suffirait d’écouter n’importe quelle personne pendant ce laps de temps pour générer une voix de synthèse capable même d’imiter des émotions.

Au-delà de l’exploit, un intérêt pour l’accessibilité

C’est dans un billet de blog publié le 29 mars qu’OpenAI détaille son moteur vocal. L’entreprise, qui se dit « prudente », imagine plusieurs usages pour son modèle révolutionnaire. Parmi eux :

  • L’assistance dans la lecture, pour aider des personnes à se concentrer avec une voix familière.
  • La traduction en temps réel, pour permettre d’apprendre ou de parler une autre langue avec sa propre voix.
  • L’accessibilité, en ciblant les personnes qui ne peuvent pas ou ne peuvent plus parler.
Sur son site, OpenAI permet d'écouter plusieurs exemples.
Sur son site, OpenAI permet d’écouter plusieurs exemples. // Source : OpenAI

Les quelques extraits publiés par OpenAI sont impressionnants, puisqu’on ne distingue pas de différences entre l’extrait d’origine et la voix générée. Voice Engine est déjà le modèle qui alimente ChatGPT Voice, ainsi que les podcasts traduits dans Spotify.

Vous ne pourrez pas cloner une célébrité

« Nous reconnaissons que la production d’un discours qui ressemble à la voix des gens présente des risques sérieux, qui sont particulièrement importants en cette année d’élections. » dit OpenAI en fin de communiqué, pour rassurer sur ses intentions. Voice Engine n’est pas à disposition du grand public pour éviter les dérives et les entreprises qui l’utilisent s’engagent à ne pas usurper l’identité d’autrui.

Pour éviter les usages négatifs, OpenAI a ajouté un watermark audio à sa technologie, qu’une machine peut détecter. « Nous pensons que tout déploiement à grande échelle de la technologie de la voix synthétique devrait s’accompagner d’expériences d’authentification vocale permettant de vérifier que le locuteur original ajoute sciemment sa voix au service et d’une liste de voix interdites permettant de détecter et d’empêcher la création de voix trop semblables à des personnalités » ajoute l’entreprise.

Nouveauté : Découvrez

La meilleure expérience de Numerama, sans publicité,
+ riche, + zen, + exclusive.

Découvrez Numerama+

Si vous avez aimé cet article, vous aimerez les suivants : ne les manquez pas en vous abonnant à Numerama sur Google News.