La startup québécoise Lyrebird développe une technologie qui n'est pas sans poser quelques questions éthiques. Son algorithme d'imitation de voix est en effet capable d'imiter la voix d'une personne, sur la base d'un enregistrement audio d'une minute.

Si certaines technologies sont capables de distinguer les voix de différents utilisateurs, peut-on imaginer un outil capable d’analyser, pour l’imiter, la voix d’une personne ? En fait, nul besoin de l’imaginer : une telle invention est déjà en préparation, et elle a été imaginée par la startup québécoise LyrebirdSon algorithme d’imitation de voix, une interface de programmation applicative (ou API), est capable de synthétiser la voix d’une personne à l’aide d’un enregistrement court.

Pour ce faire, l’API n’a besoin que d’une seule minute d’un enregistrement de la voix originale à copier. Sur son site, la société propose d’écouter plusieurs sons obtenus grâce à son outil, et force est de constater que les résultats sont plutôt convaincants. La technique permet même d’ajouter une émotion à la voix ainsi synthétisée.

Intonations et émotions

Ici, par exemple, vous pouvez entendre un extrait dans lequel Lyrebird a synthétisé les voix de Barack Obama, Donald Trump et Hillary Clinton. Tous trois discutent ainsi, le plus naturellement du monde — ou presque –, de la technologie en question. Sur le compte Soundcloud de Lyrebird, vous pouvez également entendre une variété d’intonation des voix de l’actuel président des États-Unis, et de son prédécesseur.

La startup, basée à Montreal, évoque les nombreux champs d’application dans lequel son intelligence artificielle pourrait trouver un débouché : les assistants personnels, la lecture de livres audio, les objets connectés, la synthèse de voix pour des personnes en situation de handicap, la réalisation de films ou de jeux vidéo.

Si cet extrait est a priori tout à fait innocent, il est aisé d’imaginer l’utilisation qui pourrait être faite d’un tel outil ; par exemple pour alimenter le vivier de la désinformation, notamment en période électorale. D’ailleurs, la société a anticipé les éventuelles critiques en consacrant une page de son site aux questions éthiques soulevées par son invention.

Enjeux éthiques évidents

« Les enregistrements audio sont souvent utilisés comme pièce à conviction dans de nombreux pays. Notre technologie pose la question de leur manipulation aux fins de contrefaçon ou d’usurpation d’identité. Cela peut avoir des conséquences dangereuses, par exemple en diplomatie ou pour des actes de fraude, et plus généralement dans tout autre cas d’usurpation d’identité », précise Lyrebird.

Ainsi, l’entreprise canadienne estime justement que son API peut sensibiliser les auditeurs à ne pas considérer comme une preuve irréfutable un enregistrement audio. « En révélant l’existence de cette technologie et en la rendant disponible, nous souhaitons conjurer l’apparition de tels risques. Nous espérons que le public prendra conscience qu’imiter une voix est devenu possible et que cela doit relativiser à l’avenir la valeur de preuve accordée aux enregistrements audio. »

Notre technologie pose la question de la manipulation des enregistrements audio

Comme le souligne The Next Web, de telles déclarations n’anticipent cependant pas les nombreux détournements dont cette technologie pourrait faire l’objet : en effet, elle pourrait par exemple être utilisée pour induire en erreur une personne au téléphone, à l’aide de la voix d’une personne qu’il ou elle connaît. Pour le moment, Lyrebird n’a pas encore annoncé la commercialisation de son algorithme. Néanmoins, une phase de bêta-test devrait bientôt avoir lieu

Partager sur les réseaux sociaux