Bientôt, il sera impossible de discerner un professionnel du doublage d’une IA. Qu’est-ce que cela augure pour le monde du doublage ? Numerama a interrogé Patrick Kuban, comédien vocal professionnel.

« Don’t steal our voices » : « Ne volez pas nos voix ». C’est l’appel lancé à travers l’initiative du même nom, menée par 21 syndicats et associations des professionnels de la voix du cinéma, de la publicité ou des jeux vidéo. Réunis dans une coalition internationale baptisée UVA, pour United Voice Artists, ils représentent sept pays européens, dont la France, mais aussi les États-Unis, la Turquie et l’Amérique du Sud. Tous mettent en garde contre les voix générées par intelligence artificielle dans une lettre ouverte publiée jeudi 25 mai.

« L’intelligence artificielle doit être un outil au service de l’homme, et pas quelque chose qui vient voler notre métier, nos créations, notre interprétation, et surtout nos personnalités, car la voix fait partie de notre personnalité comme notre visage », détaille Patrick Kuban à Numerama. Le comédien vocal professionnel et cofondateur du collectif Les Voix, qui a signé la tribune, est notamment la voix de la chaîne Canal+ pour les bandes annonces, de la radio RTL 2 (Le Son Pop-Rock) et travaille aussi sur des publicités pour des marques et documentaires. Il a accepté de répondre à nos questions.

Quelles voix pour entraîner les IA ?

Comme avec les IA génératives qui génèrent des images (Midjourney) ou du texte (ChatGPT), les entreprises qui mettent au point des intelligences artificielles vocales doivent s’appuyer sur un grand volume de données pour mettre au point leurs modèles. Et c’est d’ailleurs là le point de départ de l’initiative.

En avril, des membres français des Voix ont signalé d’étranges contrats d’enregistrements « à but de recherche »… qui cédaient en fait des droits à Voiseed, une start-up milanaise spécialisée dans l’intelligence artificielle. Patrick Kuban analyse : « Quand vous dites sur un contrat que c’est à but de recherche, vous omettez de préciser que ces voix vont être en fait utilisées pour produire un résultat et être commercialisées dans un système », s’insurge le professionnel, qui milite pour que cette utilisation soit soumise à une autorisation préalable.

De nombreuses entreprises se sont spécialisées dans les voix générées par IA, comme Vall-E, Lyrebird ou ElevenLabs. En 2021, le film d’horreur Every Time I Die a par exemple été doublé en portugais et en espagnol grâce à l’IA, par la start-up israélienne DeepHub.

Si certaines entreprises utiliseraient bien des voix de studio comme matériel d’entraînement, selon Patrick Kuban, d’autres « piochent sur Internet sur des œuvres qui sont protégées par des droits d’auteur, et notamment les livres audio, films et séries, extraits d’émission de radio, podcasts… ».

Cette question de l’utilisation massive de contenus non libres de droits pour entraîner les IA est au cœur d’un casse-tête juridique. L’IA Act, le projet de réglementation de l’intelligence artificielle par l’Union européenne, prévoit de son côté d’imposer que toutes les IA génératives divulguent les contenus protégés par des droits d’auteurs qu’elles ont utilisés pour s’entraîner.

La voix, une donnée biométrique sensible

Selon le professionnel de la voix, le problème est double : « le data mining, le droit de fouille, est utilisé de façon illicite, puisqu’il y a une utilité commerciale, mais il y a aussi la présence sur ces bases de données d’entraînement d’une donnée biométrique sensible qui est la voix, qui est mentionnée dans le Règlement général sur la protection des données (RGPD) : son utilisation étant soumise à l’autorisation des personnes ».

Une question d’autant plus sensible que des acteurs malintentionnés ont déjà recours à des imitations vocales de personnes réelles. Celles-ci pourraient même poser des problèmes de sécurité nationale, fait remarquer le comédien vocal. « Vous imaginez un ministre dont la voix serait utilisée dans une conversation qui serait subtilisée dans une chaîne de commandement. Cela serait dramatique », imagine-t-il.

…même dans l’au-delà

Que penser des artistes qui ont bel et bien accordé leur autorisation ? C’est le cas de l’Américain James Earl Jones, qui prête sa voix à Dark Vador depuis quarante ans. En septembre dernier, le comédien de 92 ans a vendu une banque de sons de sa voix de basse robotique et de son souffle caractéristique à une entreprise ukrainienne, Respeecher. Même après sa mort, son clone vocal pourra continuer de doubler Vador dans les futurs Star Wars.

« Il y a un point de vue éthique, de se dire est-ce qu’il faut faire parler les acteurs morts ou pas, est-ce que les ayant droit sont d’accord ou pas » une fois la personne décédée, estime Patrick Kuban, pour qui il est encore trop tôt pour se poser la question.

Dark Vador dans la série Obi-Wan Kenobi // Source : Disney +
Dark Vador dans la série Obi-Wan Kenobi // Source : Disney +

« Ceci n’est pas une voix »

Enfin, il pose également la question de l’avertissement obligatoire des contenus générés par IA, voulu par l’IA Act, et préconisé par la France pour les images et les textes. Techniquement, il pourrait passer par « des tags audibles lorsque vous écoutez un podcast, une publicité ou livre audio par exemple, qui précisent à l’auditeur “Ce que vous écoutez est généré par un robot et une voix synthétique” » ou par un bandeau visuel avant une vidéo, suppose Patrick Kuban. 

Pour retracer la nature artificielle de ces contenus, il imagine un système de « filigrane » vocal (« watermark »). « Si des systèmes d’IA génératives sont certifiés avec des bases de données RGPD, tout ce qui en sort doit être “watermarké” dans le signal audio. On peut rajouter un signal qui ne s’entend pas, un code-barres dans la voix, qui permettra de relier la voix qu’on entend à un contrat », propose le cofondateur des Voix.

Profession en danger, applications déjà sur le marché

Pour Patrick Kuban, le danger est réel pour la profession. Les comédiens de doublage sont un maillon essentiel du secteur : « Si vous cassez la chaîne, tout s’écroule : s’il n’y a plus de comédiens en studio, il n’y a plus de studio d’enregistrement, d’ingénieurs du son, d’auteurs ».

Et l’actualité lui donnerait presque raison. En février, l’agence de production Prodigious a par exemple annoncé développer une application générant des voix de synthèse via de l’intelligence artificielle, appelée TalkBox. Capable de s’exprimer dans 83 langues et différents accents (jusqu’à 14 accents rien qu’en anglais) en anglais) et d’imiter des voix d’hommes, de femmes et d’enfants. L’application vise d’abord des interventions minimes comme les mentions légales à la télévision et radio mais, à terme, elle pourrait concerner du contenu sponsorisé, des vidéos de démonstration ou même des documentaires.


Vous voulez tout savoir sur la mobilité de demain, des voitures électriques aux VAE ? Abonnez-vous dès maintenant à notre newsletter Watt Else !