Dans Westworld, l'excellente série HBO, ce sont les souvenirs qui donnent aux robots leur déroutante conscience humaine. Lorsqu'il s'agit d'humaniser ce qui ne l'est pas, la technologie se penche sur ce qui nous définit ; pour la parole, il s'agit très certainement de notre prononciation, imparfaite et inspirée par la phrase, qui fait de nous des voix humaines. Une qualité que nous envie Alexa, l'assistant d'Amazon.

La poursuite d’une interaction toujours plus naturelle entre l’humain et la machine est le leitmotiv premier de toute entreprise investissant dans les assistants virtuels. Et ces derniers ont beau impressionner par leurs compétences et leur adaptabilité, ils sont toujours affreusement robotiques. Un rien semble les bloquer dans le monde d’avant, une question de sensibilité et de compréhension qui nous empêche — pour le mieux ? — de les prendre pour des êtres conscients.

Pour Amazon, ce petit surplus d’âme ne serait pas étranger à la question du langage. Car si Alexa sait répondre à un I love you soudain ou raconter une blague, elle est loin de le faire avec la spontanéité et le détachement nécessaire — comme un acteur trop entraîné. Un blocage qui viendrait, toujours selon ses créateurs, de l’absence dans la voix d’Alexa des modulations nécessaires au réalisme. Des modulations de la voix, du ton et de la respiration de son propos qui se traduisent, selon la vieille norme SSML, par une série de formes standardisées que l’on peut imposer aux moteurs de synthèse vocale.

Amazon Echo
Alexa, l’IA commerçante d’Amazon

C’est donc ce fameux SSML, créé et normalisé par le W3C, qui est désormais en parti supporté par Alexa afin de gagner en naturel. Dans un billet, les spécialistes de la synthèse vocale de la bête expliquent s’être concentrés sur cinq nouvelles capacités du moteur : les chuchotements, l’emphase, les bips (pas très humain mais nécessaire), l’improvisation et enfin la modulation du volume, de la vitesse et de l’intonation.

Les fonctionnalités ne s’éveilleront pas grâce à la conscience d’Alexa pour le moment, elles seront plutôt accessible à tous les développeurs tiers qui, en apprenant la syntaxe nécessaire, pourront faire chuchoter des phrases à l’IA. Enfin, Amazon a également développé un petit bonus pour les développeurs : des interjections qu’Alexa peut déclamer à la demande, en prenant le ton nécessaire. En anglais, l’assistant peut désormais lancer des abracadabra !, eureka ! ou encore gotcha et yay ! Une fonctionnalité qui pourrait vite lasser.

Heureusement, les développeurs devront composer avec les limites posées par Amazon qui ne souhaite pas voir son Alexa transformée en perroquet gloussant. Et ne permet donc pas une utilisation intensive et répétitive du SSML.

Partager sur les réseaux sociaux