Alexa, l'assistant vocal d'Amazon, va disposer très prochainement d'un mode chuchotement.

Alexa va pouvoir chuchoter, et comprendre vos chuchotements. Amazon annonçait cette fonctionnalité le 20 septembre, mais l’information croulait sous la pléthore de nouveaux produits connectés, du micro-ondes à la prise. Pour les utilisateurs américains, les discussions chuchotées avec l’enceinte seront disponibles dès octobre 2018.

Zeynab Raessy, speech scientist du groupe de recherche Alexa Speech a publié un article pour expliquer les mécanismes derrière la capacité de l’intelligence artificielle à distinguer le chuchotement. L’assistante pouvait chuchoter depuis début 2017  — si on lui donnait quelques consignes — mais elle n’était pas capable de s’adapter intelligemment au ton de son humain de compagnie.

Quand Alexa sera partout chez vous, le chuchotement sera utile // Source : Amazon

L’équipe d’Amazon va présenter son très sérieux article scientifique en décembre, à un atelier sur les technologies de langage parlé, organisé par l’Institute of Electrical and Electronics Engineers (IEEE). Ils y croiseront notamment un des papa de Siri d’Apple, Alex Acero.

Dans son article, la scientifique tente de vulgariser le procédé qui permet à Alexa de différencier le ton de voix : « La parole chuchotée est principalement non-vocale, ce qui veut dire qu’elle n’implique pas la vibration des cordes vocales, et qu’elle a moins d’énergie dans les bandes de fréquences basses que la parole ordinaire »

C’est sur cette base que l’équipe de recherche d’Alexa a lancé sa réflexion. Ils ont attribué la tâche de détection du chuchotement à deux réseaux de neurones différents. Ils ont ainsi remarqué qu’un des deux, le réseau récurrent à mémoire court et long terme (LSTM en anglais) était capable d’apprendre quels attributs des signaux étaient les plus utiles pour la détection. Ce type de réseau est beaucoup utilisé dans la reconnaissance vocale car il traite les données entrées de façon séquencée. L’IA construit ensuite des jugements sur ce qu’elle a déjà vu.

La parole chuchotée est principalement non-vocale

Les chercheurs se sont confrontés à un problème : Alexa reconnaît la fin d’une commande grâce à une courte période de silence (l’end-pointing), mais la confiance du réseau tend à chuter vers la fin de chaque élocution. Alexa va découper la parole en différents segments. Les chercheurs ont modifié le comportement du réseau de sorte qu’il se comporte en fonction d’une moyenne de chaque segment sur la durée totale de la commande. Ils ont également écarté les 50 derniers segments, qui parasitaient la décision. Grâce à ces deux manipulations, les risques qu’Alexa parle à haut volume quand vous chuchotez sont grandement réduits.

Une innovation plus utile qu’il n’y paraît

À moins que vous soyez parents et utilisiez Alexa autour de bébé, chuchoter peut paraître gadget. Mais ce genre d’innovation ouvre à de nouvelles possibilités d’innovation, et à de nouveaux environnements. Par exemple, il serait plus facile d’utiliser un assistant vocal dans un lieu public sans déranger. De façon plus générale, c’est un premier pas vers l’adaptation du ton des assistants vocaux au ton de l’humain qui les utilise. Ce manque de compréhension de la voix entrave encore le confort d’utilisation.

Alors que les réactions d’Alexa aboutissent parfois hors sujet, il faut espérer que l’assistante vocale ne se mettra pas à jouer votre dernière playlist à volume max quand vous chuchoterez pour éviter de réveiller votre famille.

Partager sur les réseaux sociaux