Microsoft a appris à un logiciel de reconnaissance vocale à reconnaître un discours oral. Il était aussi bon qu'un humain il y a un an et il continue d'améliorer son score.

La machine qui remplacera l’homme est de moins en moins une affaire de possibilité qu’une affaire de conviction. Aujourd’hui, c’est le groupe de recherche autour de l’énoncé oral et du dialogue de Microsoft qui est parvenu à dépasser une frontière encore inconnue. En effet, l’équipe a présenté un programme informatique de reconnaissance vocale capable de reconnaître les mots d’un discours oral avec un taux d’erreur (WER) par mot de 5,1 %. Ce chiffre qui n’a rien de surprenant en soi prend un autre sens quand on sait qu’il est inférieur au taux d’erreur par mot d’un humain (le taux d’erreur correspond au fautes que peut faire un humain lors d’une retranscription, confondant par exemple un « the  » anglais avec un «  »).

L’an passé, Xuedong Huang, responsable de la reconnaissance vocale chez Microsoft, avait affirmé que l’ordinateur propulsé par une intelligence artificielle maison (dans ce cas, un réseau neuronal entraîné) était  arrivé à « jeu égal avec l’humain ». Il ne s’agit pas de perfection, bien entendu, mais d’atteindre un seuil qui est le même que celui d’un humain qui fait lui aussi des erreurs lorsqu’il entend un discours oral. Le travail de ces « 20 années d’effort », comme le notait Microsoft, s’est accéléré depuis quelques mois. Il y a un an, l’équipe ne parvenait qu’à un taux de 6,3 % en début d’année, puis de 5,9 % en octobre.

L’équipe du laboratoire de Microsoft // photo par Dan DeLong

Qu’est-ce que cela signifie en pratique ? Nous ne sommes pas dans un cas de figure où la réussite théorique est abstraite pour le quotidien des utilisateurs de gadgets. En effet, le blog de Microsoft avançait déjà la possibilité d’améliorer Cortana, l’assistant maison encore disponible sur Windows 10 mais que tout le monde a oublié depuis que Windows Phone n’existe plus et qui pourrait revenir en force grâce à des objets connectés. Aujourd’hui, la reconnaissance vocale a été améliorée grâce à un moteur de prédiction qui permet de comprendre quels mots arriveront probablement après ceux déjà énoncés. Résultat : l’intelligence artificielle se trompe moins. On n’évoque pas, bien entendu, la compréhension d’un énoncé, mais sa restitution par écrit — une étape fondamentale avant de passer à l’analyse.

Et si le grand public pourra retrouver ces avancées dans différentes versions d’un assistant, on imagine aussi les applications professionnelles permises par une telle technologie. Au-delà de peaufiner les fameux outils de traduction en temps réel de Skype, le logiciel de Microsoft pourrait devenir une référence dans la prise de note rapide ou la retranscription de discours et le sous-titrage de films, séries et documentaires… en temps réel.

Bien entendu, ces résultats ont été obtenus sur des exemples anglais — l’exemple du Google Home nous a montré que la maîtrise des autres langues ne se fait pas en un claquement de doigts. La machine nous aura certainement dépassés très largement en anglais avant de commencer à apprendre la langue de Jul.

Partager sur les réseaux sociaux