La machine qui remplacera l’homme est de moins en moins une affaire de possibilité qu’une affaire de conviction. Aujourd’hui, c’est le groupe de recherche autour de l’énoncé oral et du dialogue de Microsoft qui est parvenu à dépasser une frontière encore inconnue. En effet, l’équipe a présenté un programme informatique de reconnaissance vocale capable de reconnaître les mots d’un discours oral avec un taux d’erreur (WER) par mot de 5,1 %. Ce chiffre qui n’a rien de surprenant en soi prend un autre sens quand on sait qu’il est inférieur au taux d’erreur par mot d’un humain (le taux d’erreur correspond au fautes que peut faire un humain lors d’une retranscription, confondant par exemple un « the » anglais avec un « a »).
L’an passé, Xuedong Huang, responsable de la reconnaissance vocale chez Microsoft, avait affirmé que l’ordinateur propulsé par une intelligence artificielle maison (dans ce cas, un réseau neuronal entraîné) était arrivé à « jeu égal avec l’humain ». Il ne s’agit pas de perfection, bien entendu, mais d’atteindre un seuil qui est le même que celui d’un humain qui fait lui aussi des erreurs lorsqu’il entend un discours oral. Le travail de ces « 20 années d’effort », comme le notait Microsoft, s’est accéléré depuis quelques mois. Il y a un an, l’équipe ne parvenait qu’à un taux de 6,3 % en début d’année, puis de 5,9 % en octobre.
Qu’est-ce que cela signifie en pratique ? Nous ne sommes pas dans un cas de figure où la réussite théorique est abstraite pour le quotidien des utilisateurs de gadgets. En effet, le blog de Microsoft avançait déjà la possibilité d’améliorer Cortana, l’assistant maison encore disponible sur Windows 10 mais que tout le monde a oublié depuis que Windows Phone n’existe plus et qui pourrait revenir en force grâce à des objets connectés. Aujourd’hui, la reconnaissance vocale a été améliorée grâce à un moteur de prédiction qui permet de comprendre quels mots arriveront probablement après ceux déjà énoncés. Résultat : l’intelligence artificielle se trompe moins. On n’évoque pas, bien entendu, la compréhension d’un énoncé, mais sa restitution par écrit — une étape fondamentale avant de passer à l’analyse.
Et si le grand public pourra retrouver ces avancées dans différentes versions d’un assistant, on imagine aussi les applications professionnelles permises par une telle technologie. Au-delà de peaufiner les fameux outils de traduction en temps réel de Skype, le logiciel de Microsoft pourrait devenir une référence dans la prise de note rapide ou la retranscription de discours et le sous-titrage de films, séries et documentaires… en temps réel.
Bien entendu, ces résultats ont été obtenus sur des exemples anglais — l’exemple du Google Home nous a montré que la maîtrise des autres langues ne se fait pas en un claquement de doigts. La machine nous aura certainement dépassés très largement en anglais avant de commencer à apprendre la langue de Jul.
+ rapide, + pratique, + exclusif
Zéro publicité, fonctions avancées de lecture, articles résumés par l'I.A, contenus exclusifs et plus encore.
Découvrez les nombreux avantages de Numerama+.
Vous avez lu 0 articles sur Numerama ce mois-ci
Tout le monde n'a pas les moyens de payer pour l'information.
C'est pourquoi nous maintenons notre journalisme ouvert à tous.
Mais si vous le pouvez,
voici trois bonnes raisons de soutenir notre travail :
- 1 Numerama+ contribue à offrir une expérience gratuite à tous les lecteurs de Numerama.
- 2 Vous profiterez d'une lecture sans publicité, de nombreuses fonctions avancées de lecture et des contenus exclusifs.
- 3 Aider Numerama dans sa mission : comprendre le présent pour anticiper l'avenir.
Si vous croyez en un web gratuit et à une information de qualité accessible au plus grand nombre, rejoignez Numerama+.
Marre des réseaux sociaux ? Rejoignez-nous sur WhatsApp !