Une expérience menée par l'université de Stanford montre que le logiciel de reconnaissance vocale Deep Speech 2 de Baidu peut écrire un message trois fois plus rapidement qu'un humain, et avec une plus grande précision.

Les reconnaissances vocales embarquées par les smartphones souffrent parfois d’une mauvaise image auprès du public. Cette technologie si prometteuse peut s’avérer être parfois trop lente et fait encore de nombreuses erreurs de compréhension. Ce n’est pourtant pas la conclusion à laquelle arrive une expérience menée à l’université de Stanford qui observe que cette technologie peut être trois fois plus rapide qu’un être humain pour écrire un message, tout en étant plus précis, ce que nous avions nous-mêmes constaté avec la dictée sous Google Docs, imparfaite mais bluffante.

« La reconnaissance vocale est quelque chose que l’on promet depuis des décennies mais cela n’a jamais vraiment marché », explique James Landay, professeur de sciences informatiques à Stanford et co-auteur de cette étude. Il ajoute néanmoins que « la reconnaissance vocale était en train de beaucoup s’améliorer depuis deux ou trois ans, bénéficiant du big data et de l’apprentissage profond pour entraîner son réseau neuronal et produire des résultats plus rapides et précis ». C’est pourquoi, les chercheurs ont décidé de tester cette technologie contre des humains.

Pour ce faire, ils ont utilisé le logiciel Deep Speech 2 de la firm chinoise Baidu pour le confronter à 32 volontaires âgés de 19 à 32 ans. « Ils ont grandi en écrivant des messages, donc nous avons opposé la reconnaissance vocale à des gens qui sont très bons pour cette tâche », précise James Landay. Sur une centaine de phrases, les participants devaient soit taper eux-mêmes une centaine de phrases soit la dicter à haute voix au smartphone. La moitié d’entre eux ont réalisé l’expérience en anglais, l’autre en mandarin.

Le professeur confie qu’il s’attendait à ce que le logiciel surpasse l’homme. Ce qui l’a surpris en revanche, c’est de voir à quel point. En moyenne, le premier écrit le texte 3 fois plus rapidement que le second avec un taux d’erreur plus faible de 20,4 % pour les textes en anglais. Pour ceux en mandarin, la vitesse d’exécution est 2,8 fois plus grande pour un taux d’erreur 63,4 fois plus petit.

Bien qu’ils aient utilisé exclusivement un logiciel de Baidu, les chercheurs sont persuadés que de telles performances peuvent être observées pour d’autres reconnaissances vocales.

Partager sur les réseaux sociaux

Articles liés