La technologie de reconnaissance vocale de Google est de plus en plus performante pour reconnaître les voix humaines. Lors de la conférence I/O 2017, le PDG Sundar Pichai a annoncé que le taux d'erreur était passé sous la barre des 5 %.

Le nom de Google est entré dans le langage courant, si bien que la justice américaine a récemment statué sur la question de savoir s’il pouvait rester une marque déposée. L’entreprise n’a pas atteint sa notoriété en un claquement de doigts, et ne masque pas ses ambitions de perfectionner chacun de ses outils.

Sundar Pichai, le PDG de Google, vient d’annoncer que la technologie de reconnaissance vocale de l’entreprise était de plus en plus performante, avec un taux d’erreur ramené à 4,9 %. Autrement dit, Google rencontre des lacunes pour retranscrire vos propos tous les 20 mots, soit une nette amélioration par rapport aux 23 % enregistrés par l’entreprise en 2013, note Venture Beat.

Moins de micros, plus d’intelligence artificielle

L’information a été dévoilée à l’occasion de la conférence I/O 2017 de Google, qui a mis l’accent sur l’intelligence artificielle. Le deep learning, une forme d’intelligence artificielle capable de modéliser des données à un haut niveau d’abstraction, est notamment utilisé pour obtenir une reconnaissance vocale précise.

Google

Le système fonctionne sur la base de réseaux neuronaux, formés en intégrant des données. Il est ensuite alimenté par de nouvelles données, avec l’objectif d’aboutir à des prédictions fiables.

« Nous utilisons la voix comme entrée sur plusieurs de nos produits, a indiqué Sundar Pichai sur scène. En effet, les ordinateurs deviennent beaucoup plus performants pour comprendre le discours. Nous avons eu des percées significatives, mais l’évolution depuis l’année dernière a été très impressionnante à voir. Notre taux d’erreur de mots continue à s’améliorer, même dans des environnements très bruyants. C’est pourquoi, si vous parlez à Google sur votre téléphone ou à Google Home, nous pouvons reprendre votre voix avec précision.  »

Notre taux d’erreur s’améliore, y compris dans des lieux bruyants

Le PDG a également souligné que l’entreprise avait songé à équiper ses Google Home d’une plus grande quantité de microphones, dans l’objectif d’améliorer son système de reconnaissance vocale. Or, l’utilisation des réseaux neuronaux a finalement permis à Google de n’ajouter que deux microphones à l’appareil, au lieu des huit initialement prévus.

À titre de comparaison, Microsoft indiquait en octobre 2016 que son taux d’erreur s’élevait à 5,9 % — mais les critères d’appréciation sont-ils les mêmes que chez Google ? –, et que son système de reconnaissance vocale était autant capable de reconnaître les voix humaines que les humains eux-mêmes.

Partager sur les réseaux sociaux