Apple, Google et Amazon utilisaient jusqu'à présent des échantillons anonymes de conversations captées par leurs appareils pour améliorer la reconnaissance automatique de la parole et ainsi fournir un service de meilleure qualité. Mais une série de controverses les oblige à lever le pied.

Si vous possédez une enceinte connectée, vous devez certainement penser que tout ce que vous lui dites (ou qu’elle entend) ne sort pas de l’appareil. Au pire, vos instructions sont peut-être envoyées sur les serveurs de l’entreprise qui vous a vendu le produit, afin de comparer automatiquement vos échantillons avec des modèles statistiques et ainsi bien vous comprendre.

En fait, il faut savoir que vos commandes orales sont susceptibles d’être écoutées par un opérateur ou une opératrice. Il ne s’agit pas de toutes vos phrases : ce ne sont que d’infimes extraits (à titre d’exemple, Google indique que les écoutes humaines ne touchent que 0,2 % des échantillons). En outre, ces passages sont rendus anonymes pour qu’il ne soit pas possible de relier un propos à un compte.

Captations d’informations sensibles

Mais depuis le mois d’août, un rétropédalage a lieu. Alors que les trois grandes sociétés du secteur, Amazon, Apple et Google, se livrent d’ordinaire à ce type d’analyse afin de rendre la reconnaissance automatique de la parole, plusieurs polémiques ayant fleuri ces dernières semaines montrent que ce qui peut être justifié sur un plan technique ne l’est plus quand on tient compte d’autres considérations.

En effet, il a été constaté que des informations sensibles ou intimes finissent dans les fichiers sonores analysés par le personnel d’Amazon, Google ou Apple. Il peut s’agir par exemple d’informations médicales, d’enregistrements sexuels ou encore de trafics de drogue. Des noms et des adresses peuvent aussi être prononcés à haute voix, ce qui rend de fait caduque toute vraie anonymisation.

Avec l’enceinte connectée Echo, les employés Amazon qui analysent des extraits de conversation peuvent savoir où son propriétaire habite en regardant du côté de la géolocalisation de l’appareil. Autre exemple, concernant Google cette fois : il a été découvert qu’il est possible de retrouver l’identité de certains individus en tapant tout bêtement certaines informations sur un moteur de recherche.

Suspension des écoutes humaines

Ces controverses expliquent le coup de frein auquel on assiste. Google annonce une pause de trois mois dans l’écoute des échantillons captés par Google Assistant pour toute l’Union européenne. Même chose chez Apple, mais pour le monde entier. Quant à Amazon, c’est l’option du retrait qui est retenue (ce que proposera aussi Apple) : en cochant une case, on peut interdire l’écoute de ses échantillons.

Bien qu’elles donnent l’impression d’un espionnage permanent et diffus, ces écoutes n’ont pas été mises en place pour nuire aux individus. C’est même tout le contraire : pour que la reconnaissance automatique de la parole soit toujours plus efficace, il faut pouvoir gérer tout le spectre de la voix humaine : prononciation, débit, accent, intonation, mais aussi construction de la phrase et contexte.

Sur un strict plan technique, la suspension même provisoire de l’écoute d’échantillons va être un obstacle pour Apple, Google et Amazon, puisqu’il ne sera plus possible d’ajuster le fonctionnement des enceintes connectées et autres assistants personnels intelligents par ce canal-là. Cette absence d’expertise humaine sur les échantillons difficiles rendra de fait la reconnaissance automatique de la parole moins précise.