Google a donné des nouvelles d'un outil qui ajoute automatiquement des légendes en analysant le contenu d'une photo. Basé sur une technologie d'intelligence artificielle, le dispositif atteint un très haut degré de précision. Il devient aussi open source.

C’est une tâche qui peut paraître tout à fait triviale pour un être humain mais c’est une sacrée performance pour une intelligence artificielle. Grâce à l’apprentissage profond (ou « deep learning »), des dispositifs en IA sont aujourd’hui en mesure de décrire non seulement ce qui apparaît sur une photo mais de saisir aussi les relations qui existent entre ces différents éléments.

En la matière, il apparaît que l’approche de Google est d’une redoutable efficacité. Le système, baptisé Show and Tell, parvient non seulement à indiquer avec précision ce qu’il voit sur une photo mais aussi de comprendre les rapports qui existent entre les choses qu’il détecte. De cette façon, il peut ajouter une légende à la photo qui ait du sens pour l’être humain qui la lira.

cerf-volant-plage
CC Gloria

Par exemple dans la photo affichée ci-dessus, l’outil ne dit pas uniquement qu’il voit le ciel, des nuages, la mer, du sable, une personne et un cerf-volant. Il peut expliquer qu’il voit un individu à la plage en train de faire du cerf-volant. C’est certes basique comme description, mais c’est une description qui est intelligible, qui a du sens. Et on imagine que très bientôt, le dispositif pourra faire encore mieux.

Selon Google, qui a publié un article à ce sujet, la technologie Show and Tell a fait de bons progrès dans la précision de la détection de ce qui apparaît dans une image. Elle a un taux de justesse de 93,9 % contre 89,6 et 91,8 % pour les versions antérieures du système. C’est à dire que dans plus de neuf cas sur dix, Show and Tell parvient à remarquer les éléments sur une photo et à saisir la logique d’ensemble.

Pour fonctionner, Show and Tell mise sur l’apprentissage automatique, une approche que suit déjà Google avec TensorFlow. L’idée est d’associer à la fois la détection de ce qui est sur l’image, la lecture de la légende de nombreuses photos identiques et une meilleure compréhension de la langue. Cela permet d’éviter une bête énumération de ce qu’il y a sur la photo et de privilégier plutôt une description.

Autrement dit, il a fallu que Show and Tell ingère au préalable d’innombrables photos montrant un pratiquant de cerf-volant sur une plage — avec leur description — pour que l’outil finisse par avoir un schéma lui permettant de reconnaître une image de ce type. Il peut aussi bien réutiliser des légendes déjà écrites par des humains ou rédiger les siennes en combinant plusieurs descriptions selon le cas de figure.

TensorFlow, qui est open source, connaît une utilisation croissante chez Google. Du côté de Show and Tell, il est annoncé que l’outil rejoint aussi le modèle open source. Une ouverture qui ne doit rien au hasard : Google veut profiter de l’usage qui sera fait de ses outils pour les faire gagner en justesse et dans le même temps les imposer parmi la forte concurrence qui se met en place dans le secteur de l’IA.

Quelques images qui donnent un aperçu de ce que fait Show and Tell.

Combinaison de plusieurs légendes pour en créer une nouvelle.
Combinaison de plusieurs légendes écrites par des humains pour en créer une nouvelle de façon automatique.
Quand ce n'est pas utile de créer une nouvelle légende, une description rédigée par un humain est utilisée.
Quand ce n’est pas utile de créer une nouvelle légende, une description rédigée par un humain est utilisée.
show-and-tell-3
Le système peut se montrer aussi plus précis dans les descriptions.

Partager sur les réseaux sociaux

Articles liés