C’est une tâche qui peut paraître tout à fait triviale pour un être humain mais c’est une sacrée performance pour une intelligence artificielle. Grâce à l’apprentissage profond (ou « deep learning »), des dispositifs en IA sont aujourd’hui en mesure de décrire non seulement ce qui apparaît sur une photo mais de saisir aussi les relations qui existent entre ces différents éléments.
En la matière, il apparaît que l’approche de Google est d’une redoutable efficacité. Le système, baptisé Show and Tell, parvient non seulement à indiquer avec précision ce qu’il voit sur une photo mais aussi de comprendre les rapports qui existent entre les choses qu’il détecte. De cette façon, il peut ajouter une légende à la photo qui ait du sens pour l’être humain qui la lira.
Par exemple dans la photo affichée ci-dessus, l’outil ne dit pas uniquement qu’il voit le ciel, des nuages, la mer, du sable, une personne et un cerf-volant. Il peut expliquer qu’il voit un individu à la plage en train de faire du cerf-volant. C’est certes basique comme description, mais c’est une description qui est intelligible, qui a du sens. Et on imagine que très bientôt, le dispositif pourra faire encore mieux.
Selon Google, qui a publié un article à ce sujet, la technologie Show and Tell a fait de bons progrès dans la précision de la détection de ce qui apparaît dans une image. Elle a un taux de justesse de 93,9 % contre 89,6 et 91,8 % pour les versions antérieures du système. C’est à dire que dans plus de neuf cas sur dix, Show and Tell parvient à remarquer les éléments sur une photo et à saisir la logique d’ensemble.
Pour fonctionner, Show and Tell mise sur l’apprentissage automatique, une approche que suit déjà Google avec TensorFlow. L’idée est d’associer à la fois la détection de ce qui est sur l’image, la lecture de la légende de nombreuses photos identiques et une meilleure compréhension de la langue. Cela permet d’éviter une bête énumération de ce qu’il y a sur la photo et de privilégier plutôt une description.
Autrement dit, il a fallu que Show and Tell ingère au préalable d’innombrables photos montrant un pratiquant de cerf-volant sur une plage — avec leur description — pour que l’outil finisse par avoir un schéma lui permettant de reconnaître une image de ce type. Il peut aussi bien réutiliser des légendes déjà écrites par des humains ou rédiger les siennes en combinant plusieurs descriptions selon le cas de figure.
TensorFlow, qui est open source, connaît une utilisation croissante chez Google. Du côté de Show and Tell, il est annoncé que l’outil rejoint aussi le modèle open source. Une ouverture qui ne doit rien au hasard : Google veut profiter de l’usage qui sera fait de ses outils pour les faire gagner en justesse et dans le même temps les imposer parmi la forte concurrence qui se met en place dans le secteur de l’IA.
Quelques images qui donnent un aperçu de ce que fait Show and Tell.
+ rapide, + pratique, + exclusif
Zéro publicité, fonctions avancées de lecture, articles résumés par l'I.A, contenus exclusifs et plus encore.
Découvrez les nombreux avantages de Numerama+.
Vous avez lu 0 articles sur Numerama ce mois-ci
Tout le monde n'a pas les moyens de payer pour l'information.
C'est pourquoi nous maintenons notre journalisme ouvert à tous.
Mais si vous le pouvez,
voici trois bonnes raisons de soutenir notre travail :
- 1 Numerama+ contribue à offrir une expérience gratuite à tous les lecteurs de Numerama.
- 2 Vous profiterez d'une lecture sans publicité, de nombreuses fonctions avancées de lecture et des contenus exclusifs.
- 3 Aider Numerama dans sa mission : comprendre le présent pour anticiper l'avenir.
Si vous croyez en un web gratuit et à une information de qualité accessible au plus grand nombre, rejoignez Numerama+.
Abonnez-vous à Numerama sur Google News pour ne manquer aucune info !