Publié le 23 septembre 2016 à 14h55

Google impressionne avec son outil de légende de photos basé sur une IA

Temps de lecture : 3 min

Google a donné des nouvelles d’un outil qui ajoute automatiquement des légendes en analysant le contenu d’une photo. Basé sur une technologie d’intelligence artificielle, le dispositif atteint un très haut degré de précision. Il devient aussi open source.

C’est une tâche qui peut paraître tout à fait triviale pour un être humain mais c’est une sacrée performance pour une intelligence artificielle. Grâce à l’apprentissage profond (ou « deep learning »), des dispositifs en IA sont aujourd’hui en mesure de décrire non seulement ce qui apparaît sur une photo mais de saisir aussi les relations qui existent entre ces différents éléments.

En la matière, il apparaît que l’approche de Google est d’une redoutable efficacité. Le système, baptisé Show and Tell, parvient non seulement à indiquer avec précision ce qu’il voit sur une photo mais aussi de comprendre les rapports qui existent entre les choses qu’il détecte. De cette façon, il peut ajouter une légende à la photo qui ait du sens pour l’être humain qui la lira.

CC Gloria

Par exemple dans la photo affichée ci-dessus, l’outil ne dit pas uniquement qu’il voit le ciel, des nuages, la mer, du sable, une personne et un cerf-volant. Il peut expliquer qu’il voit un individu à la plage en train de faire du cerf-volant. C’est certes basique comme description, mais c’est une description qui est intelligible, qui a du sens. Et on imagine que très bientôt, le dispositif pourra faire encore mieux.

TensorFlow s’appuie sur des réseaux de neurones artificiels pour identifier des choses. Par exemple, il est capable de repérer des éléments sur une photo s’il a été « nourri » au préalable avec des milliers d’images montrant une scène similaire, afin de pouvoir ensuite la détecter sans l’aide de personne

Selon Google, qui a publié un article à ce sujet, la technologie Show and Tell a fait de bons progrès dans la précision de la détection de ce qui apparaît dans une image. Elle a un taux de justesse de 93,9 % contre 89,6 et 91,8 % pour les versions antérieures du système. C’est à dire que dans plus de neuf cas sur dix, Show and Tell parvient à remarquer les éléments sur une photo et à saisir la logique d’ensemble.

Pour fonctionner, Show and Tell mise sur l’apprentissage automatique, une approche que suit déjà Google avec TensorFlow. L’idée est d’associer à la fois la détection de ce qui est sur l’image, la lecture de la légende de nombreuses photos identiques et une meilleure compréhension de la langue. Cela permet d’éviter une bête énumération de ce qu’il y a sur la photo et de privilégier plutôt une description.

Autrement dit, il a fallu que Show and Tell ingère au préalable d’innombrables photos montrant un pratiquant de cerf-volant sur une plage — avec leur description — pour que l’outil finisse par avoir un schéma lui permettant de reconnaître une image de ce type. Il peut aussi bien réutiliser des légendes déjà écrites par des humains ou rédiger les siennes en combinant plusieurs descriptions selon le cas de figure.

TensorFlow, qui est open source, connaît une utilisation croissante chez Google. Du côté de Show and Tell, il est annoncé que l’outil rejoint aussi le modèle open source. Une ouverture qui ne doit rien au hasard : Google veut profiter de l’usage qui sera fait de ses outils pour les faire gagner en justesse et dans le même temps les imposer parmi la forte concurrence qui se met en place dans le secteur de l’IA.

Quelques images qui donnent un aperçu de ce que fait Show and Tell.

Combinaison de plusieurs légendes pour en créer une nouvelle.

Combinaison de plusieurs légendes écrites par des humains pour en créer une nouvelle de façon automatique.

Quand ce n’est pas utile de créer une nouvelle légende, une description rédigée par un humain est utilisée.

Le système peut se montrer aussi plus précis dans les descriptions.

Vous voulez tout savoir sur la mobilité de demain, des voitures électriques aux VAE ? Abonnez-vous dès maintenant à notre newsletter Watt Else !

Google

Télécharger gratuitement

Signaler une erreur dans le texte

Partager l'article

Sur le même thème

Profitez de la musique sans vous couper du monde avec ces écouteurs au design original

sponso

L’Europe cherche des règles plus dures contre ChatGPT et Midjourney

Google Bard France // Source : Numerama avec Midjourney

Google Bard arrive en France et gagne de nouvelles fonctions pour battre ChatGPT

Source : Simon Walker / No 10 Downing Street

Qui gouvernera l’intelligence artificielle parmi les nations ?

Washington conseille à Nvidia de choisir le camp des USA plutôt que l’argent de la Chine

Comment tester facilement des modèles d’IA sans compétence technique

Les derniers articles tech

Une manette Wii. // Source : Flickr/CC/Nicolas Nova (photo recadrée)

tech smartphone apple iphone

Pourquoi on ne pourra pas jouer aux jeux GameCube et Wii sur iPhone

26.04.2024 09:32

C'est déjà bon sur Android

C’est l’option qui manquait sur iPhone pour bien protéger son WhatsApp

25.04.2024 16:28

tech intelligence artificielle

Cette technologie vous simplifie la vie au quotidien et vous n’en avez même pas conscience

25.04.2024 14:15

sponso

Les AirPods Pro 2 d’Apple // Source : Apple

tech écouteurs

AirPods Pro 2 : les meilleurs écouteurs d’Apple passent enfin sous les 200 €

25.04.2024 11:41

Image utilisée par TikTok pour illustrer sa fonction Récompenses. // Source : Capture Numerama

tech web réseaux sociaux

Sous pression, TikTok arrête de rémunérer les utilisateurs de TikTok Lite

24.04.2024 17:30

tech smartphone apple iphone

Apple publie OpenELM, le modèle de langage open source que personne n’attendait

24.04.2024 17:29

société politique citoyenneté

4 questions sur Albert, le chatbot 100 % souverain de la France

24.04.2024 17:22

L'Apple Vision Pro et sa batterie portable. // Source : Nino Barbey / Numerama

tech réalités alternatives réalité mixte

Il faut se méfier des chiffres sur le « flop » de l’Apple Vision Pro

24.04.2024 14:27

« Tout cramer » - Léodagan

Il s’appelle Thermonator et c’est un robot-chien équipé d’un lance-flammes

24.04.2024 14:13

tech web navigateur

La fin des cookies tiers sur Google Chrome aura encore plus de retard

24.04.2024 10:37

Nouveauté : Découvrez Numerama+

Nouveauté : Découvrez