Google et l'université de Stanford travaillent sur un algorithme capable de décrire le contenu d'une image, en identifiant les principaux éléments apparaissant sur le cliché avant de déterminer la relation qu'ils peuvent avoir entre eux. Si le système est loin d'être parfait, il donne des résultats tout à fait satisfaisants.

Jusqu'à présent, on connaissait les outils de reconnaissance faciale qui permettent de repérer et d'identifier les visages apparaissant sur une photo. Ce type de technologie est par exemple très prisé par les réseaux sociaux comme Facebook. Ce dernier s'en sert en particulier pour suggérer à ses utilisateurs de marquer leurs proches lorsqu'ils envoient des clichés dans lesquels ces derniers apparaissent.

Mais il y a beaucoup plus impressionnant : ce sont les outils qui sont capables d'analyser le contenu d'une photographie et d'en faire une description très fidèle. Et justement, Google est sur le coup – en partenariat avec l'université de Stanford – avec une solution qui est non seulement capable de détecter les éléments d'un cliché, mais aussi de déterminer les relations qu'ils ont entre eux.

Le résultat est saisissant. Sur les quelques exemples donnés par la faculté américaine, la description est vraiment précise. Mais des erreurs peuvent parfois apparaître. La firme de Mountain View a ainsi présenté des clichés qui ont été classés en fonction de la précision de la description. Certaines sont par exemple très bien présentées, tandis que d'autres sont complétement hors sujet.

Cette reconnaissance picturale implique plusieurs technologies, allant de l'apprentissage automatique (machine learning) à la vision par ordinateur (computer vision), ainsi que le traitement automatique du langage naturel (natural language processing) et la traduction automatique (machine translation).

Dans le détail, le système essaie d'associer des images à des phrases. Chaque image est analysée et ses principales composantes sont repérées. Ces dernières sont ensuite associées à des mots et l'outil essaie alors de construire une phrase cohérente en rapport avec le cliché.

Un tel logiciel pourra être utile à Google dans son moteur de recherche. Si cet algorithme est intégré dans les entrailles du moteur, les utilisateurs pourront être en mesure de décrire une image de façon relativement précise et espérer obtenir une page présentant des résultats satisfaisants.


Abonnez-vous à Numerama sur Google News pour ne manquer aucune info !