La technologie de reconnaissance faciale FaceNet développée par Google est désormais disponible dans une version open-source officieuse, OpenFace.

L’été dernier, Google dévoilait dans un article de recherche (.pdf) un nouveau système de reconnaissance faciale baptisé FaceNet, qui frôle les 100 % de précision au test de référence Labeled Facebooks in The Wild (LFW), et dépasse 95 % sur la base YouTube Faces DB.En utilisant un réseau neuronal artificiel et un nouvel algorithme, la firme de Mountain View parvient ainsi à rapprocher à la quasi-perfection un visage et son propriétaire.

La technologie est déjà intégrée dans Google Photos pour trier les clichés et les tagger automatiquement en fonction des personnes reconnues.

Tous les géants du Web ont pris pour habitude de publier leurs découvertes théoriques dans le secteur de l’intelligence artificielle et de la reconnaissance d’image, y compris Baidu ou Facebook, pour faire avancer au plus vite l’état de l’art. Aussi dans leur article, les trois ingénieurs de Google Florian Schroff, Dmitry Kalenichenko et James Philbin détaillaient la méthode employée et les algorithmes, mais sans aller jusqu’à fournir le code source de FaceNet, qui reste un secret industriel.

Un chercheur de l’Université Carnegie Mellon a toutefois décidé de reproduire le fonctionnement de FaceNet et de mettre à disposition son code source. Brandon Amos a ainsi mis en ligne OpenFace, qui doit permettre à tous les développeurs de profiter des méthodes décrites.

Selon la démonstration ci-dessous, le système apprend à reconnaître parfaitement les visages à partir de 10 images témoin qui lui servent à l’apprentissage, lesquelles peuvent être tirées d’une même vidéo :

Mais attention, l’utilisation de technologies de reconnaissance du visage est strictement encadrée en Europe, où la protection des données personnelles est plus vive (et de plus en plus) qu’aux Etats-Unis. Pas question de réaliser chez soi un fichier des internautes, pour les reconnaître automatiquement dans des vidéos YouTube, par exemple.

D’ailleurs, « nous ne soutenons pas l’utilisation de ce projet dans des applications qui violent la vie privée et la sécurité », assure Brandon Amos. « Nous utilisons ceci pour aider les utilisateurs avec une déficience cognitive à ressentir et comprendre le monde autour d’eux« . Le but est de fournir aux développeurs un script qui aiderait à décrire les photos ou les vidéos, pour raconter ce qu’il s’y passe, et qui s’y trouve.

Partager sur les réseaux sociaux

Articles liés