Dans un processus similaire à celui des yeux humains, l’algorithme développé par les chercheurs de Nvidia interprète une image en 2D, puis la transforme en objet 3D. Comme une vieille photo.

Sur son site internet, Nvidia suggère une expérience des plus basiques : fermez votre œil gauche, puis réouvrez-le en fermant cette fois-ci votre œil droit. Cette simple action rappelle que le champ de vision est différent selon l’œil utilisé. « C’est parce que si nous voyons en deux dimensions, les images capturées par vos rétines sont combinées pour donner de la profondeur et produire une sensation de tridimensionnalité », explique Nvidia. Les chercheurs de l’entreprise viennent d’aboutir à un algorithme capable de reproduire artificiellement ce processus grâce à de l’apprentissage machine.

L’article de recherche a été publié ce mardi 10 décembre 2019 et décrit comment cette intelligence artificielle transforme une image 2D en objet 3D. Pour que vous puissiez jouer à des jeux vidéo, des modèles 3D (personnages, environnements…) sont « aplatis » en 2D sur l’écran. L’algorithme DIB-R inventé par les chercheurs de Nvidia fait l’inverse. Son réseau neuronal artificiel est construit autour d’une architecture d’encodage/décodage : lorsqu’il reçoit une information, c’est-à-dire l’image, il l’interprète en tant que « carte de caractéristiques ». À partir de ces données, il extrapole en prédisant la forme, les couleurs, les textures, les lumières. Ces prédictions passent ensuite à la moulinette d’un moteur de rendu, aboutissant à un objet en trois dimensions.

Des photos d'oiseaux transformés en objets en trois dimensions. // Source : Nvidia

Des photos d'oiseaux transformés en objets en trois dimensions.

Source : Nvidia

Un objet 3D fidèle obtenu en quelques millisecondes

Les algorithmes sont aujourd’hui suffisamment performants pour que le système de Nvidia ne soit pas totalement une nouveauté. Facebook et Google ont également développé des IA similaires. Sauf que l’IA de Nvidia change tout de même la donne par sa performance. Les objets 3D déduits par les IA de Facebook et Google étaient simplistes, là où DIB-R atteint un réalisme inédit. « C’est la première fois que vous pouvez prendre n’importe quelle image 3D et en prédire des propriétés 3D pertinentes »,  explique le chercheur de Nvidia Jun Gao, dans le communiqué.

Comme pour tout système à base de machine learning, les chercheurs ont dû entraîner DIB-R, à partir d’une grande bibliothèque d’images. Comme vous pouvez le voir sur l’illustration plus haut, ils ont notamment utilisé des photographiques provenant de la nature et, en l’occurrence, des oiseaux. Le résultat est non seulement fidèle aux couleurs et à la morphologie des animaux, mais à force d’entraînement, la rapidité est au rendez-vous. Selon Nvidia (qui en profite pour vanter les mérites de ses GPU), la transformation d’une image 2D en objet 3D ne prend que quelques millisecondes. « DIB-R peut transformer en moins d’une seconde des images 2D d’animaux disparus depuis longtemps, comme un Tyrannosaure Rex ou un oiseau Dodo, en une image 3D réaliste. »

Objet 3D extrapolé d'une photo en 2D. // Source : Nvidia

Objet 3D extrapolé d'une photo en 2D.

Source : Nvidia

Des parcs en réalité virtuelle et des robots plus sensibles

Évidemment, il est facile d’imaginer une mise en pratique d’un tel système pour les jeux vidéo. Peut-être même qu’un système comme DIB-R est le véritable point de départ d’un futur rempli de parcs en réalité virtuelle ? C’est ce que semble suggérer la directrice de l’IA chez Nvidia, dans une interview pour VentureBeat. Elle explique que si l’on peut prendre une photo et la transformer en 3D, cela signifie que l’on peut maintenant voir cette scène selon tous les points de vue. L’implication ? « Vous pouvez aller à l’intérieur, la voir sous différents angles — vous pouvez prendre de vieilles photos de votre collection de photos et les transformer en une scène 3D, les inspecter comme si vous y étiez », suggère Sanja Fidler.

Selon Nvidia, une autre application majeure de DIB-R est à trouver en robotique. La façon dont les humains interprètent en trois dimensions leur environnement est essentielle dans notre perception sensitive du monde qui nous entoure. Des robots autonomes auxquels on implémenterait un tel algorithme auraient potentiellement cette même capacité. Ils pourraient alors « interagir efficacement et en toute sécurité » avec un environnement qu’ils comprendraient bien mieux.


Vous voulez tout savoir sur la mobilité de demain, des voitures électriques aux VAE ? Abonnez-vous dès maintenant à notre newsletter Watt Else !