Nvidia a actualisé son outil GauGAN, qui est maintenant capable de générer des photos réalistes en tapant du texte. Le tout, sur fond d'apprentissage automatique et d'intelligence artificielle.

Il n’y a même plus besoin de gribouiller quoi que ce soit pour générer des paysages très réalistes grâce à l’intelligence artificielle : désormais, quelques mots suffisent pour produire des vues naturelles, comme un rivage, des montages ou bien des monts et vallées. Cette performance est permise grâce à de nouvelles avancées en matière d’IA chez Nvidia, avec son outil GauGAN.

GauGAN ? C’est un nom qui est évidemment un clin d’œil au peintre postimpressionniste Paul Gauguin. Mais c’est surtout une manière de rappeler le fonctionnement de son outil, car GAN est l’acronyme de réseau antagoniste génératif, generative adversarial network en anglais (GAN). Il s’agit d’une méthode d’apprentissage non supervisée conçue par l’informaticien Ian Goodfellow.

L’idée est de faire appel à deux GAN pour qu’ils coopèrent de façon à atteindre un certain résultat. Le premier génère les visuels, tandis que le second, appelé le « discriminateur », se charge de les évaluer. Le « discriminateur » a reçu un entraînement avec de l’apprentissage profond — une technique qui consiste à nourrir l’IA avec des données préalables. Il « sait » donc à quoi les visuels doivent ressembler.

Tapez du texte, obtenez une image

C’est sur cette base que Nvidia a itéré, de façon à pouvoir intégrer la prise en charge du texte. C’est ce que l’entreprise américaine développe dans une actualité publiée le 22 novembre, en évoquant GauGAN 2. Avec cet outil, que les internautes peuvent tester sur un site dédié, il est possible de générer un paysage en le décrivant avec des mots et, si besoin, de le compléter avec des gribouillis.

« Grâce à la polyvalence des invites textuelles et des croquis, GauGAN2 permet aux utilisateurs de créer et de personnaliser des scènes plus rapidement et avec un contrôle plus fin  », se félicite Nvidia, qui note que sa démo est « l’une des premières à combiner plusieurs modalités — texte, segmentation sémantique, croquis et style — dans un seul cadre GAN. »

La vidéo de démonstration est évidemment très spectaculaire : au fil de la frappe et de l’ordonnancement des mots entre eux, le visuel photoréaliste change pour retranscrire la demande. Dans les faits, l’outil, lorsqu’on l’a testé, ne fonctionne pas en temps réel : il faut cliquer sur un bouton, une fois sa phrase inscrite (en anglais, mais le site semble aussi comprendre le français), pour voir le résultat.

« Le modèle d’IA de GauGAN 2 a été entraîné sur 10 millions d’images de paysages de haute qualité à l’aide du supercalculateur Nvidia  Selene, un système Nvidia DGX SuperPOD qui figure parmi les 10 supercalculateurs les plus puissants du monde  », pointe Nvidia. Le site précise que le réseau neuronal a aussi appris le lien entre les mots et les images auxquelles ils correspondent, comme « hiver », « brumeux » ou « arc-en-ciel ».

Si l’on sort des paysages, GauGAN 2 apparaît perdu et son interprétation d’un texte écrit devient aléatoire — mais cela peut donner, pour le coup, des visuels parfois fantastiques ou oniriques. On a voulu lui faire dessiner un mouton, mais le réseau semble ne pas savoir ce que c’est. Cependant, il suffirait de l’entraîner en montrant à l’un des deux GAN des millions de photos de mouton.

IA GauGAN Nvidia
Source : Nvidia

Les travaux de Nvidia dans le domaine de l’intelligence artificielle l’ont déjà amené à créer autre chose que de jolis paysages. L’entreprise a procédé à des démonstrations sur des visages particulièrement réalistes, mais qui n’existent pas. Nvidia a même cloné virtuellement son PDG lors d’une conférence en août 2021, en mobilisant d’importants moyens techniques.

Ces travaux, très spectaculaires, ouvrent des perspectives à la fois enthousiasmantes et inquiétantes. Les solutions esquissées par Nvidia avec GauGAN pourraient avoir d’évidents débouchés dans les jeux vidéo, le cinéma, l’animation ou les séries, en association avec le travail des des designeurs. Mais on peut aussi imaginer des utilisations déplaisantes, que ce soit pour de la désinformation ou avec les deep fakes.

Partager sur les réseaux sociaux

La suite en vidéo