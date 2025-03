Lecture Zen Résumer l'article

Oubliez Dall-E, OpenAI lance un nouveau modèle pour générer et modifier des images. Ce nouvel outil est directement intégré à ChatGPT (avec GPT-4o) et vise à rattraper le retard accumulé sur Google, xAI ou Midjourney.

ChatGPT excelle dans de nombreux domaines, mais est loin d’être le meilleur dans la génération d’images. Dall-E 3, le modèle lancé par OpenAI en 2023, peine à rivaliser face à Aurora (xAI et Grok), Imagen 3 (Google) ou d’autres outils plus spécialisés comme Midjourney. OpenAI a un seul avantage sur ses concurrents : son service est directement intégré dans l’interface de ChatGPT, une plateforme utilisée par 400 millions de personnes.

Le 25 mars, OpenAI a enfin actualisé son outil de génération d’images. L’entreprise a présenté à Numerama un nouveau modèle bien plus performant, capable de générer du texte et de répondre à des consignes écrites en langage naturel. Il ne s’agit pas de Dall-E 4, mais d’une extension de GPT-4o, son modèle « omnimodal » et gratuit lancé en mai 2024. Dall-E semble condamné au déclassement.

Du texte sans faute et une mémoire : ChatGPT redevient prometteur

Le nouvel outil d’OpenAI n’a pas de nom, l’entreprise se contente d’en parler comme étant « 4o Image Generation », en référence à GPT-4o. Il ne s’agit pas d’un nouveau modèle à proprement parler, mais d’une exploitation des capacités de génération d’images de GPT-4o. Comme le modèle a été entraîné avec de nombreuses images, il est capable de faire la liaison entre vos idées écrites (ou dictées) et des images qui correspondent à vos pensées.

Techniquement parlant, 4o Image Generation s’annonce très prometteur. OpenAI dit mettre l’accent sur la génération de texte, un des plus grands défauts de Dall-E 3. Puisque ChatGPT peut maintenant écrire du texte correctement, il va pouvoir légender des images, créer de faux panneaux ou des logos. OpenAI s’attend à ce que cet usage séduise de nombreuses personnes.

Exemple d’image générée par ChatGPT-4o, avec une légende par cocktail, automatiquement située au bon endroit. // Source : OpenAI

L’autre force du nouveau modèle d’OpenAI est sa capacité à comprendre des demandes précises, avec du texte. Il n’y a pas besoin d’apprendre à prompter dans le langage des modèles de diffusion, il suffit d’expliquer son idée.

Le nouveau ChatGPT est capable de générer de très nombreux formats, comme une bande dessinée, un tableau sur lequel un humain écrit ou des posters.

Une bande dessinée générée par ChatGPT. // Source : OpenAI

Selon OpenAI, GPT-4o est capable de comprendre entre 10 et 20 demandes dans une seule question, ce qui lui permet de générer des idées très précises sans rien oublier. En comparaison, Dall-E peinait au-delà de 3-4 idées.

Des discussions pour améliorer une image : ChatGPT attaque Photoshop

Comme Google Gemini quelques jours auparavant (qui s’appuie sur le modèle Imagen), ChatGPT dispose grâce à son nouveau modèle d’un système d’édition des images. La promesse est la suivante : envoyez une photo, puis demandez à l’IA de changer des choses. Puisque GPT-4o dispose d’une « mémoire », il devient possible de mettre une photo d’un animal, de demander une transformation puis d’ajouter le personnage à un jeu vidéo ou à une autre scène. L’entreprise indique à Numerama que jusqu’à 15 photos peuvent être envoyées à l’outil pour lui donner du contexte.

La photo originale à gauche, l’ajout de l’animal dans un jeu vidéo à droite. // Source : OpenAI

Quid de la génération d’êtres humains ? Ici, OpenAI manque de clarté. Il est possible de générer des images réalistes, mais la politique de l’entreprise vis-à-vis de la génération de personnes réelles n’est pas encore déterminée. OpenAI suggère que ChatGPT pourra générer des visages de personnalités publiques, mais pas dans n’importe quel contexte. Face à Grok qui génère tout et n’importe quoi, ChatGPT sera forcément bridé. Reste à savoir à quel point. On se demande notamment si demander de générer une photo de Donald Trump et de Vladimir Poutine à la Maison-Blanche sera possible.

Des affiches avec du texte générées par GPT-4o. // Source : OpenAI

Le nouvel outil de ChatGPT est disponible gratuitement aujourd’hui

Puisque la génération d’images est intégrée à GPT-4o, tous les utilisateurs de ChatGPT peuvent l’essayer, y compris dans la version gratuite. Il s’agit du nouveau générateur d’images par défaut de ChatGPT. Les plus nostalgiques pourront toujours parler à Dall-E GPT pour retrouver l’ancien modèle.

Quid de l’API ? Dans un premier temps, la génération d’images par GPT-4o est réservée à ChatGPT. Ensuite, tous les développeurs pourront l’utiliser. Sora bénéficie également de ces nouvelles fonctions.

À l’avenir, il est probable que le futur GPT-5, annoncé comme réunissant GPT et o3 dans une même interface, dispose d’un modèle de génération d’images encore plus performant.

