Si Midjourney peine toujours à générer du texte avec précision, le temps où c’était du pur charabia est révolu. La sortie de Midjourney v6 marque un bond en avant, mais il y a encore beaucoup de déchets à corriger. Un travail qui focalise aujourd’hui l’attention du laboratoire américain.

C’est encore l’un des principaux points faibles de Midjourney, quand on lui demande de générer un visuel. Il n’arrive pas facilement à produire du texte que l’on indique dans un prompt — cette fameuse instruction que l’on inscrit pour guider son travail. Depuis la sortie de Midjourney v6, à la fin décembre, l’outil d’IA générative est censé avoir progressé sur ce terrain.

Un progrès somme toute très limité, puisque nos premiers essais de l’époque étaient peu concluants. Le nom de Numerama, que l’on a choisi pour ce test, avait ainsi été malmené. En s’y reprenant à plusieurs reprises, toutefois, l’outil a fini par produire une transcription à peu près correcte. Une faiblesse évidemment étonnante face à l’excellence de Midjourney dans d’autres tâches.

À la décharge de l’IA, ce Midjourney v6 est encore en version alpha — en clair, ce modèle est toujours en cours d’élaboration. Ce n’est pas encore un produit fini et la manière dont il travaille aujourd’hui ne reflète pas sa façon d’opérer demain, lorsqu’il sera fin prêt. « Les choses changeront fréquemment et sans préavis », avait prévenu David Holz, le fondateur.

Une mise à jour de Midjourney v6 pour avoir du texte de meilleure qualité

Preuve en est avec l’annonce, le 6 janvier, de l’arrivée de la première mise à jour majeure de la v6 alpha. Dévoilée sur X (ex-Twitter), elle améliore divers aspects du modèle : l’esthétique, la cohérence, le respect du prompt, la qualité de l’image et, surtout, le rendu du texte. D’autres paramètres, comme l’agrandissement de l’image, ont aussi été optimisés.

En pratique, l’amélioration annoncée par Midjourney montre qu’il y a encore bien du chemin à faire avant de parvenir à retranscrire correctement du texte (celui-ci doit être placé entre guillemets « » dans le prompt pour être interprété comme tel). Il a fallu s’y reprendre à quelques reprises pour avoir des rendus assez proches, quoique pas absolument fidèles.

Il y a encore des visuels ratés, mais les deux du dessous sont assez précis, quand on lui demande d’écrire « Numerama ». // Source : Numerama avec Midjourney

Même chose ici : les deux premières propositions sont plutôt encourageantes avec le texte « abonnez-vous à Numerama+ ». // Source : Numerama avec Midjourney

Lorem ipsum, façon IA

Si Midjourney continue d’oublier certaines lettres dans ses résultats, d’en rajouter, d’inverser des mots ou de doublonner certaines séquences, force est de constater qu’il y a malgré tout un vrai bond en avant par rapport au charabia produit avec les versions antérieures de Midjourney. Midjourney v5.2, par exemple, ne fournit rien d’intelligible.

Dans les deux exemples ci-dessous, c’est Midjourney v5.2 qui a été à l’œuvre, avec des prompts identiques (« a text ‘abonnez-vous à Numerama+’, on a paper »). On a l’impression pour certains résultats de lire des textes médiévaux de moines copistes avec un style gothique. En tout cas, rien ne permet de déceler un bout du texte que l’on a demandé.

Il y a un style certain, à défaut d’avoir du texte intelligible. C’est un peu le lorem ipsum de Midjourney, en fait. // Source : Numerama avec Midjourney

Pour ainsi dire, cela s’apparente à une sorte de lorem ipsum. Derrière ce nom latin se cache une pratique consistant à remplir un espace pour avoir un aperçu de la façon dont du texte va s’afficher. C’est utilisé par exemple par des développeurs quand ils mettent en place un site. Ici aussi, l’impression que cela donne est une IA qui remplit l’espace pour le remplir, sans davantage d’effort.

Même en enchaînant les générations, Midjourney v5.2 n’arrive à rien sur le texte. // Source : Numerama avec Midjourney

La différence entre Midjourney v5.2 et v6 est flagrante. Si le nouveau modèle reste encore nettement imparfait, le texte qu’il fournit est lisible et parfois assez proche de ce qu’on lui a demandé de retranscrire. À l’inverse, le travail fourni par le modèle d’avant est beaucoup plus aléatoire. Ce baragouinage a une esthétique certaine, mais il est à côté de la plaque.

Si Midjourney est capable d’écrire du texte bien mieux qu’autrefois, les images sont encore ponctuées de déchets. Il faudra encore attendre plusieurs mises à jour de la v6 pour espérer avoir une IA générative. L’entreprise avait prévenu d’ailleurs : « [Ce modèle] changera considérablement au fur et à mesure que la V6 atteindra sa pleine maturité. »

Un entraînement à parfaire

Midjourney ne précise pas de quelle façon il entraîne spécifiquement son IA pour être plus performante dans la production de texte. Le fonctionnement de son outil repose globalement sur l’utilisation de vastes collections de données incluant des images et du texte, pour comprendre et associer des visuels avec des descriptions.

Ce processus peut prendre du temps. Dans le cas de Midjourney v6, la direction a avancé un travail qui s’est étalé sur neuf mois et qui est, de fait, toujours en cours. On présume que dans le cas de textes figurant dans des images, des exemples qui en contiennent déjà ont été particulièrement utiles et recherchés pour les inclure dans les données d’entraînement.

Un premier essai concluant. // Source : Capture d’écran

Pour l’heure, c’est du côté de la concurrence qu’il y a de meilleures productions. Sur le terrain du texte, DALL-E 3, qui est l’autre grand produit d’OpenAI avec ChatGPT, offre des performances remarquables. Dès la première tentative, les quatre visuels sont plutôt fidèles (nonobstant le fait que le texte a été traduit en anglais). Il y a des déchets, mais moins prononcés que chez Midjourney.

Vraisemblablement, la retranscription de texte dans des images générées par IA va encore progresser en 2024, que ce soit chez DALL-E, Midjourney, Stable Diffusion et les autres. Des textes de plus en plus longs et complexes, en outre. Une évolution qui va là encore soulever les mêmes inquiétudes de désinformation et de trucage que l’on voit déjà avec les images dénuées de texte.

