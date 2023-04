Au centre de toutes les attentions depuis l’arrivée de ChatGPT ou de DALL-E, OpenAI déborde de projets. Mais en quoi consistent-t-ils ?

2023 est assurément l’année de l’intelligence artificielle. Que ce soit avec Midjourney, ChatGPT ou Google Bard, les projets fleurissent. Indéniablement, les IA sont amenées à prendre de plus en plus de place dans la vie quotidienne, comme l’ont fait les smartphones ou encore Internet.

Un mouvement manifestement inévitable, mais qui inquiète également, comme le montrent des discours parfois alarmistes. Certes, les scénarios de science-fiction anticipent souvent le pire, et influencent sur l’imaginaire, mais les IA sont encore très limitées et dépendantes des entreprises qui les ont développés. OpenAI est l’une d’entre elles.

L’entreprise, fondée en 2015, connait un succès fulgurant depuis 2022, avec en point d’orgue la sortie de plusieurs outils — comme ChatGPT ou DALL-E en version 2 –, et la consolidation de ses liens avec Microsoft. Cette alliance offre au géant de la tech l’opportunité de déployer l’IA dans ses services et ses produits. On a déjà vu le moteur de recherche Bing acquérir la capacité de générer des images à partir de DALL-E, par exemple.

L’empressement de Microsoft dans le déploiement des technologies d’OpenAI est notable et incite à se pencher sur les outils de cette pépite de la tech, qui est l’une des plus avancées dans l’IA générative. On fait le point.

ChatGPT, un chatbot multifonction

Depuis sa sortie le 30 novembre 2022, ChatGPT est probablement l’IA la plus populaire au monde. Elle est en tout cas celle qui a révélé OpenAI au grand public, sans aucun doute. Les derniers chiffres d’utilisation de ChatGPT en attestent. En avril 2023, plus de 123 millions d’utilisateurs actifs ont été recensés sur le logiciel, et ce nombre est amené à continuer de s’accroitre.

Une croissance forte, portée par le caractère spectaculaire — révolutionnaire pour certains — de ChatGPT, un chatbot capable d’exécuter de nombreuses tâches grâce à son IA générative. À partir d’un « prompt », c’est-à-dire une consigne donnée par l’internaute, ChatGPT peut proposer du texte, classer des mots, reformuler des paragraphes, etc.

Tenir une simple conversation, comme Siri, ChatGPT peut le faire. Rédiger un devoir à la place d’un élève ou créer une religion, ChatGPT en est aussi capable. Bien sûr, l’outil peut aussi se tromper dans les grandes largeurs. Les exemples sont aussi très nombreux pour montrer les limites de cette intelligence artificielle, ses errements ou ses inventions, parfois farfelues.

Il n’en demeure pas moins que les possibilités offertes par l’outil sont variées, et tout porte à croire que l’IA sur laquelle le chatbot s’appuie deviendra encore plus performante et précise avec de futures mises à jour. ChatGPT est en outre capable de s’adapter au fil de la conversation et d’ajuster ses réponses selon les échanges que l’on a avec lui. Il est ainsi capable de garder le fil de la conversation, ce qui accentue l’impression d’échanger avec une personne.

Un exemple de texte généré par ChatGPT. // Source : Capture d’écran Numerama

Aux origines du projet, ChatGPT n’était pas aussi performant. GPT (Generative Pre-trained Transforme), le modèle de langage sur lequel il est basé, a été dévoilé en 2018. À ce moment-là, GPT était dans une première version. La seconde version du modèle de langage, GPT-2, est arrivée en 2019. Cette itération a permis un premier saut notable, avec la faculté de traduire des textes, d’en résumer et de répondre à des questions, le tout dans un style proche de celui d’un humain.

Par la suite, la troisième génération de ce modèle de langage, GPT-3, est arrivée et n’a fait qu’augmenter la qualité des textes générés, toujours plus proche de ceux que pourraient écrire un humain. Le nombre de paramètres, en particulier, a explosé : il n’y en avait « que » 1,5 milliard de paramètres sur GPT-2. Ce nombre est passé à 175 milliards avec GPT-3.

À l’heure actuelle, ChatGPT est basé sur la toute dernière version du modèle de langage, GPT-4. Dans cette version, GPT est encore plus abouti. Si GPT-3 pouvait gérer du texte en entrée et en sortie, GPT-4 devient multimodal : il gère aussi des images en entrée et générer du texte dans la foulée. Le modèle de langage est décrit comme plus fiable et plus créatif, même si, là encore, il a été également pris en défaut par les internautes à de multiples occasions.

Whisper, l’IA qui peut retranscrire votre voix à la lettre près

OpenAI travaille aussi sur une IA de reconnaissance automatique de la parole du nom de Whisper. Introduit le 21 septembre 2022, Whisper est vu par OpenAI comme un outil qui surpasserait Siri ou l’Assistant Google dans le domaine de la retranscription vocale. Ces outils sont parfois approximatifs lorsqu’ils cherchent à mettre par écrit le texte qu’on leur dicte. Whisper n’a pas cette limite, selon OpenAI. Grâce à un entrainement de plus de 680 000 heures de données vocales dans un grand nombre de langues, Whisper met en avant une capacité de retranscription supérieure.

Selon OpenAI, « l’utilisation d’un ensemble de données aussi vaste et diversifié permet d’améliorer la robustesse aux accents, au bruit de fond et au langage technique ». Que ce soit un individu au débit de parole intense ou un chuchotement au milieu d’une foule bruyante, Whisper est censé parvenir à capter les paroles, à les isoler, éventuellement, à les présenter sous forme de texte.

Un texte parfaitement retranscrit en anglais, malgré une locution rapide // Source : Capture d’écran Numerama

Whisper ne s’arrête pas là. L’IA a un module de traduction permettant de transcrire en anglais n’importe quel texte audio. Pour l’instant, il est impossible de traduire une voix en français ou vers une autre langue, mais cela ne semble qu’une question de temps avant que ce projet puisse le faire. Cependant, il est difficile pour le public d’utiliser cet outil. Son utilisation requiert un bagage en informatique, en particulier du langage Python. OpenAI permet tout de même de voir de quoi il est capable, avec des textes retranscrits à parti de différents contextes.

Pour fonctionner, Whisper s’appuie sur une approche technique, mise en œuvre sous la forme d’un transformateur encodeur-décodeur. L’audio retranscrit est divisé en plusieurs morceaux de 30 secondes, convertis en spectrogramme puis transmis à un encodeur. Par la suite, Whisper s’appuie sur un décodeur entraîné à prédire le texte correspondant aux mots énoncés. Cela donne un texte, qui sera ensuite traduit en anglais — si l’audio d’origine est dans une langue étrangère.

Dernièrement, l’entreprise a annoncé le 1er mars 2023 que Whisper est disponible dans ses API. Cela permet aux développeurs l’opportunité d’utiliser le modèle open-source Whisper large-v2 via l’API avec des résultats plus rapides, selon OpenAI.

DALL-E, rival de Midjourney pour générer des images

Comme Salvador Dali, DALL-E redéfinit la notion d’art. Si cette IA a été révélée par OpenAI le 5 janvier 2021, c’est son successeur, DALL-E 2 qui s’est fait le plus remarqué. Cette nouvelle version, ouverte au grand public depuis le 28 septembre 2022, propose de générer des images plus réalistes et de meilleures résolutions, tout en combinant des concepts ou des styles très différents.

DALL-2 repose sur une version modifiée de GPT-3 de 3,5 milliards de paramètres, qui, in fine, échangent du texte contre des pixels. Par exemple, en demandant « un ours en train de manger un burger », DALL-E va générer des images en fonction. La précision des visuels ne dépend pas que de DALL-E. Elle est aussi fonction de la clarté du texte et des indications données par l’internaute.

Il est bon le burger ? // Source : Généré par DALL-E

Projet récent chez OpenAI, DALL-E ne bénéficie pas d’un historique aussi développé de GPT. Mais ça n’a pas empêché Microsoft d’être séduit par l’outil. Depuis le 21 mars 2023, l’IA s’est associée à Bing et permet de générer des images directement sur son moteur de recherche. Microsoft dit faire appel à une version plus avancée de DALL-E, mais le procédé reste le même.

Copilot, l’assistant virtuel qui veut booster votre productivité

C’est l’outil encore peu connu. Pourtant, Copilot, comme DALL-E et ChatGPT, est amené à bouleverser un bon nombre d’acquis. Copilot est le produit d’une collaboration lancée en 2021 entre OpenAI et Github — un service appartenant à Microsoft, spécialisé dans l’hébergement de projets logiciels. À l’époque, Copilot était décrit comme une IA aidant les développeurs et les programmeurs à coder. Mais du fait de ses limitations, Copilot a évolué.

Ainsi, l’entreprise de Bill Gates a annoncé le 16 mars 2023 l’ajout de l’outil à sa suite Microsoft 365, qui inclut les logiciels bien connus que sont Word, Excel, PowerPoint, Outlook, Teams et OneNote. L’utilisation y est différente, puisque cette nouvelle version de Copilot, basée sur GPT-4, se comporte comme un assistant virtuel pour le travail.

Un assistant virtuel qui veut changer notre manière de travailler // Source : Microsoft

C’est sur ce point que Copilot pourrait bouleverser la productivité de bien des métiers. Dans la suite Microsoft 365, il sera possible de lui demander d’écrire une lettre ou un rapport sur Word. Sur Excel, Copilot pourra accéder aux fichiers de l’ordinateur pour intégrer des données chiffrées à un rapport écrit ou pour reproduire un communiqué.

Il aura même une utilité sur PowerPoint, où il permettra de convertir des documents tout en usant le potentiel du logiciel. Copilot aura aussi un intérêt sur Outlook, Teams et OneNote où il pourra optimiser l’expérience utilisateur tout en facilitant le travail collaboratif.

Toutes les possibilités qu’offre cette nouvelle version de Copilot sont réalisables grâce à la connexion entre GPT-4 et Microsoft Graph, qui permet d’accéder aux données de Microsoft 365.

En clair, Copilot va utiliser GPT-4 pour générer des réponses inspirées de vos données professionnelles issues de vos documents, de vos e-mails ou de vos chats avec vos collègues, pour les combiner à votre contexte de travail. Si vous êtes en réunion, que vous avez échangé par mail ou par un chat sur sujet avec un collègue, Copilot va le prendre en compte et fournir des réponses précises, pertinentes et contextuelles. Cela pose toutefois des questionnements critiques en matière de confidentialité et de secret des affaires.

Toutes ces fonctions ont un objectif clair : améliorer la productivité des individus grâce à l’IA. Copilot se présente comme un réel assistant dans le cadre du travail, et entend soulager au maximum les travailleurs.

MuseNet, le compositeur

En 2019, OpenAI s’est fait remarquer en introduisant MuseNet. Cette intelligence artificielle est une sorte de compositeur musical, capable de créer de la musique hip-pop comme de la musique classique. Si c’est un concept déjà vu, OpenAI présente une approche annoncée comme flexible et innovante. Ici, MuseNet permet de générer 4 minutes de compositions musicales avec 10 instruments différents, tout en combinant des styles qui peuvent être diamétralement opposés. Voir les Beatles associé à Mozart n’est donc plus un fantasame, mais bien une possibilité avec MuseNet.

Une galaxie de possibilités. // Source : OpenAI

Cette IA a encore du chemin à faire, notamment à cause de certaines limitations. Ainsi, si elle est capable d’associer tout type de musique, MuseNet a du mal avec les combinaisons les plus éloignées en termes de style musical et d’instruments. Le résultat d’une association entre Whitney Houston et Chopin sera moins bon que celui entre Mariah Carey et Aretha Franklin. Hélas, il est impossible de le tester soi-même, puisque OpenAI travaille dessus pour l’améliorer depuis 2019. L’entreprise n’a aucune date à donner pour cet outil.

