Un agent qui peut se servir de votre navigateur web à votre place et effectuer des tâches en votre nom. Voilà, en somme, ce que promet OpenAI avec son nouveau projet : Operator. Un programme qui est pour l’heure encore inaccessible pour la plupart des usagers. Mais sans doute pas pour longtemps.

C’est un projet qui aurait très bien pu figurer parmi les 12 annonces d’OpenAI lors de son calendrier de l’Avent, en décembre 2024. Car ce qu’a présenté la startup américaine le 23 janvier 2025 constitue un bon aperçu de ce que sera l’intelligence artificielle (IA) dans les mois et les années à venir, en tout cas aux yeux de la société.

Laisser un agent agir pour vous sur le web

L’idée générale ? Déployer une IA plus active, contrairement aux produits qui étaient jusqu’à présent proposés. ChatGPT, par exemple, s’avère assez passif : le chatbot se contente de répondre aux questions au fur et à mesure qu’elles arrivent. Une IA plus capable également, par exemple en étant en capacité « d’agir sur Internet ».

Le nom du programme, d’ailleurs, vise à refléter cette capacité nouvelle : Operator. « Operator est l’un de nos premiers agents, c’est-à-dire des IA capables d’effectuer des tâches pour vous de manière autonome — vous lui donnez une tâche et il l’exécute », détaille OpenAI, qui présente cela comme une « première », en tout cas pour la startup.

Un aperçu de ce que peut faire Operator. // Source : OpenAI

Une première pour OpenAI, donc, mais pas nécessairement une première dans l’industrie de l’intelligence artificielle. À l’automne 2024, l’une des rivales de la startup, Anthropic, s’était illustré avec un modèle capable de se « saisir » du souris et du clavier de l’ordinateur, et d’effectuer diverses tâches à la place de l’utilisateur.

Un nouveau modèle, réservé aux USA pour le moment, et hors de prix

Malheureusement, vous ne pourrez pas le tester maintenant. S’il y a déjà un accès dédié (operator.chatgpt.com), celui-ci n’est accessible que depuis une connexion aux États-Unis (à moins de prendre un abonnement VPN). Mais de toute façon, il vous faut également un forfait à ChatGPT Pro, qui requiert un paiement de 200 dollars par mois.

Ces restrictions ne dureront pas éternellement. À terme, cet Operator « fera partie de ChatGPT et sera disponible plus largement », a assuré la firme de Sam Altman — l’intéressé a tenu le même jour une diffusion en streaming et en direct pour présenter plus en détail son agent. En parallèle, un papier de recherche a été mis en ligne, comme un avant-goût.

Sur un plan technique, OpenAI précise qu’Operator est établi sur un nouvel modèle appelé CUA (Computer Using Agent, ce qui se traduit par « agent utilisant un ordinateur »). Il combine les capacités de vision par ordinateur de GPT-4o, un modèle dévoilé en mai 2024, avec des raisonnements avancés via apprentissage par renforcement.

« Il est formé pour contrôler un ordinateur de la même manière qu’un humain : il regarde l’écran et utilise une souris et un clavier », développe OpenAI. Cependant, le modèle « a encore des limitations et va continuer à évoluer au rythme des retours d’expérience ». Il est aussi prévu de mettre à disposition CUA via l’API pour les développeurs.

2025, l’année du soulèvement des agents d’IA

Lors d’un passage sur Reddit pour une session questions / réponses, en novembre, Sam Altman avait considéré que 2025 serait l’année où des agents autonomes pourraient se généraliser. Cela, alors que des projets de ce type étaient déjà explorés, à l’image d’Auto-GPT ou Baby-GPT. Mais cette fois, l’industrie semble s’y mettre plus franchement.

Car en dehors de ChatGPT, qui avait déjà partagé son envie de s’inviter plus encore dans l’ordinateur, d’autres sociétés s’y mettent. Apple, par exemple, avec un Siri qui analyse le contenu de votre écran. Ou encore Microsoft, avec son système Copilot qui prend et étudie plein de captures d’écran du PC. Et Operator montre qu’Internet est aussi un terrain de jeu.

