YouTube avertit OpenAI de ne pas piquer ses vidéos pour entraîner Sora

Résumé par IA, vérifié par Numerama

Neal Mohan, le patron de YouTube, a indiqué qu'une utilisation non autorisée des vidéos YouTube par OpenAI pour entraîner son IA Sora serait contraire aux règles de la plateforme.
Dans une interview précédente, Mira Murati d'OpenAI n'a pas clarifié si les vidéos de YouTube étaient utilisées pour le développement de Sora, suscitant incertitude et controverse.
La question de respecter la propriété intellectuelle par Google avec son IA Gemini reste pertinente, puisque l'entreprise signe des accords pour exploiter du contenu protégé, établissant un double standard apparent face à OpenAI.

Recevez tous les soirs un résumé de l’actu importante avec Le Récap’

Le patron de YouTube, Neal Mohan, ne sait pas si OpenAI se sert des vidéos hébergées sur la plateforme pour entraîner Sora, son IA qui génère des clips. Mais si c’est le cas, ce serait une infraction à ses règles.

C’est une petite phrase qui, assurément, ne manquera pas d’être ressortie et commentée à l’avenir, surtout au moment de reparler protection de la propriété intellectuelle et d’entraînement de l’intelligence artificielle. Car c’est une déclaration qui risque de revenir en plein visage de Google lors de la prochaine controverse sur ce sujet.

Tout est parti d’un échange survenu le 4 avril 2024 entre Bloomberg et Neal Mohan, l’actuel patron de YouTube. Au cours de la discussion, l’intéressé a été amené à commenter un cas de figure particulier : quelle serait sa position s’il s’avère qu’une entreprise tierce exploite les vidéos présentes sur YouTube pour entraîner un système d’IA ?

Ce serait une infraction évidente des règles de la plateforme. Lorsqu’un créateur télécharge son travail sur la plateforme, il a certaines attentes, a-t-il déclaré. L’une de ces attentes est que les conditions de service soient respectées. Elles ne permettent pas de télécharger des éléments tels que des transcriptions ou des morceaux de vidéo.

Cette remarque ne vient pas de nulle part. Elle est le prolongement d’une interview accordée par Mira Murati, la directrice technique d’OpenAI, au Wall Street Journal, à la mi-mars. À ce moment-là, la société américaine — très connue pour son chatbot ChatGPT — était au cœur de l’actualité avec Sora, son projet d’IA générative de vidéos.

L’entretien d’alors a inévitablement abordé les questions relatives à la formation du modèle permettant à Sora de fonctionner. Or, les réponses de Mira Murati sur ce sujet se sont avérées floues et incertaines. Officiellement, la directrice technique d’OpenAI n’avait alors pas la certitude des sources utilisées pour entraîner Sora.

YouTube dit ne pas savoir si OpenAI utilise « ses » vidéos pour entraîner Sora

Neal Mohan a dit n’avoir aucune indication particulière sur l’utilisation ou non de YouTube dans la stratégie d’OpenAI pour Sora. D’un strict point de vue technique, et nonobstant les règles d’utilisation de YouTube, ce n’est en tout cas pas absurde : YouTube est l’une des plus grosses plateformes de vidéos sur le net, si ce n’est pas la plus grosse.

L’intervention de Neal Mohan a cependant engendré des commentaires moqueurs sur le web, d’aucuns s’employant à souligner le décalage entre la position de Neal Mohan et le comportement de Google, la maison mère de YouTube, quand il s’agit d’entraîner aussi l’IA. C’est ce que reflète ce tweet, publié le 4 avril :

« Google aux éditeurs – nous pouvons utiliser votre contenu pour former nos moteurs de recherche et notre IA ; Google à OpenAI – vous ne pouvez pas utiliser YouTube pour entraîner votre IA. »

Sora, l'IA qui transforme du texte en vidéo // Source : OpenAI — Un exemple de vidéo générée par Sora, en convertissant du texte en clip. // Source : OpenAI

L’accès aux contenus protégés, enjeu de l’IA générative

Cette charge contre Google est à remettre dans un contexte où la firme de Mountain View s’est aussi retrouvée accusée d’exploiter du contenu sous propriété intellectuelle pour entraîner ses outils d’intelligence artificielle, tels Gemini. Ce reproche a notamment été intégré dans une sanction décidée en France par l’Autorité de la concurrence.

Google s’efforce toutefois de signer des accords avec les éditeurs pour avoir un cadre légal dans lequel exploiter ces données. Au-delà, le groupe s’est aussi rapproché d’autres grandes sources d’information, notamment Reddit (où l’on trouve de nombreuses publications d’internautes) et Stack Overflow (pour le code informatique).

Reste, en définitive, une question : si OpenAI n’a théoriquement pas le droit de se servir de YouTube pour entraîner Sora, Google s’applique-t-il la même règle avec Gemini ? Neal Mohan a expliqué que oui, tout en précisant que cela se fait en accord avec les règles de YouTube ou via des accords signés avec certains créateurs, de manière individuelle.

Toute l'actu tech en un clin d'œil

Ajoutez Numerama à votre écran d'accueil et restez connectés au futur !

Tous nos articles sont aussi sur notre profil Google : suivez-nous pour ne rien manquer !