L’IA Sora d’OpenAI Formée sur du Contenu de Jeux Vidéo ?

L’intelligence artificielle (IA) fait des progrès fulgurants ces dernières années, et les entreprises technologiques rivalisent pour développer les modèles les plus puissants. Parmi elles, OpenAI vient de lancer Sora, une IA capable de générer des vidéos à partir de texte ou d’images. Mais il semblerait que pour entraîner Sora, OpenAI ait utilisé du contenu de jeux vidéo sans licence, ce qui pourrait entraîner des problèmes juridiques.

Du contenu de jeux vidéo dans les données d’entraînement de Sora ?

En testant Sora, il apparaît que le modèle est capable de générer des vidéos reprenant des éléments de jeux iconiques comme Super Mario Bros., Call of Duty ou encore des jeux de combat d’arcade des années 90. Sora semble aussi avoir une bonne compréhension de ce à quoi devrait ressembler un stream sur Twitch, la plateforme de streaming de jeux vidéo.

OpenAI n’a jamais révélé exactement quelles données ont été utilisées pour entraîner Sora. Mais ces éléments suggèrent fortement que du contenu de jeux vidéo, probablement sous forme de vidéos de gameplay ou de streams Twitch, a été inclus dans les données d’entraînement, sans licence des éditeurs ou des streamers.

Les entreprises qui entraînent leurs modèles sur des vidéos de jeux sans licence prennent de nombreux risques. Entraîner un modèle d’IA génératif implique généralement de copier les données d’entraînement. Si ces données sont des vidéos de jeux, il est presque certain que du contenu protégé par le droit d’auteur soit inclus.

Joshua Weigensberg, avocat spécialisé en propriété intellectuelle chez Pryor Cashman

Des implications légales complexes

Si du contenu de jeux se trouve effectivement dans les données d’entraînement de Sora, cela pourrait avoir des implications légales, surtout si OpenAI développe des expériences interactives basées sur Sora. En effet, les vidéos de jeux impliquent de multiples couches de protection par le droit d’auteur :

  • Le contenu du jeu en lui-même, détenu par l’éditeur
  • La vidéo unique créée par le joueur ou le vidéaste
  • Potentiellement, le contenu généré par les utilisateurs apparaissant dans le jeu (cartes personnalisées, mods…)

Chacun de ces ayants droit pourrait se retourner contre les entreprises entraînant des IA sur leurs contenus. De plus, les jeux eux-mêmes comportent de nombreux éléments « protégeables » comme des textures propriétaires. Utiliser ces éléments sans licence pourrait être considéré comme une violation de la propriété intellectuelle.

Un usage transformatif des données d’entraînement ?

De leur côté, les entreprises d’IA comme OpenAI affirment souvent que leurs modèles créent des œuvres transformatives et non du plagiat, et devraient donc bénéficier d’exceptions au droit d’auteur. C’est l’argument qu’a utilisé Google il y a une dizaine d’années lorsqu’il a numérisé des millions de livres pour son projet Google Books, et les tribunaux lui ont donné raison face aux éditeurs.

Cependant, même si les tribunaux donnaient raison aux entreprises d’IA, cela ne protègerait pas forcément les utilisateurs de ces IA. Si un modèle génératif recrache une œuvre protégée et qu’un utilisateur la publie ou l’incorpore dans un autre projet, il pourrait toujours être tenu responsable de violation de propriété intellectuelle.

Vers une clarification du cadre légal

Ces questions de propriété intellectuelle liées à l’IA générative sont de plus en plus pressantes à mesure que la technologie progresse. Microsoft et OpenAI sont déjà poursuivis pour avoir prétendument laissé leurs outils régurgiter du code sous licence. Plusieurs entreprises d’IA artistique font aussi l’objet de plaintes d’artistes. Et les grands labels musicaux attaquent des startups développant des IA générant des chansons.

Le cas de Sora et du contenu de jeux vidéo est une illustration supplémentaire de la nécessité de clarifier le cadre légal autour de l’entraînement des IA sur des données protégées. Il faudra trouver un équilibre entre la protection légitime de la propriété intellectuelle et la possibilité pour la recherche en IA d’avancer en utilisant les données du monde réel. Un équilibre qui n’est pas encore trouvé aujourd’hui.

À lire également