Un rebondissement inattendu vient de se produire dans le procès opposant OpenAI au New York Times et au Daily News. Les avocats des deux journaux, qui accusent la société d’IA d’avoir utilisé leurs articles pour entraîner ses modèles sans autorisation, affirment qu’OpenAI a accidentellement supprimé des données potentiellement cruciales pour l’affaire.
Une Erreur aux Lourdes Conséquences
Début novembre, OpenAI avait accepté de fournir deux machines virtuelles aux avocats des plaignants pour qu’ils puissent rechercher leurs contenus protégés par le droit d’auteur dans les jeux de données d’entraînement. Mais le 14 novembre, les ingénieurs d’OpenAI ont par mégarde effacé toutes les données de recherche stockées sur l’une des machines.
Si OpenAI a pu récupérer la majorité des données, la structure des dossiers et les noms de fichiers ont été irrémédiablement perdus. Les données récupérées sont donc inutilisables pour déterminer où les articles copiés ont été utilisés pour construire les modèles d’IA. Les plaignants ont dû recommencer leurs recherches de zéro, gaspillant plus de 150 heures de travail d’experts et d’avocats.
Les plaignants ont appris seulement hier que les données récupérées sont inutilisables et qu’une semaine entière de travail doit être refaite.
– Extrait de la lettre des avocats des plaignants
Le Cœur du Litige : Le Fair Use
Au cœur de ce procès et d’autres similaires, se trouve la notion de fair use. OpenAI maintient que l’entraînement de modèles sur des données publiquement accessibles, y compris des articles de presse, relève de l’usage raisonnable. Pour créer des IA comme GPT-4, capables de générer du texte très naturel, nul besoin selon eux de licencier ou rémunérer les ayants droit, même si ces modèles sont ensuite monétisés.
Toutefois, OpenAI a signé des accords de licence avec un nombre croissant d’éditeurs de presse, dont :
- Associated Press
- Axel Springer (propriétaire de Business Insider)
- Financial Times
- Dotdash Meredith (propriétaire de People)
- News Corp
Les termes de ces accords restent confidentiels, mais Dotdash recevrait au moins 16 millions de dollars par an. OpenAI n’a ni confirmé ni démenti avoir entraîné ses systèmes sur des œuvres protégées spécifiques sans autorisation.
Vers une Clarification Juridique ?
Cet incident souligne qu’OpenAI est le mieux placé pour rechercher d’éventuels contenus contrefaisants dans ses propres jeux de données, en utilisant ses propres outils. Mais au-delà, il pourrait accélérer une nécessaire clarification juridique sur l’applicabilité du fair use à l’entraînement des IA sur des contenus protégés.
Avec l’essor fulgurant des modèles génératifs et leur potentiel commercial, il devient urgent de trouver un équilibre entre la protection des ayants droit et les besoins de l’innovation. Les éditeurs craignent de voir leur modèle économique sapé par des IA nourries gratuitement de leurs contenus. Mais un cadre trop restrictif pourrait freiner le développement d’outils prometteurs dans de nombreux domaines.
Ce procès entre OpenAI et deux poids lourds de la presse américaine sera donc suivi avec attention. Son issue pourrait créer un précédent déterminant pour le futur des IA génératives et leurs relations avec les créateurs de contenus.
Si OpenAI a pu récupérer la majorité des données, la structure des dossiers et les noms de fichiers ont été irrémédiablement perdus. Les données récupérées sont donc inutilisables pour déterminer où les articles copiés ont été utilisés pour construire les modèles d’IA. Les plaignants ont dû recommencer leurs recherches de zéro, gaspillant plus de 150 heures de travail d’experts et d’avocats.
Les plaignants ont appris seulement hier que les données récupérées sont inutilisables et qu’une semaine entière de travail doit être refaite.
– Extrait de la lettre des avocats des plaignants
Le Cœur du Litige : Le Fair Use
Au cœur de ce procès et d’autres similaires, se trouve la notion de fair use. OpenAI maintient que l’entraînement de modèles sur des données publiquement accessibles, y compris des articles de presse, relève de l’usage raisonnable. Pour créer des IA comme GPT-4, capables de générer du texte très naturel, nul besoin selon eux de licencier ou rémunérer les ayants droit, même si ces modèles sont ensuite monétisés.
Toutefois, OpenAI a signé des accords de licence avec un nombre croissant d’éditeurs de presse, dont :
- Associated Press
- Axel Springer (propriétaire de Business Insider)
- Financial Times
- Dotdash Meredith (propriétaire de People)
- News Corp
Les termes de ces accords restent confidentiels, mais Dotdash recevrait au moins 16 millions de dollars par an. OpenAI n’a ni confirmé ni démenti avoir entraîné ses systèmes sur des œuvres protégées spécifiques sans autorisation.
Vers une Clarification Juridique ?
Cet incident souligne qu’OpenAI est le mieux placé pour rechercher d’éventuels contenus contrefaisants dans ses propres jeux de données, en utilisant ses propres outils. Mais au-delà, il pourrait accélérer une nécessaire clarification juridique sur l’applicabilité du fair use à l’entraînement des IA sur des contenus protégés.
Avec l’essor fulgurant des modèles génératifs et leur potentiel commercial, il devient urgent de trouver un équilibre entre la protection des ayants droit et les besoins de l’innovation. Les éditeurs craignent de voir leur modèle économique sapé par des IA nourries gratuitement de leurs contenus. Mais un cadre trop restrictif pourrait freiner le développement d’outils prometteurs dans de nombreux domaines.
Ce procès entre OpenAI et deux poids lourds de la presse américaine sera donc suivi avec attention. Son issue pourrait créer un précédent déterminant pour le futur des IA génératives et leurs relations avec les créateurs de contenus.