YouTuber porte plainte contre OpenAI pour utilisation de transcriptions

MondeTech.fr06/08/2024

Un nouveau front s’ouvre dans la bataille juridique autour de l’IA générative. David Millette, un créateur de contenu sur YouTube, vient de porter plainte contre OpenAI, l’accusant d’avoir utilisé sans autorisation les transcriptions de millions de vidéos pour entraîner ses modèles d’IA comme ChatGPT et GPT-4.

Une action collective d’ampleur

Représenté par le cabinet Bursor & Fisher, Millette cherche à transformer sa plainte en action collective. Il réclame un procès avec jury et plus de 5 millions de dollars de dommages et intérêts au nom de tous les créateurs YouTube dont les données auraient été récupérées par OpenAI.

Selon la plainte, en collectant massivement ces transcriptions, OpenAI aurait « significativement profité » du travail des créateurs, violant au passage le droit d’auteur et les conditions d’utilisation de YouTube qui interdisent d’exploiter les vidéos pour des applications tierces.

Les produits d’IA d’OpenAI gagnent en sophistication grâce aux jeux de données d’entraînement, devenant plus précieux pour les utilisateurs qui achètent des abonnements. Mais une grande partie du matériel de ces jeux de données provient d’œuvres copiées par OpenAI sans consentement, crédit ou compensation.
– Extrait de la plainte

Les transcriptions, une mine d’or pour l’IA

Alors que de plus en plus de sites web bloquent les robots d’indexation d’OpenAI et que les jeux de données publics se font plus rares, les transcriptions vidéo sont devenues un ingrédient clé pour entraîner les modèles d’IA générative.

Selon Originality.AI, plus de 35% des 1000 premiers sites mondiaux bloquent désormais le robot d’OpenAI.
Une étude du MIT révèle qu’environ 25% des données « de haute qualité » ont été retirées des principaux jeux de données utilisés pour entraîner les IA.
Epoch AI prédit que si cette tendance se poursuit, les développeurs manqueront de données pour entraîner les IA génératives entre 2026 et 2032.

En avril, le New York Times rapportait qu’OpenAI avait créé son premier modèle de reconnaissance vocale, Whisper, dans le but de transcrire l’audio des vidéos pour collecter davantage de données d’entraînement. L’équipe aurait ainsi transcrit plus d’un million d’heures de vidéos YouTube, utilisant ensuite ces transcriptions pour entraîner GPT-4.

Google aussi dans le viseur

OpenAI n’est pas la seule entreprise à convoiter les transcriptions YouTube. Google, la maison mère de la plateforme, a élargi l’an dernier ses conditions d’utilisation pour pouvoir exploiter davantage de données utilisateurs dans l’entraînement de ses modèles d’IA générative.

Auparavant, il n’était pas clair si Google pouvait utiliser les données YouTube pour construire des produits au-delà de la plateforme vidéo. Les nouveaux termes lèvent cette ambiguïté, offrant à l’entreprise une grande latitude.

Un nouveau champ de bataille juridique

Cette action collective marque une nouvelle étape dans les controverses juridiques entourant l’IA générative. De nombreux ayants droit contestent l’utilisation massive et sans discernement de données protégées pour entraîner des modèles commerciaux, y voyant une violation du droit d’auteur.

De leur côté, les entreprises comme OpenAI arguent que le « fair use » (usage raisonnable) protège leurs pratiques d’entraînement. Mais ce concept juridique américain, qui autorise certains usages sans le consentement du titulaire des droits, n’a pas encore été clairement défini par les tribunaux dans le contexte de l’IA générative.

Cette plainte, si elle est validée en action collective, pourrait créer un précédent important et forcer les acteurs de l’IA à plus de transparence et de responsabilité dans leurs pratiques de collecte et d’utilisation des données. Une issue qui sera scrutée de près par toute l’industrie tech.