La Loi Californienne sur la Transparence de l’IA Divise les Entreprises Tech

MondeTech.fr05/10/2024

La Californie vient d’adopter une loi inédite exigeant des entreprises d’IA une transparence accrue sur les données utilisées pour entraîner leurs systèmes. Mais alors que l’échéance de mise en conformité approche, peu de géants de la tech semblent prêts à jouer le jeu, craignant d’exposer leurs précieux secrets et de s’attirer des ennuis juridiques.

Une loi pionnière pour réguler l’IA

Le gouverneur de Californie Gavin Newsom a promulgué dimanche la loi AB-2013, qui oblige les entreprises développant des systèmes d’IA générative à publier un résumé de haut niveau des données utilisées pour entraîner leurs modèles. Ces synthèses devront préciser qui possède les données, comment elles ont été obtenues, et si elles incluent du contenu protégé par le droit d’auteur ou des informations personnelles.

Cette législation est une première tentative ambitieuse de réguler l’univers encore largement opaque de l’IA. Elle vise à responsabiliser une industrie en plein boom mais qui soulève de nombreuses questions éthiques et légales, notamment sur le respect de la propriété intellectuelle et de la vie privée.

Le grand silence des géants de la tech

Interrogés par TechCrunch, les principaux acteurs de l’IA comme OpenAI, Anthropic, Microsoft, Google, Meta ou encore les startups Stability AI et Midjourney sont restés très évasifs sur leur intention de se conformer à la loi AB-2013. Seuls OpenAI, Stability et Runway ont affirmé qu’ils respecteraient la législation.

OpenAI se conforme à la loi dans les juridictions où nous opérons, y compris celle-ci.
– Un porte-parole d’OpenAI

Ce silence des entreprises peut s’expliquer par plusieurs facteurs. D’abord, la loi n’entre pas en vigueur immédiatement. Bien qu’elle s’applique rétroactivement aux systèmes lancés depuis janvier 2022 comme ChatGPT ou Stable Diffusion, les entreprises ont jusqu’à janvier 2026 pour commencer à publier les résumés. La loi concerne aussi uniquement les systèmes mis à disposition des Californiens.

Web scraping et propriété intellectuelle, le casse-tête juridique

Mais la raison principale de ce mutisme est sans doute ailleurs. La plupart des systèmes d’IA générative sont entraînés sur des données récupérées sur le web par web scraping : images, vidéos, textes, souvent sans l’accord explicite des auteurs. Pendant des années, les développeurs d’IA listaient ouvertement les sources de leurs données d’entraînement dans leurs publications techniques.

Mais dans un marché ultra-concurrentiel, la composition exacte des jeux de données est devenue un avantage compétitif jalousement gardé. Surtout, détailler l’origine des données pourrait attirer l’attention sur d’éventuelles violations du droit d’auteur et du droit à l’image. Des jeux de données populaires comme LAION ou The Pile contiennent du contenu protégé voire illégal comme des livres piratés.

Une vague de poursuites judiciaires

Les entreprises d’IA font déjà l’objet de multiples actions en justice de la part d’auteurs, d’artistes et de maisons de disques qui les accusent d’avoir utilisé leurs oeuvres sans autorisation ni compensation pour entraîner leurs modèles :

Des auteurs et éditeurs affirment qu’OpenAI, Anthropic et Meta ont utilisé des livres protégés
Des labels attaquent Udio et Sono pour avoir entraîné leurs IA sur des chansons sans rétribuer les artistes
Des artistes ont lancé des recours collectifs contre Stability et Midjourney pour « vol » de leurs oeuvres

Dans ce contexte, la loi AB-2013, en exigeant une grande transparence sur les données d’entraînement, pourrait servir de base à de nouvelles poursuites. Elle oblige à publier quand les jeux de données ont été utilisés pour la première fois, s’ils continuent d’être enrichis, et couvre aussi les entreprises qui modifient des systèmes existants en les réentraînant.

Le pari risqué du « fair use »

De nombreuses entreprises considèrent que la doctrine du fair use (usage raisonnable) les protège légalement, et le font valoir devant les tribunaux. Certaines comme Google et Meta ont modifié leurs conditions d’utilisation pour pouvoir exploiter plus largement les données des utilisateurs.

Mais c’est un pari risqué. Des fuites ont révélé que Meta a entraîné ses IA sur des livres protégés malgré les avertissements de ses propres juristes. OpenAI aurait retranscrit des vidéos YouTube à l’insu des créateurs pour développer GPT-4.

Si les tribunaux donnaient raison aux plaignants, estimant que l’IA n’est pas suffisamment « transformative » pour relever du fair use, le séisme serait majeur pour l’industrie. D’où la prudence des entreprises face à la loi californienne.

Des IA « californiennes » différentes ?

Dans le pire scénario, la loi AB-2013, si elle n’est pas contestée ou suspendue, pourrait amener les entreprises à ne pas proposer certains modèles en Californie, ou à développer des versions spécifiques pour cet État uniquement entraînées sur du contenu incontestablement légal.

Certains pourraient juger que le plus sûr est de limiter au maximum les divulgations potentiellement compromettantes exigées par AB-2013. L’échéance de janvier 2026 devrait permettre d’y voir plus clair sur les intentions des géants de la tech.

Une chose est sûre : la question brûlante des données d’entraînement est loin d’être résolue, et la Californie vient de mettre une épine dans le pied d’une industrie qui rêvait de se développer sans trop de contrôle. Les prochains mois s’annoncent cruciaux pour l’avenir de l’IA, entre batailles juridiques, pressions réglementaires et course à l’innovation. Les entreprises devront jouer serré pour trouver le bon équilibre.