Imaginez que vous passez des années à écrire un livre, à peaufiner chaque phrase, et qu’un jour, vous découvrez que votre œuvre a servi à nourrir une intelligence artificielle sans votre accord ni la moindre compensation. C’est exactement ce qu’allègue Elizabeth Lyon, une auteure américaine, dans une plainte collective déposée contre Adobe fin 2025. Cette affaire met une nouvelle fois en lumière les zones grises de l’entraînement des modèles d’IA et pose des questions cruciales pour tous les entrepreneurs et marketeurs qui misent sur ces technologies.
Dans un secteur où l’innovation va plus vite que la régulation, les géants du numérique se retrouvent régulièrement accusés d’avoir franchi la ligne rouge du droit d’auteur. Adobe, célèbre pour Photoshop et ses outils créatifs, n’échappe pas à la vague de litiges qui secoue l’industrie de l’IA générative. Décryptage d’une affaire qui pourrait changer la donne pour votre stratégie tech.
Que reproche exactement l’auteure à Adobe ?
Elizabeth Lyon, spécialisée dans les guides d’écriture non-fiction, affirme que plusieurs de ses ouvrages ont été intégrés sans autorisation dans les données utilisées pour entraîner SlimLM, un modèle de langage compact développé par Adobe. Ce modèle est conçu pour assister les utilisateurs sur des tâches documentaires, notamment sur mobile.
Le cœur du problème réside dans la provenance des données. Adobe indique avoir pré-entraîné SlimLM sur SlimPajama-627B, un dataset open-source publié par Cerebras en 2023. Mais selon la plainte, ce dataset est en réalité une version modifiée et dédupliquée de RedPajama, qui lui-même contient Books3 – une bibliothèque controversée de 191 000 livres numérisés illégalement.
« Le dataset SlimPajama a été créé en copiant et manipulant le dataset RedPajama (y compris en copiant Books3). Par conséquent, SlimPajama contient l’intégralité du dataset Books3, incluant les œuvres protégées par le droit d’auteur de la plaignante et des membres de la classe. »
– Extrait de la plainte déposée par Elizabeth Lyon
En clair : même si Adobe n’a pas directement piraté les livres, l’entreprise aurait utilisé un dataset dérivé contenant des œuvres volées. Un raisonnement qui, s’il est validé par la justice, pourrait créer un précédent majeur.
Books3 et RedPajama : les datasets qui font trembler la Silicon Valley
Le nom Books3 revient régulièrement dans les tribunaux ces derniers mois. Cette immense collection de textes, créée à partir de bibliothèques piratées sur des sites comme Bibliotik, a servi à entraîner de nombreux modèles d’IA générative. Meta, Anthropic, Bloomberg… la liste des entreprises citées est longue.
RedPajama, quant à lui, était censé être une alternative open-source et “propre” à The Pile, un autre dataset célèbre. Mais les plaignants affirment qu’il reprend intégralement Books3. SlimPajama, utilisé par Adobe, serait donc une troisième couche de copie déguisée.
Cette chaîne de transmission pose un problème éthique et juridique fondamental : peut-on considérer un dataset comme légal simplement parce qu’il a été “nettoyé” ou modifié après avoir intégré du contenu piraté ?
Adobe dans la tourmente : une stratégie IA risquée ?
Depuis 2023, Adobe a multiplié les annonces autour de l’intelligence artificielle. La suite Firefly permet de générer images, vidéos et contenus texte à partir de prompts. L’entreprise met en avant une approche “éthique” en entraînant ses modèles sur des données licenciées ou appartenant à son catalogue Adobe Stock.
Mais l’affaire SlimLM montre que toutes les équipes d’Adobe ne suivent peut-être pas la même ligne. SlimLM, plus technique et destiné à des usages internes ou mobiles, semble avoir pris des raccourcis dangereux.
Pour les entrepreneurs et marketeurs, cette distinction est importante : une entreprise peut avoir une communication vertueuse sur certains produits (Firefly) tout en prenant des risques sur d’autres (SlimLM). Cela rappelle qu’il faut toujours vérifier la provenance des outils IA que l’on intègre dans sa stack.
Un phénomène qui s’étend à toute l’industrie
Adobe n’est pas un cas isolé. Récemment, plusieurs géants ont été visés pour des pratiques similaires :
- Apple, accusé d’avoir utilisé RedPajama pour Apple Intelligence
- Salesforce, pointé pour les mêmes raisons
- Anthropic, qui a accepté de payer 1,5 milliard de dollars aux auteurs pour clore un litige sur Claude
Ces affaires illustrent une tendance : les créateurs de contenu (écrivains, photographes, musiciens) organisent la riposte. Les class actions se multiplient, et les montants en jeu deviennent colossaux.
Quelles conséquences pour les startups et le business IA ?
Si vous dirigez une startup ou une agence qui utilise des outils IA générative, cette vague de procès doit vous alerter sur plusieurs points :
- Traçabilité des données : demandez à vos fournisseurs IA des garanties sur l’origine de leurs datasets
- Risques indirects : même si vous n’entraînez pas vos propres modèles, vous pourriez être tenu responsable si un outil tiers utilise du contenu piraté
- Coûts futurs : les licences de données légales vont devenir plus chères, impactant les marges des solutions IA
- Avantage concurrentiel : les entreprises qui investissent dès maintenant dans des données propres (partenariats avec créateurs, datasets licenciés) pourraient prendre l’avantage
À long terme, on pourrait assister à l’émergence d’un marché des données d’entraînement, avec des places d’échange régulées et des certifications “fair training”.
Comment les entreprises peuvent-elles se protéger ?
Voici quelques pistes concrètes pour limiter les risques :
- Privilégier les modèles open-source avec une traçabilité claire (ex : ceux de Meta Llama avec données déclarées)
- Opter pour des solutions comme Firefly ou Midjourney qui communiquent sur l’utilisation exclusive de données licenciées
- Mettre en place une politique interne d’audit des outils IA
- Prévoir des clauses de responsabilité dans les contrats avec les fournisseurs
- Explorer les modèles “small language models” entraînés sur des données d’entreprise privées (RAG)
Ces bonnes pratiques ne sont plus un luxe : elles deviennent une nécessité pour toute structure sérieuse dans le digital.
Vers une régulation inévitable ?
Les tribunaux américains jouent actuellement le rôle de régulateur par défaut. Mais à terme, on peut imaginer :
- Une législation spécifique sur l’entraînement des IA (comme le AI Act en Europe)
- L’obligation de transparence sur les datasets utilisés
- Des mécanismes d’opt-out efficaces pour les créateurs
- Un fonds de compensation financé par les géants de l’IA
L’affaire Adobe vs Lyon n’est qu’un épisode d’une saga qui va durer des années. Mais elle rappelle une vérité simple : l’innovation ne peut pas se faire au détriment des créateurs qui fournissent la matière première.
Pour les entrepreneurs malins, c’est aussi une opportunité : ceux qui anticiperont les exigences éthiques et légales d’aujourd’hui seront les leaders de demain dans l’IA responsable.
(Article basé sur des informations publiques au 25 décembre 2025. L’issue du procès reste incertaine.)







