L’Éthique de l’IA dans le Web Scraping et la Génération de Contenu

MondeTech.fr03/07/2024

À l’ère de l’IA générative, où les chatbots peuvent fournir des réponses détaillées aux questions en se basant sur du contenu extrait d’Internet, la frontière entre l’utilisation équitable et le plagiat, entre le web scraping de routine et la synthèse non éthique, est mince. C’est ce que montre la récente polémique entourant la startup Perplexity AI, accusée par Forbes et Wired d’avoir plagié leurs articles et ignoré le protocole d’exclusion des robots pour aspirer subrepticement des zones de sites web.

Perplexity AI dans la tourmente

Perplexity AI est une startup qui combine un moteur de recherche avec un grand modèle de langage pour générer des réponses détaillées, plutôt que de simples liens. Contrairement à ChatGPT d’OpenAI et Claude d’Anthropic, Perplexity n’entraîne pas ses propres modèles d’IA fondamentaux, mais utilise des modèles ouverts ou disponibles dans le commerce pour traduire les informations collectées sur Internet en réponses.

Mais en juin, Forbes a accusé Perplexity d’avoir prétendument plagié l’un de ses articles dans sa fonctionnalité bêta Perplexity Pages. Et Wired a accusé la startup d’avoir illicitement aspiré son site web, ainsi que d’autres sites. Perplexity, qui cherchait en avril à lever 250 millions de dollars pour une valorisation proche de 3 milliards de dollars, maintient n’avoir rien fait de mal, respectant les demandes des éditeurs de ne pas aspirer de contenu et agissant dans le cadre des lois sur le droit d’auteur et l’utilisation équitable.

Web scraping subreptice de contenu

Selon Wired, Perplexity a ignoré le protocole d’exclusion des robots pour aspirer subrepticement des zones de sites web que les éditeurs ne veulent pas voir accédées ou utilisées par des robots. Wired et le développeur Robb Knight affirment avoir observé une machine liée à Perplexity le faire sur leurs sites. Perplexity aurait alors « résumé » le texte de ces URLs, reproduisant parfois verbatim le contenu d’une page factice créée par Wired à cet effet.

Mais pour Perplexity, consulter une URL fournie par un utilisateur n’équivaut pas à du crawling. Son IA agirait comme un outil d’assistance pour récupérer et traiter les informations demandées, et non comme un robot d’indexation aspirant massivement du contenu pour l’ajouter à son index. Une distinction sans différence pour de nombreux éditeurs, car visiter une URL et en extraire les informations pour résumer le texte ressemble fort à du scraping si cela est fait des milliers de fois par jour.

Plagiat ou utilisation équitable ?

Forbes a aussi accusé Perplexity d’avoir plagié son scoop sur l’ancien PDG de Google Eric Schmidt développant des drones de combat propulsés par l’IA. L’article de Perplexity Pages reprenait l’essentiel du reportage de Forbes dans un texte d’une grande similarité, sans mention du média dans le corps de l’article, seulement via de petits logos faciles à manquer.

Perplexity se défend en invoquant le fair use. Légalement, il est permis d’utiliser des portions limitées d’une œuvre, y compris des citations, à des fins de commentaire, de critique, de reportage, etc. Résumer un article relèverait de l’utilisation équitable. « Personne n’a le monopole des faits », argue Perplexity. Une fois les faits rendus publics, ils appartiendraient à tous.

Il n’y a pas de limites claires. Donc, si [Perplexity] résume factuellement ce que dit ou rapporte un article, elle utilise des aspects non protégés par le droit d’auteur de l’œuvre. Mais plus le résumé inclut de l’expression et du texte réels, plus cela commence à ressembler à une reproduction, plutôt qu’à un simple résumé.
– Mark McKenna, professeur de droit à l’UCLA Institute for Technology, Law & Policy

Comment Perplexity cherche à se protéger

Si certaines entreprises d’IA comme OpenAI signent des accords avec des médias pour accéder à leur contenu actuel et archivé, Perplexity mise plutôt sur des accords de partage des revenus publicitaires avec les éditeurs. L’idée est d’inclure des publicités aux côtés des réponses et de reverser une part des revenus aux éditeurs cités. Perplexity travaille aussi à donner aux éditeurs accès à sa technologie pour créer des expériences de questions-réponses sur leurs propres sites et produits.

Mais est-ce juste un cache-misère pour un vol systémique de propriété intellectuelle ? Perplexity n’est pas le seul chatbot menaçant de résumer si complètement le contenu que les lecteurs ne voient plus l’intérêt de consulter la source originale. Si les web scrapers continuent de s’approprier le travail des éditeurs, ces derniers auront plus de mal à générer des revenus publicitaires. À terme, il y aura moins de contenu à aspirer. Les systèmes d’IA générative se tourneront alors vers l’entraînement sur des données synthétiques, risquant de créer une boucle infernale de contenu potentiellement biaisé et inexact.

Vers plus de transparence et d’éthique

Face aux accusations, Perplexity promet plus de transparence à l’avenir dans l’attribution des sources, tout en maintenant son droit à utiliser le contenu pour des résumés. Mais les citations elles-mêmes font face à des difficultés techniques, les modèles étant sujets aux « hallucinations » de liens.

Au final, il appartient à l’industrie de l’IA de développer des pratiques plus éthiques en matière de web scraping et de génération de contenu, en travaillant main dans la main avec les éditeurs. Cela passe par :

Le respect du protocole d’exclusion des robots et de la volonté des éditeurs
Une attribution claire et visible des sources utilisées
Un juste partage de la valeur générée avec les créateurs de contenu originaux

C’est à ce prix que l’IA générative pourra se développer de façon pérenne et bénéfique pour tous, en respectant la propriété intellectuelle et en promouvant un écosystème médiatique diversifié et de qualité. Un défi éthique majeur pour cette technologie disruptive en plein essor.