Étude sur les Citations de ChatGPT : Inquiétudes pour les Éditeurs

MondeTech.fr29/11/2024

Dans un contexte où de plus en plus d’éditeurs signent des accords de licence de contenu avec OpenAI, l’entreprise à l’origine de ChatGPT, une étude récente du Tow Center for Digital Journalism soulève de sérieuses questions. Selon les chercheurs, malgré ces partenariats, les éditeurs restent à la merci de la tendance de l’outil d’IA générative à inventer ou à déformer les informations lors de la génération de citations.

L’étude, menée à la Columbia Journalism School, a examiné les citations produites par ChatGPT après qu’on lui ait demandé d’identifier la source de citations tirées de divers éditeurs, certains ayant conclu des accords avec OpenAI et d’autres non. Les chercheurs ont sélectionné des citations qui, lorsque copiées dans Google ou Bing, renvoyaient l’article source parmi les trois premiers résultats. Ils ont ensuite évalué si le nouvel outil de recherche d’OpenAI identifierait correctement l’article d’origine pour chaque citation.

Des Résultats Préoccupants pour les Éditeurs

Les résultats ne sont guère encourageants pour les éditeurs, comme le soulignent les chercheurs Klaudia Jaźwińska et Aisvarya Chandrasekar :

Bien qu’OpenAI mette l’accent sur sa capacité à fournir aux utilisateurs des « réponses opportunes avec des liens vers des sources Web pertinentes », l’entreprise ne s’engage pas explicitement à garantir l’exactitude de ces citations. C’est une omission notable pour les éditeurs qui s’attendent à ce que leur contenu soit référencé et représenté fidèlement.

Les tests ont révélé de nombreux cas où le contenu des éditeurs était cité de manière inexacte par ChatGPT, avec un « spectre d’exactitude » dans les réponses. Si certaines citations étaient entièrement correctes, beaucoup étaient totalement erronées, et d’autres se situaient entre les deux.

Problèmes de Transparence et de Confiance

Un autre problème mis en évidence est le manque de transparence de ChatGPT lorsqu’il n’est pas en mesure de fournir une réponse précise. Au lieu d’admettre ses limites, le chatbot a tendance à inventer des informations pour combler les lacunes.

Selon l’étude, ce manque de clarté sur le niveau de confiance dans une réponse peut rendre difficile pour les utilisateurs d’évaluer la validité d’une affirmation et de comprendre quelles parties d’une réponse ils peuvent ou non faire confiance. Pour les éditeurs, cela pourrait également entraîner des risques pour leur réputation, ainsi qu’un risque commercial si les lecteurs sont orientés ailleurs.

Des Accords de Licence ne Garantissent pas la Précision

De manière inquiétante, même pour les éditeurs ayant conclu des accords avec OpenAI, les citations de ChatGPT n’étaient pas toujours fiables. Autoriser les robots d’indexation d’OpenAI ne semble pas garantir l’exactitude des références.

Les chercheurs arguent que le problème fondamental est que la technologie d’OpenAI traite le journalisme comme un « contenu décontextualisé », sans guère tenir compte des circonstances de sa production initiale. Ils ont également constaté que ChatGPT pouvait essentiellement récompenser le plagiat en citant par erreur un site Web ayant plagié du contenu original comme source.

Peu de Contrôle pour les Éditeurs

En fin de compte, l’étude conclut que dans l’état actuel des choses, les éditeurs ont « peu de contrôle significatif » sur ce qui arrive à leur contenu une fois entre les mains de ChatGPT, qu’ils aient un accord de licence ou non. Même le blocage complet des robots d’indexation ne met pas les éditeurs à l’abri des risques d’atteinte à leur réputation liés à des mentions inexactes de leurs articles par le chatbot.

En réponse aux résultats, OpenAI a déclaré soutenir les éditeurs en aidant les utilisateurs de ChatGPT à découvrir du contenu de qualité, et a indiqué travailler à l’amélioration de la précision des citations en ligne et au respect des préférences des éditeurs. Néanmoins, cette étude met en lumière les défis considérables qui restent à relever pour garantir une représentation juste et précise du contenu journalistique par les outils d’IA générative comme ChatGPT.