Les Modèles d’IA Ont des Opinions Opposées sur les Sujets Controversés

Une étude présentée à la conférence ACM Fairness, Accountability and Transparency (FAccT) 2024 met en lumière un phénomène troublant : les modèles d’intelligence artificielle ont des opinions divergentes, voire opposées, sur des sujets controversés tels que les droits LGBTQ+, l’immigration et la politique. Ces résultats soulèvent d’importantes questions sur les biais intégrés dans les données utilisées pour entraîner ces modèles.

Des modèles influencés par leur culture et leur langue

Les chercheurs de Carnegie Mellon, de l’Université d’Amsterdam et de la startup Hugging Face ont testé plusieurs modèles d’analyse de texte, dont Llama 3 de Meta, dans différentes langues. Ils ont constaté des variations significatives dans les valeurs véhiculées par les réponses des modèles, selon la culture et la langue utilisées.

Notre recherche montre d’importantes variations dans les valeurs transmises par les réponses des modèles, en fonction de la culture et de la langue.

– Giada Pistilli, éthicienne principale et co-auteure de l’étude

Des refus de réponse révélateurs

L’étude a révélé que les questions sur les droits LGBTQ+ déclenchaient le plus grand nombre de « refus » de la part des modèles, c’est-à-dire des cas où ils ne répondaient pas. Mais les questions et déclarations sur l’immigration, la protection sociale et les droits des personnes handicapées ont également suscité de nombreux refus. Selon les chercheurs, ces refus sont influencés par :

  • Les valeurs implicites des modèles
  • Les choix explicites des organisations qui les développent
  • Les décisions de fine-tuning pour éviter de commenter les sujets sensibles

L’impact des annotateurs sur les biais

Les chercheurs soulignent également le rôle crucial des annotateurs, ces prestataires qui étiquettent les données d’entraînement. Leurs propres biais peuvent se manifester dans leurs annotations et donc dans les modèles entraînés sur celles-ci. Cela pourrait expliquer pourquoi différents modèles expriment des « points de vue » opposés sur des sujets comme le droit d’asile en Allemagne ou les droits LGBTQ+ en Italie.

Un appel à des tests rigoureux

Si les exemples mis en évidence par l’étude peuvent surprendre, le constat général n’est pas nouveau : tous les modèles contiennent des biais, à des degrés divers. Giada Pistilli espère que cette recherche servira de rappel sur l’importance de tester rigoureusement ces modèles avant de les déployer.

Nous appelons les chercheurs à tester rigoureusement leurs modèles pour les visions culturelles qu’ils propagent, que ce soit intentionnellement ou non. Notre recherche montre l’importance de mettre en œuvre des évaluations d’impact social plus complètes, qui vont au-delà des métriques statistiques traditionnelles, tant quantitativement que qualitativement.

– Giada Pistilli

À l’heure où l’IA générative connaît un essor fulgurant, cette étude est un signal d’alarme. Elle nous rappelle que derrière la prouesse technologique se cachent des biais profondément ancrés, qui peuvent avoir un impact significatif sur la société. Il est donc crucial de continuer à étudier et à auditer ces modèles, afin de construire une IA plus équitable et responsable.

À lire également