Alors que les systèmes conversationnels par IA tels que les chatbots connaissent un essor fulgurant, la question de la modération de leur contenu se pose avec acuité. Comment s’assurer que les échanges restent sains et respectueux ? La startup Mistral apporte sa pierre à l’édifice avec le lancement d’une API de modération IA.
Une API IA pour classer le texte en 9 catégories
L’API de modération de Mistral, qui alimente déjà la modération dans sa plateforme de chatbot Le Chat, s’appuie sur un modèle d’IA fine (Ministral 8B) entraîné pour classer le texte en 9 catégories :
- Contenu sexuel
- Haine et discrimination
- Violence et menaces
- Contenu dangereux et criminel
- Automutilation
- Santé
- Finance
- Droit
- Informations personnellement identifiables
Cette catégorisation du langage permet de détecter les contenus problématiques et de les traiter en conséquence. L’API peut analyser aussi bien du texte brut que du texte conversationnel, dans plusieurs langues dont l’anglais, le français et l’allemand.
Adapter la modération aux standards de chaque application
L’un des principaux atouts de l’API de Mistral est sa flexibilité. Elle peut être adaptée aux besoins et standards spécifiques de chaque application et client. Comme l’explique la société :
Notre classifieur de modération de contenu exploite les catégories de politiques les plus pertinentes pour des garde-fous efficaces et introduit une approche pragmatique de la sécurité des modèles en traitant les dommages générés par les modèles tels que les conseils non qualifiés et les informations personnellement identifiables.
– Mistral
Cette personnalisation permet de mieux répondre aux enjeux éthiques et réglementaires propres à chaque cas d’usage, qu’il s’agisse d’un chatbot grand public, d’un assistant professionnel ou d’un agent conversationnel spécialisé.
Les défis des systèmes de modération IA
Si les systèmes de modération par IA comme celui de Mistral offrent des perspectives intéressantes, ils n’en soulèvent pas moins certaines interrogations. Comme tout modèle d’IA, ils peuvent être sujets à des biais et des erreurs d’appréciation.
Des études ont par exemple montré que certains modèles de détection de toxicité avaient tendance à considérer comme disproportionnellement « toxiques » les phrases en African-American Vernacular English (AAVE), le dialecte informel utilisé par certains Afro-Américains. De même, les publications sur les réseaux sociaux concernant les personnes handicapées sont souvent étiquetées comme plus négatives par les modèles courants d’analyse de sentiment.
Mistral affirme que son modèle est très précis, mais reconnaît qu’il s’agit d’un travail en cours. La société n’a notamment pas comparé les performances de son API à celles d’autres APIs populaires comme Perspective de Jigsaw ou l’API de modération d’OpenAI.
Vers plus de transparence et de collaboration
Pour faire progresser les systèmes de modération IA et traiter ces enjeux, Mistral mise sur la transparence et la collaboration avec la communauté de recherche :
Nous travaillons avec nos clients pour créer et partager des outils de modération évolutifs, légers et personnalisables, et nous continuerons à nous engager avec la communauté de recherche pour apporter des progrès en matière de sécurité au domaine plus large.
– Mistral
À mesure que les agents conversationnels IA se généralisent, dans un nombre croissant de domaines, la question de leur modération éthique et efficace devient cruciale. Des initiatives comme celle de Mistral y contribuent, tout en soulignant les défis qu’il reste à relever collectivement pour concilier le potentiel et la responsabilité de ces technologies.