Le monde de l’intelligence artificielle est en effervescence depuis qu’OpenAI a dévoilé son premier modèle de « raisonnement » baptisé o1. Très vite, les utilisateurs ont remarqué un phénomène pour le moins surprenant : le modèle se met parfois à « penser » en chinois, en persan ou dans une autre langue, même lorsqu’on lui pose une question en anglais.
Concrètement, lorsqu’on soumet un problème à o1, comme « Combien y a-t-il de ‘R’ dans le mot ‘fraise’ ? », le modèle entame un processus de réflexion pour arriver à une réponse en effectuant une série d’étapes de raisonnement. Si la question est posée en anglais, la réponse finale d’o1 sera en anglais. Mais, et c’est là que les choses deviennent étranges, le modèle effectue certaines étapes intermédiaires dans une autre langue avant de tirer sa conclusion.
Un Phénomène qui Intrigue la Communauté
Sur Reddit, un utilisateur a rapporté qu’ »[o1] a commencé à penser en chinois à mi-chemin de façon aléatoire« . Sur Twitter, un autre s’est interrogé : « Pourquoi [o1] a-t-il commencé à penser en chinois de manière aléatoire ? Aucune partie de la conversation (plus de 5 messages) n’était en chinois…« .
Face à ce mystère, OpenAI reste muet. Pas d’explication officielle, pas même une reconnaissance du phénomène. Alors, que se passe-t-il dans les entrailles d’o1 ? Les experts en IA ont quelques théories, mais pas de certitudes.
L’Hypothèse des Données d’Entraînement Chinoises
Sur Twitter, plusieurs voix, dont celle de Clément Delangue, PDG de Hugging Face, ont pointé du doigt le fait que les modèles de raisonnement comme o1 sont entraînés sur des jeux de données contenant beaucoup de caractères chinois. Ted Xiao, chercheur chez Google DeepMind, affirme que des entreprises comme OpenAI font appel à des services chinois d’étiquetage de données tiers. Pour lui, le passage d’o1 au chinois est un exemple « d’influence linguistique chinoise sur le raisonnement« .
[Les laboratoires comme] OpenAI et Anthropic utilisent des services d’étiquetage de données [tiers] pour les données de raisonnement de niveau doctorat en science, mathématiques et codage. Pour des raisons de disponibilité et de coût de la main-d’œuvre experte, bon nombre de ces fournisseurs de données sont basés en Chine.
– Ted Xiao, Chercheur chez Google DeepMind
Les étiquettes, également appelées tags ou annotations, aident les modèles à comprendre et à interpréter les données pendant le processus d’entraînement. Des études ont montré que des étiquettes biaisées peuvent produire des modèles biaisés.
D’Autres Pistes Explorées par les Experts
Tous les experts ne souscrivent pas à l’hypothèse de l’étiquetage des données chinoises pour o1. Ils soulignent qu’o1 est tout aussi susceptible de passer à l’hindi, au thaï ou à une langue autre que le chinois lorsqu’il résout un problème.
Selon Matthew Guzdial, chercheur en IA et professeur adjoint à l’Université de l’Alberta, o1 et les autres modèles de raisonnement pourraient simplement utiliser les langues qu’ils trouvent les plus efficaces pour atteindre un objectif (ou halluciner).
Le modèle ne sait pas ce qu’est une langue, ni que les langues sont différentes. Pour lui, tout n’est que du texte.
– Matthew Guzdial, Chercheur en IA et Professeur à l’Université de l’Alberta
Tiezhen Wang, ingénieur logiciel chez Hugging Face, abonde dans le sens de Guzdial. Pour lui, les incohérences linguistiques des modèles de raisonnement pourraient s’expliquer par les associations que les modèles ont faites pendant l’entraînement.
En embrassant chaque nuance linguistique, nous élargissons la vision du monde du modèle et lui permettons d’apprendre de tout le spectre des connaissances humaines.
– Tiezhen Wang, Ingénieur Logiciel chez Hugging Face
Le Mystère Reste Entier
En l’absence de réponse d’OpenAI, nous en sommes réduits à spéculer sur les raisons qui poussent o1 à penser aux chansons en français mais à la biologie synthétique en mandarin. Luca Soldaini, chercheur à l’Allen Institute for AI, met en garde :
Ce type d’observation sur un système d’IA déployé est impossible à étayer en raison de l’opacité de ces modèles. C’est l’un des nombreux arguments en faveur de la transparence dans la façon dont les systèmes d’IA sont construits.
– Luca Soldaini, Chercheur à l’Allen Institute for AI
Ce mystère linguistique soulève des questions fondamentales sur le fonctionnement interne des modèles de raisonnement en IA et met en lumière le besoin crucial de transparence dans ce domaine. Tant qu’OpenAI restera muet, le multilinguisme surprenant d’o1 restera une énigme fascinante pour les chercheurs et les passionnés d’IA du monde entier.
Sur Twitter, plusieurs voix, dont celle de Clément Delangue, PDG de Hugging Face, ont pointé du doigt le fait que les modèles de raisonnement comme o1 sont entraînés sur des jeux de données contenant beaucoup de caractères chinois. Ted Xiao, chercheur chez Google DeepMind, affirme que des entreprises comme OpenAI font appel à des services chinois d’étiquetage de données tiers. Pour lui, le passage d’o1 au chinois est un exemple « d’influence linguistique chinoise sur le raisonnement« .
[Les laboratoires comme] OpenAI et Anthropic utilisent des services d’étiquetage de données [tiers] pour les données de raisonnement de niveau doctorat en science, mathématiques et codage. Pour des raisons de disponibilité et de coût de la main-d’œuvre experte, bon nombre de ces fournisseurs de données sont basés en Chine.
– Ted Xiao, Chercheur chez Google DeepMind
Les étiquettes, également appelées tags ou annotations, aident les modèles à comprendre et à interpréter les données pendant le processus d’entraînement. Des études ont montré que des étiquettes biaisées peuvent produire des modèles biaisés.
D’Autres Pistes Explorées par les Experts
Tous les experts ne souscrivent pas à l’hypothèse de l’étiquetage des données chinoises pour o1. Ils soulignent qu’o1 est tout aussi susceptible de passer à l’hindi, au thaï ou à une langue autre que le chinois lorsqu’il résout un problème.
Selon Matthew Guzdial, chercheur en IA et professeur adjoint à l’Université de l’Alberta, o1 et les autres modèles de raisonnement pourraient simplement utiliser les langues qu’ils trouvent les plus efficaces pour atteindre un objectif (ou halluciner).
Le modèle ne sait pas ce qu’est une langue, ni que les langues sont différentes. Pour lui, tout n’est que du texte.
– Matthew Guzdial, Chercheur en IA et Professeur à l’Université de l’Alberta
Tiezhen Wang, ingénieur logiciel chez Hugging Face, abonde dans le sens de Guzdial. Pour lui, les incohérences linguistiques des modèles de raisonnement pourraient s’expliquer par les associations que les modèles ont faites pendant l’entraînement.
En embrassant chaque nuance linguistique, nous élargissons la vision du monde du modèle et lui permettons d’apprendre de tout le spectre des connaissances humaines.
– Tiezhen Wang, Ingénieur Logiciel chez Hugging Face
Le Mystère Reste Entier
En l’absence de réponse d’OpenAI, nous en sommes réduits à spéculer sur les raisons qui poussent o1 à penser aux chansons en français mais à la biologie synthétique en mandarin. Luca Soldaini, chercheur à l’Allen Institute for AI, met en garde :
Ce type d’observation sur un système d’IA déployé est impossible à étayer en raison de l’opacité de ces modèles. C’est l’un des nombreux arguments en faveur de la transparence dans la façon dont les systèmes d’IA sont construits.
– Luca Soldaini, Chercheur à l’Allen Institute for AI
Ce mystère linguistique soulève des questions fondamentales sur le fonctionnement interne des modèles de raisonnement en IA et met en lumière le besoin crucial de transparence dans ce domaine. Tant qu’OpenAI restera muet, le multilinguisme surprenant d’o1 restera une énigme fascinante pour les chercheurs et les passionnés d’IA du monde entier.