Le nouveau modèle d’IA open-source de DeepSeek, baptisé DeepSeek V3, fait parler de lui cette semaine. Performant sur de nombreuses tâches de traitement du langage, il semble pourtant persuadé d’être… ChatGPT, le célèbre chatbot d’OpenAI. Une confusion étonnante qui soulève des questions sur les données d’entraînement et les risques liés à l’IA.
DeepSeek V3 : un modèle puissant mais confus
DeepSeek, un laboratoire d’IA chinois bien financé, vient de publier DeepSeek V3, un grand modèle de langage « open-source » qui surpasse de nombreux concurrents sur les benchmarks populaires. Capable de coder et de rédiger des essais avec facilité, il se distingue par son efficacité. Mais ce qui interpelle, c’est qu’il s’identifie systématiquement comme étant ChatGPT, allant jusqu’à se présenter comme une version de GPT-4 sortie en juin 2023.
Si vous demandez à DeepSeek V3 des informations sur l’API de DeepSeek, il vous donnera en réalité les instructions pour utiliser l’API d’OpenAI.
Ses délires identitaires ne s’arrêtent pas là : DeepSeek V3 va jusqu’à reprendre mot pour mot certaines blagues de GPT-4. Un comportement qui intrigue la communauté de l’IA.
Des données d’entraînement contaminées par ChatGPT ?
Pour Mike Cook, chercheur en IA au King’s College de Londres, il est probable que DeepSeek V3 ait été entraîné sur des datasets publics contenant du texte généré par GPT-4 via ChatGPT. En « mémorisant » certaines sorties de GPT-4, le modèle les régurgiterait à l’identique. Une pratique potentiellement problématique :
Entraîner des modèles sur les sorties de systèmes d’IA concurrents peut être très néfaste pour la qualité du modèle, car cela peut conduire à des hallucinations et des réponses trompeuses. C’est comme faire une photocopie d’une photocopie : on perd de plus en plus d’informations et de connexion avec la réalité.
– Mike Cook, chercheur en IA
Avec la prolifération du contenu généré par l’IA sur le web, il devient en effet difficile de filtrer totalement ces outputs des jeux de données d’entraînement. Selon une estimation, 90% du web pourrait être généré par l’IA d’ici 2026. Une « contamination » qui complique la donne pour les développeurs d’IA.
Distillation de modèle : des économies au prix de la qualité ?
Une autre hypothèse est que DeepSeek ait sciemment entraîné son modèle V3 sur des sorties de ChatGPT, une pratique appelée « distillation de modèle ». En « absorbant » les connaissances d’un modèle existant, on peut réaliser des économies substantielles. Mais cette approche comporte des risques, comme l’explique Heidy Khlaaf, directrice de l’ingénierie chez Trail of Bits :
Si DeepSeek a effectivement réalisé une distillation en utilisant partiellement les modèles d’OpenAI, cela ne serait pas surprenant. Mais en absorbant et en itérant de manière non critique sur les sorties de GPT-4, DeepSeek V3 pourrait exacerber certains biais et défauts du modèle.
– Heidy Khlaaf, Trail of Bits
Les enjeux de la qualité et de la transparence des données d’IA
Le cas de DeepSeek V3 illustre les défis croissants liés à la qualité et à la provenance des données d’entraînement des IA. Avec la prolifération des contenus générés par l’IA, il devient crucial pour les laboratoires d’être vigilants et transparents sur leurs pratiques. C’est une condition essentielle pour développer des systèmes d’IA fiables et robustes, qui ne reproduisent pas les biais et les erreurs de leurs prédécesseurs.
Il soulève aussi la question des implications légales et éthiques de la réutilisation des sorties d’IA propriétaires à des fins d’entraînement de modèle. Les conditions d’utilisation d’OpenAI interdisent l’usage des sorties de ses produits pour développer des modèles concurrents. Si DeepSeek a sciemment enfreint ces règles, cela pourrait avoir des conséquences.
Enfin, cet épisode rappelle l’importance de la transparence et de la responsabilité dans le développement de l’IA. À l’heure où ces technologies deviennent omniprésentes, il est essentiel que les acteurs de l’écosystème adoptent les meilleures pratiques pour garantir leur fiabilité et leur alignement avec nos valeurs. C’est un enjeu majeur pour bâtir une IA éthique et bénéfique à tous.