L’IA Malmène L’Intégrité des Benchmarks: Epoch AI Dans La Tourmente

MondeTech.fr19/01/2025

Le monde de l’intelligence artificielle est secoué par une récente controverse impliquant Epoch AI, une organisation à but non lucratif développant des benchmarks mathématiques pour évaluer les capacités des IA. Epoch AI s’est retrouvée sous le feu des critiques pour avoir tardé à divulguer un financement reçu d’OpenAI, un acteur majeur de l’industrie.

Le Benchmark FrontierMath au Cœur de la Polémique

Au centre de la tourmente se trouve FrontierMath, un benchmark composé de problèmes de niveau expert conçu pour mesurer les compétences mathématiques d’une IA. OpenAI a utilisé ce test pour démontrer les prouesses de son prochain fleuron, l’IA o3. Mais ce n’est que le 20 décembre qu’Epoch AI a révélé qu’OpenAI avait soutenu financièrement la création de FrontierMath.

La communication à ce sujet a été opaque. Epoch AI aurait dû divulguer le financement d’OpenAI, et les contractants auraient dû être informés de l’utilisation potentielle de leur travail pour développer les capacités des IA.
– Meemi, contributeur à Epoch AI

Des Questions sur l’Objectivité et l’Intégrité des Benchmarks

Cette révélation tardive a soulevé des inquiétudes quant à l’objectivité de FrontierMath en tant que benchmark. Non seulement OpenAI a financé son développement, mais la société a également eu accès à de nombreux problèmes et solutions du test, un fait qu’Epoch AI n’avait pas divulgué avant l’annonce d’o3.

Face aux critiques, Tamay Besiroglu, co-fondateur et directeur associé d’Epoch AI, a admis une erreur de communication tout en affirmant que l’intégrité de FrontierMath n’avait pas été compromise:

Nous aurions dû négocier plus fermement la possibilité d’être transparents avec les contributeurs du benchmark dès que possible. Même si nous étions contractuellement limités dans ce que nous pouvions dire, nous aurions dû faire de la transparence avec nos contributeurs une partie non négociable de notre accord avec OpenAI.
– Tamay Besiroglu, co-fondateur d’Epoch AI

Des Garde-fous en Place, Mais des Doutes Subsistent

Besiroglu a précisé qu’un « accord verbal » empêche OpenAI d’utiliser les problèmes de FrontierMath pour entraîner son IA, et qu’un jeu de données de réserve permet une vérification indépendante des résultats. Cependant, Ellot Glazer, mathématicien en chef d’Epoch AI, a noté qu’Epoch AI n’a pas pu vérifier de manière indépendante les scores d’o3 sur FrontierMath.

Un Défi pour le Développement de Benchmarks IA Crédibles

Cette affaire met en lumière la difficulté de développer des benchmarks empiriques pour évaluer les IA, tout en obtenant les ressources nécessaires sans créer de perception de conflits d’intérêts. Alors que la course à l’IA s’intensifie, avec des enjeux financiers et stratégiques colossaux, la quête de benchmarks fiables et objectifs s’annonce ardue.

Pour rétablir la confiance, les organisations comme Epoch AI devront redoubler d’efforts en matière de transparence et d’indépendance. Car sans benchmarks crédibles, c’est notre capacité à évaluer et à encadrer le développement de l’IA qui est en jeu.

En attendant, le débat fait rage: les liens entre Epoch AI et OpenAI ont-ils compromis l’intégrité de FrontierMath? La communauté de l’IA reste divisée. Une chose est sûre: alors que les IA continuent de progresser à un rythme effréné, la question des benchmarks et de leur fiabilité ne fera que gagner en importance.

Transparence et indépendance, clés d’une évaluation IA crédible
Nécessité d’un cadre éthique pour le développement des benchmarks IA
Vers une standardisation des pratiques pour garantir l’objectivité?

Alors que le monde de l’IA continue de se développer à une vitesse vertigineuse, il est crucial de s’assurer que les outils que nous utilisons pour l’évaluer soient à la hauteur des enjeux. L’affaire Epoch AI-OpenAI nous rappelle que dans la quête de l’IA ultime, l’éthique et l’intégrité ne doivent pas être laissées au bord du chemin.