L’intelligence artificielle (IA) ne cesse de progresser, repoussant sans cesse les limites de ce qui est possible. Les géants de la tech comme OpenAI et xAI, la startup d’Elon Musk, se livrent une véritable course pour développer les modèles les plus performants. Mais comment mesurer réellement ces avancées ? Les benchmarks actuels sont-ils vraiment pertinents ? Il est peut-être temps de les remettre en question.
Des benchmarks qui ne reflètent pas la réalité
Aujourd’hui, les progrès de l’IA sont essentiellement mesurés via des benchmarks, des tests standardisés permettant de comparer les performances des différents modèles. Le dernier en date, Grok 3 d’xAI, bat ainsi plusieurs modèles de pointe, dont ceux d’OpenAI, sur des tâches comme les mathématiques ou la programmation. Impressionnant sur le papier, mais qu’en est-il en pratique ?
Le problème, c’est que ces benchmarks testent souvent des connaissances très pointues, déconnectées des usages réels. Les scores agrégés qu’ils fournissent sont peu corrélés avec les compétences sur les tâches qui intéressent réellement les utilisateurs. Comme le souligne Ethan Mollick, professeur à Wharton, il y a un « besoin urgent de meilleures batteries de tests et d’autorités de test indépendantes ».
Le manque de transparence des entreprises
Un autre souci est que les résultats des benchmarks sont le plus souvent auto-déclarés par les entreprises elles-mêmes. Difficile dans ces conditions de les prendre pour argent comptant. « Les benchmarks publics sont à la fois « bof » et saturés, laissant une grande partie des tests d’IA ressembler à des critiques gastronomiques, basées sur le goût », ironise Ethan Mollick. Si l’IA est cruciale pour le travail, il nous faut plus que cela.
Vers de nouveaux benchmarks plus pertinents ?
De nombreuses organisations et experts proposent de nouveaux benchmarks pour l’IA, mais leur pertinence fait débat au sein de l’industrie. Certains suggèrent d’aligner les benchmarks sur l’impact économique pour garantir leur utilité. D’autres affirment que l’adoption et l’utilité sont les ultimes critères.
Les benchmarks publics sont à la fois « bof » et saturés, laissant une grande partie des tests d’IA ressembler à des critiques gastronomiques, basées sur le goût.
– Ethan Mollick, professeur à Wharton
Face à ce débat qui risque de s’éterniser, certains comme l’utilisateur Roon sur X proposent une alternative radicale : ignorer purement et simplement les nouveaux modèles et benchmarks, sauf en cas de percée technique majeure. Pour notre santé mentale collective, ce ne serait peut-être pas une si mauvaise idée, même si cela implique de louper quelques pépites.
L’adoption et l’utilité comme benchmarks ultimes
Car au final, le succès d’un modèle d’IA ne se mesurera pas à ses scores sur des benchmarks obscurs, mais bien à son adoption par les utilisateurs et entreprises. C’est son utilité réelle, sa capacité à résoudre des problèmes concrets et à apporter de la valeur, qui fera la différence. Les benchmarks ont leur importance pour suivre les progrès techniques, mais gardons à l’esprit que ce ne sont que des indicateurs imparfaits.
Alors oui, saluons les exploits de Grok 3, ChatGPT et consorts sur les benchmarks. Mais ne perdons pas de vue l’essentiel : ce qui compte, c’est ce que ces IA peuvent faire pour nous au quotidien. Et ça, aucun benchmark ne peut vraiment le mesurer. Seul l’usage le dira, avec le temps. D’ici là, peut-être pouvons-nous effectivement nous permettre d’ignorer un peu ce défilé incessant de nouveaux modèles et de chiffres abstraits, pour nous concentrer sur l’essentiel : mettre l’IA au service de nos besoins réels.
- Les benchmarks actuels ne reflètent pas les usages réels de l’IA
- Les résultats sont souvent auto-déclarés par les entreprises, manquant de transparence
- De nouveaux benchmarks plus pertinents sont nécessaires mais font débat
- L’adoption et l’utilité sont les critères clés du succès d’une IA
Alors profitons des progrès de l’IA, émerveillons-nous des prouesses techniques, mais gardons les pieds sur terre. La vraie révolution de l’IA se jouera dans notre quotidien, pas dans les labos ou sur les benchmarks. À nous de faire en sorte qu’elle soit positive et utile pour tous.
Un autre souci est que les résultats des benchmarks sont le plus souvent auto-déclarés par les entreprises elles-mêmes. Difficile dans ces conditions de les prendre pour argent comptant. « Les benchmarks publics sont à la fois « bof » et saturés, laissant une grande partie des tests d’IA ressembler à des critiques gastronomiques, basées sur le goût », ironise Ethan Mollick. Si l’IA est cruciale pour le travail, il nous faut plus que cela.
Vers de nouveaux benchmarks plus pertinents ?
De nombreuses organisations et experts proposent de nouveaux benchmarks pour l’IA, mais leur pertinence fait débat au sein de l’industrie. Certains suggèrent d’aligner les benchmarks sur l’impact économique pour garantir leur utilité. D’autres affirment que l’adoption et l’utilité sont les ultimes critères.
Les benchmarks publics sont à la fois « bof » et saturés, laissant une grande partie des tests d’IA ressembler à des critiques gastronomiques, basées sur le goût.
– Ethan Mollick, professeur à Wharton
Face à ce débat qui risque de s’éterniser, certains comme l’utilisateur Roon sur X proposent une alternative radicale : ignorer purement et simplement les nouveaux modèles et benchmarks, sauf en cas de percée technique majeure. Pour notre santé mentale collective, ce ne serait peut-être pas une si mauvaise idée, même si cela implique de louper quelques pépites.
L’adoption et l’utilité comme benchmarks ultimes
Car au final, le succès d’un modèle d’IA ne se mesurera pas à ses scores sur des benchmarks obscurs, mais bien à son adoption par les utilisateurs et entreprises. C’est son utilité réelle, sa capacité à résoudre des problèmes concrets et à apporter de la valeur, qui fera la différence. Les benchmarks ont leur importance pour suivre les progrès techniques, mais gardons à l’esprit que ce ne sont que des indicateurs imparfaits.
Alors oui, saluons les exploits de Grok 3, ChatGPT et consorts sur les benchmarks. Mais ne perdons pas de vue l’essentiel : ce qui compte, c’est ce que ces IA peuvent faire pour nous au quotidien. Et ça, aucun benchmark ne peut vraiment le mesurer. Seul l’usage le dira, avec le temps. D’ici là, peut-être pouvons-nous effectivement nous permettre d’ignorer un peu ce défilé incessant de nouveaux modèles et de chiffres abstraits, pour nous concentrer sur l’essentiel : mettre l’IA au service de nos besoins réels.
- Les benchmarks actuels ne reflètent pas les usages réels de l’IA
- Les résultats sont souvent auto-déclarés par les entreprises, manquant de transparence
- De nouveaux benchmarks plus pertinents sont nécessaires mais font débat
- L’adoption et l’utilité sont les critères clés du succès d’une IA
Alors profitons des progrès de l’IA, émerveillons-nous des prouesses techniques, mais gardons les pieds sur terre. La vraie révolution de l’IA se jouera dans notre quotidien, pas dans les labos ou sur les benchmarks. À nous de faire en sorte qu’elle soit positive et utile pour tous.