Dans le monde en constante évolution de l’intelligence artificielle (IA), la quête pour atteindre l’intelligence générale artificielle (AGI) – une IA capable de réussir n’importe quelle tâche intellectuelle qu’un être humain peut accomplir – est un objectif majeur. Un benchmark bien connu pour mesurer les progrès vers cet objectif, nommé ARC-AGI (Abstract and Reasoning Corpus for Artificial General Intelligence), semble se rapprocher d’une solution. Cependant, les créateurs de ce test affirment que cela met en évidence des failles dans sa conception plutôt qu’une véritable percée dans la recherche.
Qu’est-ce que le benchmark ARC-AGI ?
Introduit en 2019 par Francois Chollet, une figure de proue du monde de l’IA, ARC-AGI a pour but d’évaluer si un système d’IA peut efficacement acquérir de nouvelles compétences en dehors des données sur lesquelles il a été entraîné. Selon Chollet, il s’agit du seul test d’IA mesurant vraiment les progrès vers une intelligence générale.
ARC-AGI consiste en une série de problèmes ressemblant à des puzzles, où une IA doit, à partir d’une grille de carrés de différentes couleurs, générer la grille « réponse » correcte. Ces problèmes ont été conçus pour forcer une IA à s’adapter à de nouvelles situations qu’elle n’a jamais rencontrées auparavant.
Des progrès significatifs, mais sont-ils réels ?
Jusqu’à cette année, la meilleure IA ne pouvait résoudre qu’un peu moins d’un tiers des tâches d’ARC-AGI. Chollet en attribuait la cause à la focalisation de l’industrie sur les grands modèles de langage (LLM), qu’il ne croit pas capables d’un véritable « raisonnement ».
Les LLM ont du mal avec la généralisation, car ils dépendent entièrement de la mémorisation. Ils échouent sur tout ce qui n’était pas dans leurs données d’entraînement.
– Francois Chollet
Pourtant, lors d’une récente compétition dotée d’un prix d’un million de dollars pour construire une IA open source capable de battre ARC-AGI, la meilleure soumission a obtenu un score de 55,5% – environ 20% de plus que le meilleur score de 2023. Mais cela ne signifie pas que nous sommes 20% plus proches de l’AGI, selon Mike Knoop, co-organisateur de la compétition.
Des failles dans la conception du benchmark
Knoop a déclaré que de nombreuses soumissions à ARC-AGI ont pu « forcer le passage » vers une solution, suggérant qu’une « grande partie » des tâches d’ARC-AGI « ne portent pas beaucoup de signal utile vers l’intelligence générale ».
Chollet et Knoop ont également dû faire face à des critiques les accusant de survendre ARC-AGI comme un benchmark vers l’AGI – à un moment où la définition même de l’AGI est vivement contestée. Un membre du personnel d’OpenAI a récemment affirmé que l’AGI a « déjà » été atteint si on définit l’AGI comme une IA « meilleure que la plupart des humains dans la plupart des tâches ».
Vers une nouvelle génération de benchmarks AGI
Pour répondre à ces problèmes, Knoop et Chollet prévoient de publier une deuxième génération du benchmark ARC-AGI, ainsi qu’une nouvelle compétition en 2025. Leur objectif est de continuer à diriger les efforts de la communauté de recherche vers ce qu’ils considèrent comme les problèmes non résolus les plus importants en IA, et d’accélérer la chronologie vers l’AGI.
Cependant, si les lacunes du premier test ARC-AGI sont une indication, définir l’intelligence pour l’IA sera probablement aussi difficile – et inflammatoire – que cela l’a été pour les êtres humains. La course vers l’AGI est loin d’être terminée, et les benchmarks qui cherchent à en mesurer les progrès devront continuer à évoluer et s’adapter au fur et à mesure que notre compréhension de l’intelligence artificielle s’approfondit.
- Les benchmarks AGI actuels présentent des failles de conception
- Définir l’intelligence pour l’IA est un défi complexe
- La course vers l’AGI nécessite des benchmarks en constante évolution