Peut-on vraiment mesurer l’intelligence artificielle ? C’est le défi que tentent de relever des chercheurs avec un nouveau type de benchmark plutôt original : les énigmes proposées chaque dimanche dans l’émission radiophonique américaine NPR Sunday Puzzle. En utilisant ces casse-têtes conçus pour les humains, ils espèrent mieux cerner les capacités et limites de raisonnement des IA les plus avancées.
Un benchmark accessible et parlant
L’avantage des énigmes du Sunday Puzzle, expliquent les chercheurs, c’est qu’elles ne nécessitent pas de connaissances très poussées mais sont formulées de façon à empêcher les IA d’utiliser simplement leur « mémoire ». Elles constituent donc un test intéressant de leurs capacités de raisonnement et de résolution de problèmes.
Nous voulions développer un benchmark avec des problèmes que les humains peuvent comprendre en utilisant seulement leur culture générale.
– Arjun Guha, co-auteur de l’étude
De plus, contrairement à beaucoup de benchmarks qui deviennent vite obsolètes, de nouvelles énigmes sont diffusées chaque semaine, permettant de suivre les progrès des IA dans le temps. Même si le Sunday Puzzle reste centré sur les États-Unis et la langue anglaise.
Les modèles de raisonnement en tête
Sur un ensemble de 600 énigmes du Sunday Puzzle, ce sont les modèles d’IA dits « de raisonnement » comme o1 d’OpenAI ou R1 de DeepSeek qui obtiennent les meilleurs scores, loin devant les autres. Leur point fort : une capacité à vérifier en profondeur leurs réponses avant de les donner. Même s’ils mettent plus de temps à aboutir à une solution.
- o1 d’OpenAI : 59% de réussite
- o3-mini d’OpenAI (en mode « efforts de raisonnement élevés ») : 47%
- R1 de DeepSeek : 35%
Quand l’IA s’avoue vaincue ou divague
Mais les chercheurs ont aussi observé des comportements étranges chez ces IA face aux énigmes les plus corsées. Certains modèles comme R1 vont littéralement dire « j’abandonne » avant de donner une réponse qu’ils savent incorrecte. Ou bien proposer une solution puis immédiatement la rétracter, chercher à en élaborer une meilleure, échouer à nouveau…
Sur les problèmes difficiles, R1 dit littéralement qu’il est en train de devenir « frustré ». C’était amusant de voir comment un modèle émule ce qu’un humain pourrait dire.
– Arjun Guha
D’autres modèles vont rester bloqués à « réfléchir » indéfiniment, fournir des explications absurdes à leurs réponses, ou trouver la bonne solution d’emblée mais continuer ensuite à envisager des alternatives sans raison apparente.
Mieux comprendre les IA de demain
Au-delà de l’exercice ludique, l’objectif est bien d’identifier les forces et faiblesses des IA de raisonnement pour mieux les améliorer. Les chercheurs comptent élargir leurs tests à d’autres modèles et affiner leur benchmark.
Alors que les modèles les plus avancés sont de plus en plus déployés dans des contextes qui affectent tout le monde, nous pensons que tout le monde devrait pouvoir intuiter ce dont ces modèles sont – et ne sont pas – capables.
– Arjun Guha
Un enjeu crucial à l’heure où les IA s’apprêtent à bouleverser de nombreux secteurs de notre société. Mieux les comprendre, c’est la clé pour mieux les utiliser et les encadrer.