Alors que l’intelligence artificielle continue de repousser les limites, la question de l’évaluation de ses capacités devient de plus en plus pressante. Traditionnellement, les benchmarks utilisés pour tester les modèles d’IA se concentrent sur des tâches spécifiques et souvent abstraites. Cependant, certains chercheurs et enthousiastes de l’IA se tournent désormais vers une approche plus ludique et immersive : les jeux.
Pictionary : Un Benchmark Créatif pour les Modèles de Langage
Paul Calcraft, un développeur IA freelance, a créé une application où deux modèles d’IA peuvent jouer l’un contre l’autre à un jeu similaire au Pictionary. Un modèle génère des gribouillis tandis que l’autre tente de deviner ce qu’ils représentent. L’objectif est de tester la compréhension des concepts visuels comme les formes, les couleurs et les prépositions par les modèles de langage.
L’idée est d’avoir un benchmark qui ne peut pas être truqué, qui ne peut pas être battu en mémorisant des réponses spécifiques ou des modèles simples vus pendant l’entraînement.
– Paul Calcraft, développeur IA freelance
Bien que Calcraft ne considère pas Pictionary comme un test fiable du raisonnement, il souligne que gagner nécessite de la stratégie et la capacité de comprendre les indices, deux éléments difficiles pour les modèles d’IA.
Minecraft : Un Bac à Sable pour l’IA
De son côté, Adonis Singh, un jeune de 16 ans, a développé Mcbench, un outil donnant le contrôle d’un personnage Minecraft à un modèle d’IA. Le but est de tester ses capacités à concevoir des structures dans cet environnement procédural et imprévisible. Pour Singh, Minecraft permet d’évaluer la débrouillardise des modèles et leur donne plus d’autonomie que les benchmarks traditionnels.
Je crois que Minecraft teste les modèles sur leur ingéniosité et leur donne plus d’autonomie. C’est beaucoup moins restreint et saturé que les autres benchmarks.
– Adonis Singh, créateur de Mcbench
Les grands modèles de langage (LLM) actuels ont chacun leur « personnalité » et réagissent différemment d’une interaction à l’autre, un phénomène difficile à quantifier avec des benchmarks textuels. Les jeux offrent une façon visuelle et intuitive de comparer leurs performances et comportements.
Des Limites à Prendre en Compte
Cependant, tous les chercheurs ne sont pas convaincus de la pertinence de ces nouveaux benchmarks ludiques. Mike Cook, chercheur à l’Université Queen Mary, ne pense pas que Minecraft soit particulièrement spécial comme banc d’essai pour l’IA. Selon lui, l’intérêt pour ce jeu vient surtout de personnes extérieures au domaine qui pensent, à tort, que sa ressemblance avec le monde réel implique un lien plus étroit avec le raisonnement ou l’action dans la réalité.
D’un point de vue résolution de problèmes, Minecraft n’est pas si différent d’un jeu vidéo comme Fortnite, Stardew Valley ou World of Warcraft. C’est juste un habillage différent qui le fait ressembler à un ensemble de tâches quotidiennes comme construire des choses ou explorer.
– Mike Cook, chercheur à l’Université Queen Mary
De plus, même les meilleurs systèmes d’IA spécialisés dans les jeux ont généralement du mal à s’adapter à de nouveaux environnements et à résoudre des problèmes inédits. Il est peu probable qu’un modèle excellant à Minecraft puisse jouer à Doom avec talent.
Vers une Approche Complémentaire
Malgré ces limites, l’utilisation de jeux comme benchmarks pour l’IA apporte un regard nouveau et complémentaire sur l’évaluation de ces technologies. En offrant des environnements interactifs, créatifs et imprévisibles, ils permettent de tester des capacités difficilement mesurables avec les méthodes traditionnelles. L’avenir nous dira si cette approche ludique s’imposera comme un standard ou restera une curiosité dans le vaste champ de l’intelligence artificielle.
- Les jeux émergent comme de nouveaux benchmarks pour tester les capacités de raisonnement et de résolution de problèmes des IA
- Pictionary permet d’évaluer la compréhension des concepts visuels par les modèles de langage
- Minecraft offre un bac à sable procédural et imprévisible pour tester l’ingéniosité des IA
- Certains chercheurs doutent de la pertinence de ces benchmarks ludiques et de leur lien avec le monde réel
- Malgré leurs limites, les jeux apportent un regard complémentaire sur l’évaluation des IA