L’IA Repousse les Limites en Faisant Rebondir des Balles dans des Formes Rotatives

Imaginez un monde où les intelligences artificielles s’affrontent dans une compétition insolite : faire rebondir des balles dans des formes géométriques en rotation. Aussi étrange que cela puisse paraître, c’est devenu le nouveau terrain de jeu pour tester les capacités des modèles d’IA les plus avancés. Bienvenue dans l’ère des benchmarks créatifs !

Une communauté IA obsédée par les balles rebondissantes

Ces derniers jours, la communauté IA sur Twitter s’est enflammée autour d’un défi d’apparence simple : demander à différents modèles d’IA, en particulier ceux spécialisés dans le raisonnement, de générer un script Python permettant de simuler une balle jaune rebondissant à l’intérieur d’une forme en rotation lente, tout en s’assurant que la balle reste bien à l’intérieur. Un problème de physique et de programmation qui met à l’épreuve les capacités des IA.

DeepSeek R1 surpasse OpenAI o1 et ChatGPT

Les résultats sont pour le moins surprenants. Selon un utilisateur de Twitter, le modèle gratuit R1 du laboratoire chinois DeepSeek a largement surpassé o1 Pro d’OpenAI, pourtant facturé 200$ par mois dans le cadre de l’abonnement ChatGPT Pro. Anthropic Claude 3.5 Sonnet et Google Gemini 1.5 Pro ont quant à eux eu du mal à gérer correctement la physique, laissant la balle s’échapper de la forme. A l’inverse, les modèles Gemini 2.0 Flash Thinking Experimental de Google et GPT-4o d’OpenAI, pourtant plus ancien, ont réussi le test haut la main.

Un défi de programmation classique mais complexe

Simuler une balle rebondissante est en réalité un défi de programmation classique. Pour être précises, les simulations doivent intégrer des algorithmes de détection de collision pour identifier quand deux objets (comme une balle et le côté d’une forme) entrent en contact. Des algorithmes mal écrits peuvent affecter les performances de la simulation ou conduire à des erreurs de physique flagrantes.

Selon l’utilisateur Twitter n8programs, chercheur en résidence chez la startup d’IA Nous Research, programmer une balle rebondissante dans un heptagone en rotation lui a pris environ deux heures. Il faut en effet :

  • Suivre plusieurs systèmes de coordonnées
  • Gérer les collisions dans chaque système
  • Concevoir un code robuste dès le départ

Le casse-tête des benchmarks IA significatifs

Si les balles rebondissantes sont un bon test des compétences en programmation, elles ne constituent pas pour autant un benchmark IA très empirique. De légères variations dans l’énoncé peuvent en effet donner des résultats différents. C’est pourquoi certains ont plus de succès avec o1, tandis que d’autres trouvent que R1 est à la traîne.

Ces tests viraux mettent surtout en lumière la difficulté de créer des systèmes de mesure pertinents pour les modèles d’IA. Il est souvent complexe de distinguer un modèle d’un autre, en dehors de benchmarks ésotériques sans intérêt pour la plupart des gens.

Vers de meilleurs tests pour l’IA

De nombreux efforts sont en cours pour construire de meilleurs tests, comme les benchmarks ARC-AGI ou Humanity’s Last Exam. Reste à voir ce qu’ils donneront. En attendant, on peut toujours s’amuser à regarder des GIFs de balles rebondissant dans des formes en rotation !

Des benchmarks créatifs émergent pour tester les limites des IA, comme la simulation de balles rebondissantes dans des formes en rotation. Un défi complexe de physique et de programmation qui met en lumière les différences entre les modèles.

L’IA ne cesse de progresser et de nous surprendre, repoussant toujours plus loin les frontières du possible. Ces benchmarks insolites en sont la parfaite illustration. Ils nous rappellent que l’intelligence artificielle est une technologie en constante évolution, dont les capacités ne cessent de s’accroître. Un domaine passionnant à suivre de près pour tous ceux qui s’intéressent au futur de la tech et de l’innovation.

À lire également