Imaginez un examen si difficile que même les systèmes d’intelligence artificielle les plus avancés peinent à obtenir une note supérieure à 10 sur 100. C’est exactement le défi que propose « Humanity’s Last Exam », un nouveau benchmark développé par le Center for AI Safety (CAIS) et Scale AI pour évaluer les capacités des IA de pointe.
Un examen multidisciplinaire d’une complexité inédite
Ce qui rend « Humanity’s Last Exam » unique, c’est son approche globale et la diversité des sujets abordés. L’examen comprend des milliers de questions crowdsourcées couvrant des domaines aussi variés que les mathématiques, les sciences humaines et les sciences naturelles.
Mais la difficulté ne s’arrête pas là. Les questions sont présentées sous de multiples formats, intégrant même des diagrammes et des images. Cette approche vise à pousser les systèmes d’IA dans leurs retranchements en les confrontant à des problèmes complexes et nuancés, bien loin des benchmarks classiques.
Des résultats préliminaires peu encourageants
Une étude préliminaire menée par CAIS et Scale AI a révélé qu’aucun des principaux systèmes d’IA publiquement disponibles n’a réussi à obtenir un score supérieur à 10% à « Humanity’s Last Exam ». Ces résultats soulignent les limites actuelles des IA, même les plus avancées, face à des questions complexes nécessitant une compréhension profonde et multidisciplinaire.
- Les IA testées n’ont pas dépassé les 10% de réussite
- L’examen met en lumière les lacunes des systèmes actuels
- De nouveaux progrès sont nécessaires pour relever ce défi
Un appel à la communauté de recherche en IA
Face à ce constat, CAIS et Scale AI ont décidé d’ouvrir « Humanity’s Last Exam » à la communauté de recherche en IA. L’objectif est de permettre aux chercheurs d’approfondir leur analyse des variations de performances et d’évaluer de nouveaux modèles d’IA face à ce benchmark exigeant.
Nous espérons que « Humanity’s Last Exam » deviendra un outil précieux pour guider les progrès futurs de l’IA et nous rapprocher de systèmes capables de traiter des problèmes complexes de manière truly intelligente.
– Les équipes de CAIS et Scale AI
En définitive, « Humanity’s Last Exam » pose un nouveau jalon dans l’évaluation des capacités de l’IA. Il met en lumière le chemin qu’il reste à parcourir pour développer des systèmes capables de rivaliser avec l’intelligence humaine dans toute sa richesse et sa complexité. Un défi passionnant pour la communauté de l’IA, dont les avancées façonneront notre futur.