Imaginez un instant que vous puissiez créer un monde virtuel entier, vibrant et interactif, en un clin d’œil. C’est la promesse alléchante des modèles mondiaux d’IA, une avancée technologique qui pourrait révolutionner des domaines allant des jeux vidéo à la robotique en passant par la prise de décision automatisée. Mais qu’est-ce exactement que ces fameux « modèles mondiaux » et pourquoi suscitent-ils un tel engouement ?
S’inspirer du cerveau humain
Les modèles mondiaux d’IA s’inspirent des modèles mentaux du monde que les humains développent naturellement. Notre cerveau traite les informations abstraites de nos sens pour former une compréhension concrète de notre environnement. C’est ce qu’on appelle des « modèles », bien avant que l’IA n’adopte ce terme. Les prédictions faites par notre cerveau sur la base de ces modèles influencent notre perception du monde.
Prenons l’exemple d’un batteur de baseball. Il n’a que quelques millisecondes pour décider comment frapper la balle, un temps plus court que celui nécessaire aux signaux visuels pour atteindre son cerveau. S’il parvient malgré tout à frapper une balle lancée à 160 km/h, c’est parce qu’il peut instinctivement prédire sa trajectoire grâce à ses modèles internes.
Pour les joueurs professionnels, tout cela se passe de manière subconsciente. Leurs muscles frappent reflexivement la balle au bon moment et au bon endroit, en accord avec les prédictions de leurs modèles internes. Ils peuvent agir rapidement sur base de leurs prédictions du futur sans devoir consciemment imaginer les scénarios possibles pour former un plan.
– David Ha et Jürgen Schmidhuber, chercheurs en IA
Ce sont ces aspects de raisonnement subconscient des modèles mondiaux qui, selon certains, sont des prérequis à une intelligence de niveau humain.
Modéliser le monde pour générer des vidéos plus réalistes
Si le concept existe depuis des décennies, les modèles mondiaux ont récemment gagné en popularité notamment grâce à leurs applications prometteuses dans le domaine de la génération vidéo. La plupart des vidéos générées par IA souffrent en effet d’un manque de réalisme, avec des aberrations comme des membres qui se tordent et fusionnent.
Un modèle génératif entraîné sur des années de vidéos pourra certes prédire de manière réaliste le rebond d’un ballon de basket, mais sans vraiment comprendre pourquoi, tout comme les modèles de langage ne saisissent pas les concepts derrière les mots. À l’inverse, un modèle mondial ayant ne serait-ce qu’une compréhension basique des lois physiques pourra bien mieux restituer ce type de scènes.
Pour acquérir ce type de connaissances, les modèles mondiaux sont entraînés sur une large gamme de données : photos, sons, vidéos, textes… L’objectif est de créer des représentations internes du fonctionnement du monde, ainsi que la capacité à raisonner sur les conséquences des actions.
Vers des agents IA plus autonomes
Mais la génération vidéo n’est que la partie émergée de l’iceberg. Des chercheurs comme Yann LeCun, directeur scientifique IA de Meta, estiment que les modèles mondiaux pourraient un jour être utilisés pour des tâches sophistiquées de prévision et de planification, tant dans le monde numérique que physique.
Yann LeCun décrit comment un modèle mondial pourrait, en raisonnant, aider à atteindre un objectif donné. Avec une représentation de base d’un « monde » (par ex. une vidéo d’une pièce en désordre) et un but (ranger la pièce), le modèle pourrait définir une séquence d’actions pour y parvenir (passer l’aspirateur, faire la vaisselle, vider les poubelles…) non pas parce qu’il a observé ce schéma mais parce qu’il comprend à un niveau plus profond comment passer du désordre à la propreté.
Nous avons besoin de machines qui comprennent le monde, qui peuvent se souvenir des choses, qui ont de l’intuition, du bon sens, qui peuvent raisonner et planifier au même niveau que les humains. Malgré ce que vous avez pu entendre des personnes les plus enthousiastes, les systèmes d’IA actuels ne sont capables de rien de tout cela.
– Yann LeCun, directeur scientifique IA chez Meta
Si LeCun estime que nous sommes encore à au moins une décennie des modèles mondiaux tels qu’il les envisage, les modèles actuels montrent déjà des résultats prometteurs en tant que simulateurs physiques élémentaires.
Créer des mondes virtuels à la demande
Les futurs modèles mondiaux pourraient être capables de générer des mondes 3D à la demande pour les jeux vidéo, la photographie virtuelle, etc. Comme l’explique Justin Johnson, co-fondateur de World Labs :
Nous avons déjà la capacité de créer des mondes virtuels interactifs, mais cela coûte des centaines de millions de dollars et énormément de temps de développement. Les modèles mondiaux vous permettront d’obtenir non pas juste une image ou un clip, mais un monde 3D entièrement simulé, vibrant et interactif.
Des défis techniques de taille
Malgré ces perspectives enthousiasmantes, de nombreux défis techniques restent à relever. L’entraînement et l’exécution des modèles mondiaux nécessitent une puissance de calcul massive, encore plus que celle utilisée actuellement par les modèles génératifs. Là où certains grands modèles de langage peuvent tourner sur un smartphone moderne, un modèle comme Sora d’OpenAI demanderait des milliers de GPU pour être entraîné et exécuté.
Comme tous les modèles d’IA, les modèles mondiaux peuvent aussi « halluciner » et intégrer les biais présents dans leurs données d’entraînement. Un modèle entraîné principalement sur des vidéos de beau temps dans des villes européennes pourrait ainsi avoir du mal à comprendre ou à représenter des villes coréennes sous la neige.
Le manque général de données d’entraînement menace d’exacerber ces problèmes, souligne Alex Mashrabov, ex-directeur de l’IA chez Snap. Les données doivent être suffisamment larges pour couvrir un ensemble varié de scénarios, mais aussi très spécifiques pour que l’IA puisse en saisir les nuances.
Mieux connecter l’IA au monde réel
Mais si tous ces obstacles sont surmontés, Alex Mashrabov estime que les modèles mondiaux pourraient faire le lien « de manière plus robuste » entre l’IA et le monde réel, conduisant à des avancées majeures non seulement en génération de mondes virtuels mais aussi en robotique et dans la prise de décision des IA.
Ils pourraient notamment donner naissance à des robots plus capables. Aujourd’hui, les robots sont limités dans leurs actions car ils n’ont pas conscience du monde qui les entoure, ni même de leur propre corps. Les modèles mondiaux pourraient leur fournir cette conscience, du moins jusqu’à un certain point.
Avec un modèle mondial avancé, une IA pourrait développer une compréhension personnelle du scénario dans lequel elle est placée et commencer à réfléchir à des solutions possibles.
– Alex Mashrabov, ex-directeur de l’IA chez Snap
En résumé, les modèles mondiaux d’IA représentent un changement de paradigme dans notre façon de concevoir l’intelligence artificielle. En s’inspirant du fonctionnement du cerveau humain, ils ouvrent la voie à des agents IA plus autonomes, capables de raisonner et de planifier dans des environnements complexes.
Des progrès restent à faire, notamment en termes de puissance de calcul et de quantité/qualité des données d’entraînement. Mais les premières applications dans des domaines comme la génération vidéo ou la robotique laissent entrevoir le potentiel révolutionnaire de cette technologie. Nul doute que nous entendrons de plus en plus parler des modèles mondiaux dans les années à venir !
Un modèle génératif entraîné sur des années de vidéos pourra certes prédire de manière réaliste le rebond d’un ballon de basket, mais sans vraiment comprendre pourquoi, tout comme les modèles de langage ne saisissent pas les concepts derrière les mots. À l’inverse, un modèle mondial ayant ne serait-ce qu’une compréhension basique des lois physiques pourra bien mieux restituer ce type de scènes.
Pour acquérir ce type de connaissances, les modèles mondiaux sont entraînés sur une large gamme de données : photos, sons, vidéos, textes… L’objectif est de créer des représentations internes du fonctionnement du monde, ainsi que la capacité à raisonner sur les conséquences des actions.
Vers des agents IA plus autonomes
Mais la génération vidéo n’est que la partie émergée de l’iceberg. Des chercheurs comme Yann LeCun, directeur scientifique IA de Meta, estiment que les modèles mondiaux pourraient un jour être utilisés pour des tâches sophistiquées de prévision et de planification, tant dans le monde numérique que physique.
Yann LeCun décrit comment un modèle mondial pourrait, en raisonnant, aider à atteindre un objectif donné. Avec une représentation de base d’un « monde » (par ex. une vidéo d’une pièce en désordre) et un but (ranger la pièce), le modèle pourrait définir une séquence d’actions pour y parvenir (passer l’aspirateur, faire la vaisselle, vider les poubelles…) non pas parce qu’il a observé ce schéma mais parce qu’il comprend à un niveau plus profond comment passer du désordre à la propreté.
Nous avons besoin de machines qui comprennent le monde, qui peuvent se souvenir des choses, qui ont de l’intuition, du bon sens, qui peuvent raisonner et planifier au même niveau que les humains. Malgré ce que vous avez pu entendre des personnes les plus enthousiastes, les systèmes d’IA actuels ne sont capables de rien de tout cela.
– Yann LeCun, directeur scientifique IA chez Meta
Si LeCun estime que nous sommes encore à au moins une décennie des modèles mondiaux tels qu’il les envisage, les modèles actuels montrent déjà des résultats prometteurs en tant que simulateurs physiques élémentaires.
Créer des mondes virtuels à la demande
Les futurs modèles mondiaux pourraient être capables de générer des mondes 3D à la demande pour les jeux vidéo, la photographie virtuelle, etc. Comme l’explique Justin Johnson, co-fondateur de World Labs :
Nous avons déjà la capacité de créer des mondes virtuels interactifs, mais cela coûte des centaines de millions de dollars et énormément de temps de développement. Les modèles mondiaux vous permettront d’obtenir non pas juste une image ou un clip, mais un monde 3D entièrement simulé, vibrant et interactif.
Des défis techniques de taille
Malgré ces perspectives enthousiasmantes, de nombreux défis techniques restent à relever. L’entraînement et l’exécution des modèles mondiaux nécessitent une puissance de calcul massive, encore plus que celle utilisée actuellement par les modèles génératifs. Là où certains grands modèles de langage peuvent tourner sur un smartphone moderne, un modèle comme Sora d’OpenAI demanderait des milliers de GPU pour être entraîné et exécuté.
Comme tous les modèles d’IA, les modèles mondiaux peuvent aussi « halluciner » et intégrer les biais présents dans leurs données d’entraînement. Un modèle entraîné principalement sur des vidéos de beau temps dans des villes européennes pourrait ainsi avoir du mal à comprendre ou à représenter des villes coréennes sous la neige.
Le manque général de données d’entraînement menace d’exacerber ces problèmes, souligne Alex Mashrabov, ex-directeur de l’IA chez Snap. Les données doivent être suffisamment larges pour couvrir un ensemble varié de scénarios, mais aussi très spécifiques pour que l’IA puisse en saisir les nuances.
Mieux connecter l’IA au monde réel
Mais si tous ces obstacles sont surmontés, Alex Mashrabov estime que les modèles mondiaux pourraient faire le lien « de manière plus robuste » entre l’IA et le monde réel, conduisant à des avancées majeures non seulement en génération de mondes virtuels mais aussi en robotique et dans la prise de décision des IA.
Ils pourraient notamment donner naissance à des robots plus capables. Aujourd’hui, les robots sont limités dans leurs actions car ils n’ont pas conscience du monde qui les entoure, ni même de leur propre corps. Les modèles mondiaux pourraient leur fournir cette conscience, du moins jusqu’à un certain point.
Avec un modèle mondial avancé, une IA pourrait développer une compréhension personnelle du scénario dans lequel elle est placée et commencer à réfléchir à des solutions possibles.
– Alex Mashrabov, ex-directeur de l’IA chez Snap
En résumé, les modèles mondiaux d’IA représentent un changement de paradigme dans notre façon de concevoir l’intelligence artificielle. En s’inspirant du fonctionnement du cerveau humain, ils ouvrent la voie à des agents IA plus autonomes, capables de raisonner et de planifier dans des environnements complexes.
Des progrès restent à faire, notamment en termes de puissance de calcul et de quantité/qualité des données d’entraînement. Mais les premières applications dans des domaines comme la génération vidéo ou la robotique laissent entrevoir le potentiel révolutionnaire de cette technologie. Nul doute que nous entendrons de plus en plus parler des modèles mondiaux dans les années à venir !