DeepMind crée Genie 2, un modèle générant des mondes interactifs en 3D

MondeTech.fr04/12/2024

DeepMind, la division de recherche en intelligence artificielle de Google, vient de franchir une nouvelle étape impressionnante. Les chercheurs ont dévoilé Genie 2, un modèle d’IA sophistiqué capable de générer une variété infinie de mondes 3D interactifs et jouables à partir d’une simple image et description textuelle.

Imaginez que vous donniez comme instruction à Genie 2 : « Un mignon robot humanoïde dans les bois ». En un clin d’œil, le modèle peut créer un environnement 3D riche et détaillé correspondant parfaitement à cette description. Mieux encore, vous pouvez explorer et interagir avec ce monde virtuel généré en utilisant simplement votre souris et votre clavier !

Une avancée majeure pour la création de contenu 3D

La puissance de Genie 2 réside dans sa capacité à simuler une grande variété d’éléments essentiels pour rendre un monde virtuel crédible et immersif :

Interactions entre objets
Animations fluides
Effets de lumière et réflexions réalistes
Physique réaliste des éléments
Comportements des personnages non-joueurs (PNJ)

Entraîné sur une vaste quantité de vidéos, Genie 2 est capable de générer des mondes d’une qualité visuelle impressionnante, s’approchant de celle des jeux vidéo AAA. Les implications pour l’industrie du jeu et au-delà sont énormes, ouvrant la voie à une démocratisation sans précédent de la création de contenu 3D.

Un outil révolutionnaire pour les créateurs et chercheurs

Au-delà du divertissement, DeepMind positionne Genie 2 comme un formidable outil pour prototyper rapidement des expériences interactives et évaluer des agents d’IA. Grâce à ses capacités de généralisation hors distribution, même des croquis ou des concepts arts peuvent être transformés en environnements totalement interactifs.

En utilisant Genie 2 pour créer rapidement des environnements riches et variés pour les agents d’IA, nos chercheurs peuvent générer des tâches d’évaluation que les agents n’ont pas vues pendant l’entraînement.
DeepMind, via leur blog

Bien qu’encore à un stade précoce, DeepMind est convaincu que Genie 2 sera un élément clé dans le développement des agents d’IA du futur. En permettant de tester leurs capacités dans une infinité de situations inédites, le modèle ouvre de nouvelles perspectives passionnantes pour la recherche.

Des questions en suspens sur la propriété intellectuelle

Si les prouesses techniques de Genie 2 sont indéniables, certaines interrogations demeurent quant aux données utilisées pour son entraînement. DeepMind reste très discret sur ses méthodes d’approvisionnement en données, probablement pour des raisons de compétitivité.

Étant une filiale de Google, DeepMind a un accès illimité à YouTube. Les conditions d’utilisation du site laissent entendre que Google peut utiliser les vidéos à des fins d’entraînement de modèles. Mais Genie 2 ne crée-t-il pas fondamentalement des copies non autorisées des jeux vidéo qu’il a « regardés » ? C’est aux tribunaux d’en décider.

Un avenir prometteur pour les mondes virtuels générés par IA

Malgré ces zones d’ombre juridiques, une chose est sûre : Genie 2 repousse les limites de ce que l’IA peut accomplir en termes de génération de contenu 3D interactif. Avec sa capacité à produire des mondes cohérents et détaillés à partir de simples suggestions textuelles et visuelles, le modèle de DeepMind ouvre un nouveau chapitre fascinant pour la création assistée par IA.

Bien sûr, les mondes générés par Genie 2 ne sont pas encore parfaits. Leur durée de vie limitée à quelques dizaines de secondes les rend plus adaptés à la recherche et au prototypage qu’à une expérience de jeu complète. Mais nul doute que ce n’est qu’une question de temps avant que ces limitations ne soient surmontées.

L’avenir dira si Genie 2 tiendra ses promesses et révolutionnera la façon dont nous créons et interagissons avec les univers virtuels. Une chose est sûre : avec cette avancée impressionnante, DeepMind confirme une nouvelle fois son statut de leader dans le domaine de l’IA générative appliquée à la 3D.