Imaginez un modèle d’IA capable de traiter des milliards de données, des mots aux vidéos, sans consommer une quantité astronomique d’énergie. C’est la promesse des modèles TTT (Test-Time Training), une architecture innovante développée par des chercheurs de Stanford, UC San Diego, UC Berkeley et Meta. Pourraient-ils sonner le glas des transformateurs, omniprésents dans l’IA générative actuelle ?
Les limites des transformateurs
Les transformateurs, au cœur des modèles comme GPT-4 ou Claude, reposent sur un « état caché » qui grandit à mesure que le modèle traite des données. Cette mémoire, comparable au cerveau d’une entité intelligente, permet l’apprentissage contextuel. Mais elle a un coût : pour générer ne serait-ce qu’un mot sur un livre lu, le transformateur doit scanner l’intégralité de sa mémoire, une opération aussi gourmande en calculs que de relire le livre en entier !
L’astuce des modèles TTT
L’idée des chercheurs ? Remplacer l’état caché par un modèle d’apprentissage automatique emboîté, tel des poupées russes d’IA. Contrairement à la mémoire des transformateurs, ce sous-modèle n’enfle pas à mesure qu’il ingère des données. Il les encode en variables représentatives appelées poids, ce qui rend les modèles TTT ultra-performants. Quelle que soit la quantité de données traitées, la taille du sous-modèle reste constante.
Notre système peut commenter un livre sans avoir à le relire autant de fois qu’il y a de mots dans le commentaire.
– Yu Sun, post-doctorant à Stanford et co-contributeur de la recherche sur les TTT
À terme, les modèles TTT pourraient traiter efficacement des milliards de mots, d’images, d’enregistrements audio ou de vidéos. Bien au-delà des capacités actuelles, comme les 10 secondes de vidéo des modèles transformateurs Sora.
Un avenir encore incertain
Malgré ces promesses, il est trop tôt pour prédire le succès des modèles TTT. Ils ne sont pas un remplacement direct des transformateurs et seuls deux petits modèles ont été développés pour l’étude, rendant la comparaison avec les transformateurs à grande échelle difficile. Mais la quête d’alternatives plus efficaces s’accélère, comme en témoignent les travaux sur les modèles d’état-espace (SSM) menés par Mistral, AI21 Labs ou Cartesia.
Si ces efforts portent leurs fruits, l’IA générative pourrait devenir encore plus accessible et répandue qu’aujourd’hui. Avec toutes les opportunités et les défis éthiques que cela implique. Une chose est sûre : la course à l’architecture d’IA ultime ne fait que commencer !