Les modèles d’intelligence artificielle générative comme GPT-4 et Gemma sont en train de révolutionner de nombreux domaines. Cependant, malgré leurs prouesses impressionnantes, ces systèmes font face à certaines limites inhérentes à leur fonctionnement interne, en particulier en ce qui concerne leur utilisation des tokens pour traiter le texte.
Qu’est-ce que la tokénisation ?
La plupart des modèles génératifs actuels reposent sur une architecture appelée Transformer. Pour pouvoir ingérer et générer du texte, ces modèles ne travaillent pas directement avec les mots, mais avec des unités plus petites appelées tokens. Un token peut être un mot entier, une partie de mot, voire un simple caractère. Ce découpage du texte en tokens, appelé tokénisation, permet aux modèles de traiter plus d’informations avec les ressources de calcul disponibles.
Les biais introduits par la tokénisation
Bien que nécessaire techniquement, la tokénisation peut introduire des biais dans le fonctionnement des modèles génératifs :
- Les espaces et la casse peuvent changer complètement le sens d’une phrase pour le modèle, là où un humain comprendrait facilement.
- De nombreux tokéniseurs étant conçus pour l’anglais, ils peinent à traiter correctement les langues n’utilisant pas d’espaces entre les mots, comme le chinois ou le japonais.
- Les chiffres et symboles sont souvent mal gérés, expliquant les difficultés des IA en mathématiques.
« Il est difficile de définir exactement ce que devrait être un ‘mot’ pour un modèle de langage. Même avec un vocabulaire de tokens parfait défini par des experts, les modèles auraient probablement encore besoin de découper les choses. »
– Sheridan Feucht, chercheuse IA
Vers de nouvelles architectures sans tokénisation ?
Pour surmonter ces limites, certains chercheurs explorent des architectures alternatives qui se passent complètement de tokénisation. C’est le cas des modèles « byte-level » comme MambaByte, capables d’ingérer directement les données brutes. Bien que prometteurs, ces nouveaux modèles n’en sont encore qu’au stade de la recherche.
En attendant de telles avancées, comprendre le fonctionnement interne de nos IA génératives actuelles et les biais qui en découlent reste essentiel. Cela permettra de mieux cerner leurs limites et d’interpréter leurs résultats avec un regard critique. Les tokens sont un rouage clé du traitement du langage par les machines, dont les failles éclairent les défis qui restent à relever sur le chemin d’une IA réellement « intelligente ».