L’intelligence artificielle (IA) est en constante évolution, et les entreprises cherchent sans cesse de nouvelles façons d’optimiser leurs modèles pour les rendre plus efficaces et moins coûteux à exécuter. Cependant, une étude récente menée par des chercheurs de Harvard, Stanford, MIT, Databricks et Carnegie Mellon suggère que l’une des techniques les plus largement utilisées, la quantization, pourrait avoir des limites – et l’industrie pourrait rapidement les atteindre.
Qu’est-ce que la quantization ?
La quantization, dans le contexte de l’IA, fait référence à la réduction du nombre de bits nécessaires pour représenter l’information dans un modèle. Les bits sont les plus petites unités qu’un ordinateur peut traiter. En réduisant le nombre de bits, on réduit la précision mathématique, mais on rend le modèle moins exigeant en termes de calcul.
Pour illustrer cela, imaginez qu’on vous demande l’heure. Vous répondriez probablement « midi », et non « midi, une seconde et quatre millisecondes ». C’est un exemple de quantization : les deux réponses sont correctes, mais l’une est légèrement plus précise que l’autre. Le niveau de précision nécessaire dépend du contexte.
Les composants quantifiables d’un modèle d’IA
Les modèles d’IA sont composés de plusieurs éléments qui peuvent être quantifiés, en particulier les paramètres – les variables internes que les modèles utilisent pour faire des prédictions ou prendre des décisions. Étant donné que les modèles effectuent des millions de calculs lorsqu’ils sont exécutés, la quantization des paramètres peut considérablement réduire la charge de calcul.
Les limites de la quantization
Cependant, l’étude suggère que la quantization peut avoir plus d’inconvénients qu’on ne le pensait auparavant. Les chercheurs ont constaté que les modèles quantifiés fonctionnent moins bien si la version originale non quantifiée du modèle a été entraînée pendant une longue période sur beaucoup de données.
En d’autres termes, à un certain point, il peut être préférable d’entraîner directement un modèle plus petit plutôt que de quantifier un grand modèle. Cela pourrait être une mauvaise nouvelle pour les entreprises d’IA qui entraînent des modèles extrêmement grands (connus pour améliorer la qualité des réponses) puis les quantifient pour les rendre moins coûteux à servir.
À mon avis, le coût numéro un pour tout le monde dans l’IA est et continuera d’être l’inférence, et notre travail montre qu’une façon importante de le réduire ne fonctionnera pas éternellement.
– Tanishq Kumar, étudiant en mathématiques à Harvard et premier auteur de l’étude
L’inférence, le vrai coût de l’IA
Contrairement à la croyance populaire, l’inférence des modèles d’IA – c’est-à-dire l’exécution d’un modèle, comme lorsque ChatGPT répond à une question – est souvent plus coûteuse dans l’ensemble que l’entraînement des modèles. Par exemple, Google a dépensé environ 191 millions de dollars pour entraîner l’un de ses modèles phares, Gemini. Mais si l’entreprise devait utiliser un modèle pour générer des réponses de seulement 50 mots à la moitié de toutes les requêtes de recherche Google, elle dépenserait environ 6 milliards de dollars par an.
La course à l’échelle des modèles d’IA
Les grands laboratoires d’IA ont adopté l’entraînement de modèles sur d’énormes ensembles de données, partant du principe que l’augmentation de la quantité de données et de puissance de calcul utilisées dans l’entraînement conduira à des IA de plus en plus performantes. Par exemple, Meta a entraîné son modèle Llama 3 sur un ensemble de 15 billions de tokens (les tokens représentent des bits de données brutes ; 1 million de tokens équivaut à environ 750 000 mots), contre « seulement » 2 billions pour la génération précédente, Llama 2.
Bien qu’il y ait des signes que cette course à l’échelle finira par atteindre un rendement décroissant, il ne semble pas que l’industrie soit prête à s’écarter de manière significative de ces approches bien ancrées.
Entraîner des modèles en basse précision, une solution ?
Selon Kumar, lui et ses co-auteurs ont découvert que l’entraînement de modèles en « basse précision » peut les rendre plus robustes à la quantization. La précision fait référence au nombre de chiffres qu’un type de données numériques peut représenter avec précision.
La plupart des modèles sont aujourd’hui entraînés en précision 16 bits ou « demi-précision » et « quantifiés post-entraînement » en précision 8 bits. Certains composants du modèle (par exemple, ses paramètres) sont convertis dans un format de précision inférieure au prix d’une certaine précision.
Les fournisseurs de matériel comme Nvidia poussent pour une précision encore plus basse pour l’inférence des modèles quantifiés. Mais une précision de quantization extrêmement basse pourrait ne pas être souhaitable. Selon Kumar, à moins que le modèle original ne soit incroyablement grand en termes de nombre de paramètres, des précisions inférieures à 7 ou 8 bits peuvent entraîner une baisse notable de la qualité.
Pas de solution miracle pour réduire les coûts d’inférence
En fin de compte, l’étude souligne que les modèles d’IA ne sont pas entièrement compris et que les raccourcis connus qui fonctionnent dans de nombreux types de calculs ne fonctionnent pas ici. Kumar reconnaît que leur étude était à une échelle relativement petite – ils prévoient de la tester avec plus de modèles à l’avenir. Mais il pense qu’au moins une conclusion tiendra : il n’y a pas de solution miracle pour réduire les coûts d’inférence.
La précision des bits est importante, et elle n’est pas gratuite. On ne peut pas la réduire indéfiniment sans que les modèles en souffrent. Les modèles ont une capacité finie, donc plutôt que d’essayer de faire entrer un quadrillion de tokens dans un petit modèle, je pense que beaucoup plus d’efforts seront consacrés à un tri et un filtrage méticuleux des données, afin que seules les données de la plus haute qualité soient intégrées dans des modèles plus petits.
– Tanishq Kumar
Kumar est optimiste quant au fait que de nouvelles architectures visant délibérément à rendre l’entraînement en basse précision stable seront importantes à l’avenir. Mais une chose est claire : alors que l’IA continue de se développer et de s’intégrer dans tous les aspects de nos vies, trouver des moyens de la rendre plus efficace et moins coûteuse sera un défi constant – et il n’y aura pas de solution unique.