La Quantification de l’IA : Limites et Compromis

L’intelligence artificielle (IA) est en constante évolution, avec des modèles de plus en plus performants et sophistiqués. Cependant, cette puissance a un coût : celui des ressources informatiques nécessaires pour faire fonctionner ces modèles complexes. Pour pallier ce problème, une technique appelée quantification est souvent utilisée afin de rendre les modèles d’IA plus efficaces. Mais de récentes recherches montrent que cette approche a ses limites et ses compromis.

Qu’est-ce que la quantification de l’IA ?

La quantification consiste à réduire le nombre de bits nécessaires pour représenter les paramètres internes d’un modèle d’IA. En termes simples, cela revient à arrondir les valeurs de ces variables à une précision moindre. Par exemple :

  • Un modèle non quantifié pourrait représenter un paramètre avec une valeur comme 0,248561
  • Une fois quantifié à 8 bits, ce même paramètre serait arrondi à 0,25

Cette perte de précision permet de réduire la taille du modèle et le nombre de calculs nécessaires, le rendant ainsi plus rapide et moins gourmand en ressources. Jusqu’à présent, la quantification était considérée comme une solution efficace pour déployer des modèles d’IA à grande échelle.

Les limites mises en lumière par une nouvelle étude

Cependant, des chercheurs de Harvard, Stanford, MIT, Databricks et Carnegie Mellon ont découvert que les modèles quantifiés performent moins bien lorsque la version originale a été entraînée pendant une longue période sur de grandes quantités de données. Autrement dit, à partir d’un certain point, il peut être préférable d’entraîner directement un modèle plus petit plutôt que de compresser un gros modèle.

Le coût numéro un de l’IA pour tout le monde est et continuera d’être l’inférence, et notre travail montre qu’une façon importante de le réduire ne fonctionnera pas éternellement.

– Tanishq Kumar, étudiant en mathématiques à Harvard et premier auteur de l’étude

Ces résultats pourraient avoir un impact significatif sur l’industrie, alors que de nombreuses entreprises misent sur l’entraînement de très grands modèles puis leur quantification pour réduire les coûts d’utilisation. Des effets sont d’ailleurs déjà observables : des développeurs ont rapporté que la quantification du modèle Llama 3 de Meta tendait à être plus dommageable comparé à d’autres modèles.

Quelle précision pour les modèles quantifiés ?

L’étude soulève également la question de la précision optimale pour la quantification. La plupart des modèles sont aujourd’hui entraînés avec une précision de 16 bits, puis quantifiés à 8 bits. Mais certains acteurs poussent pour aller encore plus bas, comme Nvidia avec son nouveau processeur supportant une précision de 4 bits (FP4).

Selon les chercheurs, une précision extrêmement basse pourrait s’avérer contre-productive. À moins que le modèle original ne soit vraiment très grand en nombre de paramètres, une précision inférieure à 7 ou 8 bits entraînerait une baisse notable de qualité.

Implications et perspectives

Cette étude amène donc à repenser certaines pratiques de l’industrie en matière d’IA efficiente. Au lieu de chercher toujours plus de données et de puissance pour ensuite compresser les modèles obtenus, une réflexion sur la qualité des données d’entraînement et l’architecture même des réseaux de neurones semble nécessaire.

On ne peut pas réduire indéfiniment la précision sans que les modèles n’en souffrent. Plutôt que d’essayer de faire tenir un quadrillion de tokens dans un petit modèle, je pense que beaucoup plus d’efforts seront mis dans le tri et le filtrage méticuleux des données, afin que seules les données de la plus haute qualité soient intégrées dans des modèles plus petits.

– Tanishq Kumar

De nouvelles architectures visant spécifiquement à rendre l’entraînement à basse précision plus stable pourraient également jouer un rôle clé à l’avenir. Une chose est sûre : la course à l’IA toujours plus performante et efficace est loin d’être terminée, mais elle devra composer avec certaines limites physiques et trouver de nouveaux chemins d’optimisation.

À lire également