Défis et Limites de la Quantification dans l’IA Efficace

L’intelligence artificielle est en constante évolution, repoussant sans cesse les limites de ce qui est possible. Cependant, avec la croissance exponentielle des modèles d’IA, l’efficacité devient un défi majeur. La quantification, une technique largement utilisée pour rendre les modèles plus efficaces, pourrait avoir plus d’inconvénients qu’on ne le pensait auparavant.

Qu’est-ce que la quantification dans l’IA ?

La quantification dans le contexte de l’IA fait référence à la réduction du nombre de bits nécessaires pour représenter l’information. Les bits sont les plus petites unités qu’un ordinateur peut traiter. En réduisant le nombre de bits, on peut rendre les modèles mathématiquement et donc computationnellement moins exigeants.

Prenons une analogie : si quelqu’un vous demande l’heure, vous direz probablement « midi » et non « oh midi, une seconde et quatre millisecondes ». C’est ça la quantification ; les deux réponses sont correctes, mais l’une est légèrement plus précise. La précision dont vous avez réellement besoin dépend du contexte.

Les limites de la quantification

Selon une étude menée par des chercheurs de Harvard, Stanford, MIT, Databricks et Carnegie Mellon, les modèles quantifiés ont de moins bonnes performances si la version originale non quantifiée du modèle a été entraînée pendant une longue période sur beaucoup de données. En d’autres termes, à un certain stade, il peut être préférable d’entraîner directement un modèle plus petit plutôt que d’en réduire un gros.

À mon avis, le coût numéro un pour tout le monde dans l’IA est et continuera d’être l’inférence, et notre travail montre qu’une façon importante de le réduire ne fonctionnera pas éternellement.

– Tanishq Kumar, étudiant en mathématiques à Harvard et premier auteur de l’étude

Contrairement à ce que l’on croit souvent, l’inférence des modèles d’IA – c’est-à-dire l’exécution d’un modèle, comme lorsque ChatGPT répond à une question – est souvent plus coûteuse au total que l’entraînement des modèles. Les grands laboratoires d’IA ont adopté l’entraînement de modèles sur d’énormes ensembles de données en partant du principe que le « scaling up » conduira à des IA de plus en plus performantes. Mais les preuves suggèrent que le scaling up finit par apporter des rendements décroissants.

Trouver le bon équilibre de précision

Alors, si les laboratoires sont réticents à former des modèles sur des ensembles de données plus petits, y a-t-il un moyen de rendre les modèles moins sensibles à la dégradation ? C’est possible. Kumar dit que lui et ses coauteurs ont découvert que l’entraînement des modèles en « basse précision » peut les rendre plus robustes.

La « précision » ici fait référence au nombre de chiffres qu’un type de données numériques peut représenter avec précision. La plupart des modèles aujourd’hui sont entraînés en précision de 16 bits ou « demi-précision » et « quantifiés post-entraînement » en précision de 8 bits. Certains composants du modèle sont convertis dans un format de précision inférieure au prix d’une certaine précision.

Les fournisseurs de matériel comme Nvidia poussent pour une précision plus faible pour l’inférence de modèles quantifiés. Mais une précision de quantification extrêmement faible pourrait ne pas être souhaitable. Selon Kumar, à moins que le modèle original ne soit incroyablement grand en termes de nombre de paramètres, des précisions inférieures à 7 ou 8 bits peuvent voir une baisse notable de qualité.

Pas de solution miracle pour réduire les coûts d’inférence

Le point clé de cette étude est qu’il y a des limites qu’on ne peut pas contourner naïvement. Les chercheurs espèrent que leur travail apportera des nuances à la discussion qui cherche souvent des valeurs par défaut de précision de plus en plus faibles pour l’entraînement et l’inférence.

La précision des bits est importante, et elle n’est pas gratuite. On ne peut pas la réduire indéfiniment sans que les modèles en souffrent. Les modèles ont une capacité finie, donc plutôt que d’essayer de faire entrer un quadrillion de tokens dans un petit modèle, à mon avis, beaucoup plus d’efforts seront consacrés à une curation et un filtrage méticuleux des données, afin que seules les données de la plus haute qualité soient intégrées dans des modèles plus petits.

– Tanishq Kumar

Kumar est optimiste quant au fait que de nouvelles architectures qui visent délibérément à rendre l’entraînement à basse précision stable seront importantes à l’avenir. Mais une chose est sûre : il n’y a pas de solution miracle quand il s’agit de réduire les coûts d’inférence dans l’IA.

Résumé des points clés

  • La quantification, bien que largement utilisée pour rendre les modèles d’IA plus efficaces, a ses limites
  • L’entraînement de modèles sur d’énormes ensembles de données puis leur quantification peut conduire à une dégradation des performances
  • L’inférence est souvent plus coûteuse que l’entraînement des modèles
  • L’entraînement des modèles en basse précision peut les rendre plus robustes
  • Une précision de quantification extrêmement faible n’est pas toujours souhaitable
  • La curation et le filtrage méticuleux des données seront essentiels pour intégrer des données de haute qualité dans des modèles plus petits

En fin de compte, alors que l’industrie de l’IA continue de se développer et d’évoluer, il sera crucial de trouver le bon équilibre entre efficacité et performance. La quantification a certainement son rôle à jouer, mais elle n’est pas une solution universelle. Une approche nuancée et multidimensionnelle sera nécessaire pour relever les défis de l’IA à grande échelle de manière durable.

À lire également