Dans un contexte où les entreprises passent de l’expérimentation de l’IA générative via des prototypes limités à une mise en production à grande échelle, la question des coûts devient centrale. L’utilisation de grands modèles de langage a en effet un prix. Lors de sa conférence re:invent à Las Vegas, AWS a annoncé deux nouvelles fonctionnalités pour son service d’hébergement de LLM Bedrock qui visent à répondre à cet enjeu : le routage intelligent des prompts et la mise en cache.
Mise en cache des prompts : jusqu’à 90% d’économies
La mise en cache permet d’éviter de payer pour que le modèle effectue un travail répétitif et retraite les mêmes requêtes (ou des requêtes très similaires) encore et encore. Selon AWS, cela peut réduire les coûts jusqu’à 90%. Mais un autre avantage est que la latence pour obtenir une réponse du modèle est considérablement réduite (jusqu’à 85% selon AWS). Adobe, qui a testé la mise en cache des prompts pour certaines de ses applications d’IA générative sur Bedrock, a constaté une réduction de 72% du temps de réponse.
Imaginez qu’il y a un document, et que plusieurs personnes posent des questions sur le même document. À chaque fois, vous payez. Et ces fenêtres de contexte deviennent de plus en plus longues.
– Atul Deo, directeur produit de Bedrock
Routage intelligent des prompts : le bon modèle au bon moment
L’autre grande nouveauté est le routage intelligent des prompts pour Bedrock. Grâce à cela, Bedrock peut automatiquement acheminer les prompts vers différents modèles de la même famille afin d’aider les entreprises à trouver le bon équilibre entre performance et coût. Le système prédit automatiquement (à l’aide d’un petit modèle de langage) les performances de chaque modèle pour une requête donnée, puis achemine la demande en conséquence.
Parfois, ma requête peut être très simple. Ai-je vraiment besoin d’envoyer cette requête au modèle le plus performant, qui est extrêmement coûteux et lent ? Probablement pas. L’idée est donc de se dire « à l’exécution, en fonction du prompt entrant, envoyons la bonne requête au bon modèle ».
– Atul Deo
Le routage des LLM n’est pas un concept nouveau. Des startups comme Martian et de nombreux projets open source s’y attaquent également. Mais AWS argumente probablement que ce qui différencie son offre est que le routeur peut diriger intelligemment les requêtes sans beaucoup d’intervention humaine. Il est cependant limité, dans la mesure où il ne peut acheminer les requêtes que vers des modèles de la même famille. À terme, l’équipe prévoit d’étendre ce système et de donner plus de possibilités de personnalisation aux utilisateurs.
Un marketplace de modèles spécialisés
Enfin, AWS lance également un nouveau marketplace pour Bedrock. L’idée ici, selon Atul Deo, est que si Amazon s’associe à de nombreux grands fournisseurs de modèles, il existe désormais des centaines de modèles spécialisés qui peuvent n’avoir que quelques utilisateurs dédiés. Comme ces clients demandent à l’entreprise de les prendre en charge, AWS lance un marché pour ces modèles, où la seule différence majeure est que les utilisateurs devront provisionner et gérer eux-mêmes la capacité de leur infrastructure, une tâche dont Bedrock s’occupe habituellement automatiquement. Au total, AWS proposera une centaine de ces modèles émergents et spécialisés, et d’autres suivront.
En résumé, avec ces nouvelles fonctionnalités, AWS Bedrock offre aux entreprises des moyens concrets d’optimiser les coûts et les performances de leurs applications d’IA générative en production :
- La mise en cache des prompts peut réduire les coûts jusqu’à 90% et la latence jusqu’à 85%
- Le routage intelligent achemine automatiquement chaque requête vers le modèle le plus adapté en termes de coût et de performance
- Un nouveau marketplace permet d’accéder facilement à une centaine de modèles spécialisés
Alors que l’IA générative passe à l’échelle de la production, ces avancées arrivent à point nommé pour aider les entreprises à maîtriser les coûts et les performances de ces technologies transformatrices mais gourmandes en ressources. Avec Bedrock, AWS confirme son ambition de devenir la plateforme de référence pour déployer des LLM en entreprise, en alliant performance, coût et facilité d’utilisation.