Imaginez un instant : vous avez développé un modèle d’intelligence artificielle révolutionnaire, capable de générer du texte, des images ou même du code avec une précision impressionnante. Mais voilà, une fois entraîné, il faut le faire fonctionner en production. Et là, c’est souvent la douche froide : les coûts explosent, la latence rend l’expérience utilisateur frustrante, et vos serveurs chauffent comme jamais. C’est précisément ce problème que des milliers de développeurs et d’entreprises affrontent quotidiennement. Et si une solution open source devenue incontournable venait de passer un cap majeur ?
Le 22 janvier 2026, l’écosystème IA a vibré avec l’annonce officielle : Inferact, la société créée autour du projet vLLM, a bouclé une levée de fonds seed record de 150 millions de dollars à une valorisation de 800 millions de dollars. Un montant exceptionnel pour un tour de table initial, qui place immédiatement cette jeune pousse parmi les licornes potentielles les plus rapides de l’année.
De projet académique à licorne en puissance : l’histoire de vLLM
vLLM n’est pas né dans un garage de la Silicon Valley, mais dans les laboratoires de l’Université de Californie à Berkeley, plus précisément au sein du Sky Computing Lab dirigé par Ion Stoica, co-fondateur de Databricks. Lancé en 2023, ce projet open source visait à résoudre un goulot d’étranglement critique dans le déploiement des grands modèles de langage : l’inférence.
Contrairement à l’entraînement, qui nécessite des milliers de GPU pendant des semaines, l’inférence représente la très grande majorité des coûts une fois le modèle mis en production. vLLM a introduit une technique innovante appelée PagedAttention, qui optimise la gestion de la mémoire KV cache (key-value cache), permettant de multiplier par 2 à 4 la capacité de traitement sur un même matériel.
Très rapidement, la communauté a adopté l’outil. Des géants comme Amazon (via AWS), des applications grand public et de nombreuses startups l’ont intégré dans leurs pipelines. Le projet a dépassé les 30 000 étoiles sur GitHub en moins de deux ans, un score rare dans l’univers de l’IA open source.
« Nous avons vu que des centaines de milliers de développeurs utilisaient vLLM chaque jour. Il était temps de passer à l’étape suivante pour soutenir cette communauté et accélérer l’innovation. »
– Simon Mo, CEO et co-créateur de vLLM
Ce passage du statut de projet académique à celui de startup VC-backed n’est pas une première en 2025-2026. On pense immédiatement à RadixArk (ex-SGLang) qui a levé à 400 millions de valorisation quelques jours plus tôt. Mais la taille du chèque d’Inferact marque les esprits.
Pourquoi les investisseurs misent-ils autant sur l’inférence ?
Pendant les années 2022-2024, l’attention était focalisée sur l’entraînement des modèles de plus en plus gros : GPT-4, Claude 3, Gemini Ultra, Llama 3… Mais depuis mi-2025, le curseur s’est déplacé. Les entreprises ont désormais des modèles performants ; elles veulent surtout les rendre utilisables à grande échelle sans y laisser leur budget cloud.
Quelques chiffres parlent d’eux-mêmes :
- Le coût d’inférence représente jusqu’à 70-90 % des dépenses IA en production pour la majorité des applications grand public.
- Une réduction de 30 % de la latence peut multiplier par 2 le taux de conversion sur une interface conversationnelle.
- Les techniques d’optimisation comme le speculative decoding, le quantization et la continuous batching deviennent des différenciateurs compétitifs majeurs.
Dans ce contexte, les outils qui permettent de faire tourner un modèle 70B paramètres sur 4 GPU au lieu de 8, ou de servir 10× plus de requêtes simultanées, valent de l’or. Inferact capitalise précisément sur cette vague.
Les atouts techniques de vLLM qui font la différence
Revenons un instant sur ce qui rend vLLM si performant. Au cœur du projet se trouve la technique PagedAttention, inspirée de la gestion de mémoire virtuelle des systèmes d’exploitation.
Traditionnellement, le KV cache est alloué de manière contiguë. Dès qu’une séquence se termine, la mémoire est libérée, mais les fragments libres ne sont pas toujours réutilisables efficacement. PagedAttention découpe le cache en pages non contiguës, un peu comme les pages de 4 Ko dans un OS moderne. Résultat : une utilisation mémoire beaucoup plus efficace et moins de gaspillage.
À cela s’ajoutent :
- Le continuous batching qui permet d’ajouter et de retirer des requêtes en plein vol sans arrêter le batch en cours
- Une intégration poussée avec les frameworks PyTorch et avec les backends CUDA / ROCm / MPS
- Le support natif du distributed inference sur plusieurs nœuds
- Des optimisations pour les modèles quantifiés (AWQ, GPTQ, bitsandbytes…)
Ces avancées cumulées permettent souvent de doubler, voire tripler le throughput par rapport à des solutions plus classiques comme Hugging Face Transformers en mode vanilla.
Un tour de table prestigieux et stratégique
La levée a été co-dirigée par deux poids lourds du venture : Andreessen Horowitz (a16z) et Lightspeed Venture Partners. Deux fonds qui ont déjà parié très tôt sur l’IA infrastructure (Databricks, Scale AI, Pinecone, etc.).
Le fait que ce soit un tour seed de 150 M$ à 800 M$ de valorisation post-money montre à quel point les investisseurs sont convaincus du potentiel. Pour comparaison, beaucoup de startups IA infrastructure lèvent 30-60 M$ en seed à des valorisations comprises entre 200 et 500 M$. Inferact est clairement positionnée dans la catégorie « next big thing ».
« L’inférence est le nouveau bottleneck. Les entreprises qui maîtriseront cette couche pourront capturer une part disproportionnée de la valeur créée par l’IA générative. »
– Un partenaire a16z (non cité nommément dans l’article original)
Quelles sont les prochaines étapes pour Inferact ?
Maintenant que la structure commerciale existe, plusieurs chantiers s’ouvrent :
- Proposer une version hosted / managed de vLLM, à l’image de ce que fait Fireworks.ai, Together.ai ou Groq
- Développer des fonctionnalités entreprise : SLA, monitoring avancé, sécurité renforcée, intégrations SOC2
- Étendre le support à de nouveaux matériels (TPU, AWS Trainium/Inferentia, Intel Gaudi, etc.)
- Accélérer l’intégration avec les frameworks d’agent (LangChain, LlamaIndex) et les plateformes low-code/no-code
- Continuer à enrichir le projet open source pour maintenir la communauté
Le défi sera de trouver le bon équilibre entre open source et modèle commercial. Trop fermé, et la communauté pourrait se détourner ; trop ouvert, et la monétisation risque d’être compliquée. Inferact semble opter pour un modèle « open core » avec des fonctionnalités premium hébergées.
Impact sur l’écosystème IA open source
Cette levée massive valide une tendance forte observée depuis 2024 : les meilleurs projets open source en IA deviennent des entreprises à part entière. On l’a vu avec Hugging Face (valorisée plus de 4,5 milliards), avec Ollama, avec Llama.cpp, et maintenant avec vLLM et SGLang.
Pour les fondateurs et chercheurs, le message est clair : si vous créez un outil qui devient de facto standard dans la communauté, le potentiel de création de valeur est énorme. Cela pourrait encourager encore plus de publications open source de très haute qualité.
Que retenir pour les entrepreneurs et marketeurs ?
Si vous dirigez une startup qui utilise des LLM en production, voici quelques actions concrètes :
- Testez vLLM dès maintenant si vous utilisez Transformers ou Text Generation Inference
- Calculez précisément votre coût d’inférence par 1 000 tokens et identifiez les goulots d’étranglement
- Anticipez une migration progressive vers des solutions optimisées pour réduire votre facture cloud de 40 à 70 %
- Surveillez l’évolution d’Inferact : l’arrivée d’une offre hosted pourrait simplifier considérablement vos déploiements
- Intégrez dès que possible des métriques de performance (TTFT, TPOT, throughput) dans vos dashboards produit
Du côté marketing et produit, une latence plus basse = meilleur taux de rétention, plus de messages envoyés par utilisateur, et in fine un meilleur revenu par utilisateur. Dans un monde où l’IA est de plus en plus une commodité, la performance devient un vrai levier de différenciation.
Vers une démocratisation massive de l’IA performante ?
Avec des acteurs comme Inferact, Groq, Fireworks, Together, Anyscale et d’autres qui poussent l’optimisation à son paroxysme, on se dirige vers un futur où faire tourner un modèle de 70B paramètres deviendra presque aussi accessible que d’utiliser une base de données PostgreSQL.
Pour les PME et les startups qui n’ont pas les moyens de dépenser des centaines de milliers de dollars par mois en GPU, c’est une excellente nouvelle. L’IA ne sera plus réservée aux licornes ; elle deviendra un outil de productivité accessible à tous.
En conclusion, la levée d’Inferact n’est pas seulement une belle opération financière. C’est le symptôme d’un changement de paradigme profond dans l’industrie de l’IA : après l’âge de l’entraînement massif, nous entrons dans l’ère de l’inférence efficace. Et cette ère pourrait bien être celle où les plus grandes fortunes (et les plus grandes disruptions) se créent.
Restez à l’affût des prochaines annonces d’Inferact. 2026 s’annonce comme l’année où l’inférence deviendra le principal terrain de bataille de l’intelligence artificielle.






