L’industrie de l’intelligence artificielle vient de connaître un véritable séisme avec l’arrivée fracassante de DeepSeek, un chatbot IA développé en Chine. En quelques jours à peine, l’application a gravi les classements des boutiques d’applications, suscitant l’émoi des analystes de Wall Street et des experts en technologie. Mais d’où vient DeepSeek, et comment expliquer un tel succès fulgurant ?
Les Origines Traders de DeepSeek
Tout commence en 2015 lorsque Liang Wenfeng, passionné d’IA, co-fonde High-Flyer Capital Management, un fonds spéculatif quantitatif chinois qui s’appuie sur l’IA pour guider ses décisions d’investissement. En 2019, High-Flyer se lance dans le développement et le déploiement d’algorithmes d’IA. Puis en 2023, le fonds crée DeepSeek, un laboratoire dédié à la recherche sur les outils d’IA, qui deviendra rapidement une entreprise à part entière.
Dès le début, DeepSeek construit ses propres clusters de centres de données pour l’entraînement de modèles. Mais comme d’autres sociétés d’IA en Chine, DeepSeek est affecté par les interdictions d’exportation de matériel imposées par les États-Unis. Pour former l’un de ses modèles les plus récents, l’entreprise a dû se contenter de puces Nvidia H800, une version moins puissante d’une puce, la H100, disponible pour les entreprises américaines.
Des Modèles IA Ultra-Performants
C’est en novembre 2023 que DeepSeek dévoile ses premiers modèles : DeepSeek Coder, DeepSeek LLM et DeepSeek Chat. Mais c’est au printemps dernier, avec la sortie de la famille de modèles de nouvelle génération DeepSeek-V2, que l’industrie de l’IA commence à s’intéresser de près à la startup. DeepSeek-V2, un système polyvalent d’analyse de texte et d’image, obtient d’excellents résultats dans divers benchmarks d’IA, tout en étant beaucoup moins coûteux à exécuter que les modèles comparables de l’époque.
Selon les tests de benchmarking internes de DeepSeek, DeepSeek V3 surpasse à la fois les modèles téléchargeables et accessibles au public comme Llama de Meta et les modèles « fermés » qui ne sont accessibles que via une API, comme GPT-4 d’OpenAI.
Tout aussi impressionnant, le modèle de « raisonnement » R1 de DeepSeek, lancé en janvier, offrirait des performances équivalentes à celles du modèle o1 d’OpenAI sur des benchmarks clés. En tant que modèle de raisonnement, R1 se vérifie efficacement, ce qui l’aide à éviter certains écueils qui trompent normalement les modèles.
Une Approche Disruptive
Le modèle économique de DeepSeek reste flou. L’entreprise fixe les prix de ses produits et services bien en dessous de la valeur du marché, et en offre d’autres gratuitement. DeepSeek affirme que des percées en matière d’efficacité lui ont permis de maintenir une compétitivité extrême en termes de coûts. Certains experts contestent cependant les chiffres fournis par l’entreprise.
Quoi qu’il en soit, les développeurs se sont emparés des modèles de DeepSeek, disponibles sous des licences permissives autorisant une utilisation commerciale. Selon Clem Delangue, PDG de Hugging Face, l’une des plateformes hébergeant les modèles de DeepSeek, les développeurs de Hugging Face ont créé plus de 500 modèles « dérivés » de R1 qui totalisent 2,5 millions de téléchargements.
Le succès de DeepSeek face à des concurrents plus importants et plus établis a été qualifié de « bouleversement de l’IA » et de « sur-médiatisé ». Le succès de l’entreprise est en partie responsable de la chute de 18 % du cours de l’action de Nvidia lundi, et a suscité une réponse publique de Sam Altman, PDG d’OpenAI.
Microsoft a annoncé que DeepSeek est disponible sur son service Azure AI Foundry, la plate-forme de Microsoft qui regroupe les services d’IA pour les entreprises sous une seule bannière. Interrogé sur l’impact de DeepSeek sur les dépenses d’IA de Meta lors de son appel sur les résultats du premier trimestre, le PDG Mark Zuckerberg a déclaré que les dépenses en infrastructure d’IA continueront d’être un « avantage stratégique » pour Meta.
Controverses et Futur Incertain
Parallèlement, certaines entreprises bannissent DeepSeek, tout comme des pays et des gouvernements entiers. L’État de New York a également interdit l’utilisation de DeepSeek sur les appareils gouvernementaux.
Quant à l’avenir de DeepSeek, rien n’est clair. L’amélioration des modèles est une certitude. Mais le gouvernement américain semble se méfier de plus en plus de ce qu’il perçoit comme une influence étrangère néfaste. L’essor fulgurant de DeepSeek illustre en tout cas le potentiel de disruption de l’IA, et la compétition acharnée qui fait rage dans ce secteur en pleine ébullition.
- DeepSeek est rapidement devenu viral, atteignant le sommet des classements d’applications.
- Ses modèles IA puissants et abordables bousculent l’industrie.
- L’avenir de DeepSeek reste incertain face aux inquiétudes réglementaires.