DeepSeek V3 : Le Nouveau Modèle IA Open Source Prometteur

Dans un monde où l’intelligence artificielle (IA) ne cesse de progresser, un nouveau modèle IA open source chinois nommé DeepSeek V3 fait son apparition et promet de rivaliser avec les meilleurs modèles fermés. Développé par la firme DeepSeek, ce modèle impressionne par ses performances sur de nombreuses tâches et son potentiel révolutionnaire.

Un modèle polyvalent et surpuissant

DeepSeek V3 se distingue par sa capacité à gérer une large gamme de tâches basées sur le traitement du texte, telles que :

  • La programmation
  • La traduction
  • La rédaction d’essais et d’emails à partir d’instructions

Selon les tests internes de DeepSeek, leur modèle V3 surpasse à la fois les modèles open source téléchargeables et les modèles IA fermés accessibles uniquement via API. Il excelle notamment sur les compétitions de programmation de la plateforme Codeforces, dépassant des modèles renommés comme le Llama 3.1 405B de Meta, le GPT-4o d’OpenAI ou encore le Qwen 2.5 72B d’Alibaba.

Une prouesse technique et économique

L’entraînement de DeepSeek V3 s’est fait sur un dataset massif de 14,8 trillions de tokens, soit l’équivalent de 11 100 milliards de mots. Cela en fait un modèle gigantesque de 685 milliards de paramètres, dépassant de 1,6 fois la taille du Llama 3.1 405B et ses 405 milliards de paramètres.

Mais la prouesse de DeepSeek réside surtout dans sa capacité à avoir entraîné ce modèle en seulement 2 mois, en utilisant des GPU Nvidia H800 récemment restreints par le département du commerce américain pour les entreprises chinoises. Le tout pour un coût de 5,5 millions de dollars, bien inférieur aux sommes investies pour développer des modèles comme GPT-4 d’OpenAI.

L’open source est un acte culturel. L’approche fermée d’OpenAI n’est que temporaire et n’empêche pas les autres de rattraper leur retard.

– Liang Wenfeng, fondateur de DeepSeek

Des enjeux éthiques et politiques

Si les performances de DeepSeek V3 sont indéniables, son origine chinoise soulève quelques questions. En tant qu’entreprise soumise à la régulation chinoise, DeepSeek doit s’assurer que les réponses de ses modèles respectent « les valeurs socialistes fondamentales ». Ainsi, le modèle V3 décline de répondre à certains sujets politiques sensibles comme les événements de la place Tiananmen.

Malgré cela, la sortie de DeepSeek V3 marque une étape importante dans la démocratisation des modèles IA puissants et ouvre la voie à de nombreuses applications révolutionnaires. Reste à voir comment DeepSeek et la Chine positionneront leurs prochains modèles dans la course à l’IA, face aux géants américains comme OpenAI ou Google.

À lire également