Dans le monde en constante évolution de l’intelligence artificielle, une nouvelle avancée vient de voir le jour en Chine. DeepSeek, un laboratoire de recherche en IA financé par des traders quantitatifs, a dévoilé DeepSeek-R1, un modèle d’IA de raisonnement qui semble rivaliser avec le célèbre o1 d’OpenAI.
DeepSeek-R1 : Un modèle d’IA de raisonnement prometteur
Contrairement à la plupart des modèles d’IA, les modèles de raisonnement comme DeepSeek-R1 et o1 se distinguent par leur capacité à s’auto-vérifier en consacrant plus de temps à l’analyse d’une question ou d’une requête. Cette approche leur permet d’éviter certains écueils qui trompent généralement les modèles classiques.
DeepSeek-R1 fonctionne de manière similaire à o1, en raisonnant à travers les tâches, en planifiant à l’avance et en effectuant une série d’actions qui aident le modèle à arriver à une réponse. Ce processus peut prendre un certain temps, allant de quelques secondes à plusieurs dizaines de secondes selon la complexité de la question.
Des performances comparables à o1 sur les benchmarks AIME et MATH
Selon DeepSeek, DeepSeek-R1 (ou plus précisément DeepSeek-R1-Lite-Preview) affiche des performances comparables à celles du modèle o1-preview d’OpenAI sur deux benchmarks populaires de l’IA : AIME et MATH. AIME utilise d’autres modèles d’IA pour évaluer les performances d’un modèle, tandis que MATH est une collection de problèmes mathématiques sous forme de mots.
Cependant, le modèle n’est pas parfait. Certains commentateurs sur X ont noté que DeepSeek-R1 peine avec le tic-tac-toe et d’autres problèmes de logique (tout comme o1). De plus, DeepSeek-R1 peut facilement être « jailbreaké », c’est-à-dire qu’il peut être incité à ignorer ses garde-fous si on le sollicite d’une certaine manière.
Les limites de DeepSeek-R1 : Censure et pression gouvernementale
DeepSeek-R1 semble également bloquer les requêtes jugées trop sensibles politiquement. Lors de nos tests, le modèle a refusé de répondre à des questions sur le leader chinois Xi Jinping, la place Tiananmen et les implications géopolitiques d’une invasion de Taïwan par la Chine.
Ce comportement est probablement le résultat de la pression exercée par le gouvernement chinois sur les projets d’IA dans la région. Les modèles en Chine doivent subir un benchmarking de la part du régulateur Internet chinois pour s’assurer que leurs réponses « incarnent les valeurs socialistes fondamentales ». Le gouvernement serait même allé jusqu’à proposer une liste noire de sources qui ne peuvent pas être utilisées pour entraîner les modèles, ce qui explique pourquoi de nombreux systèmes d’IA chinois refusent de répondre à des sujets qui pourraient susciter la colère des régulateurs.
L’avenir de l’IA : Remise en question des « scaling laws » et émergence du « test-time compute »
L’attention accrue portée aux modèles de raisonnement intervient alors que la viabilité des « scaling laws », des théories de longue date selon lesquelles l’ajout de données et de puissance de calcul à un modèle augmenterait continuellement ses capacités, est remise en question. Une série de rapports de presse suggère que les modèles des principaux laboratoires d’IA, dont OpenAI, Google et Anthropic, ne s’améliorent plus aussi spectaculairement qu’auparavant.
Cette situation a entraîné une course aux nouvelles approches, architectures et techniques de développement de l’IA. L’une d’entre elles est le « test-time compute », qui sous-tend des modèles comme o1 et DeepSeek-R1. Également connue sous le nom d’ »inference compute », cette approche donne essentiellement aux modèles un temps de traitement supplémentaire pour accomplir les tâches.
« Nous assistons à l’émergence d’une nouvelle loi d’échelle », a déclaré cette semaine Satya Nadella, PDG de Microsoft, lors d’un discours d’ouverture à la conférence Ignite de Microsoft, en faisant référence au « test-time compute ».
DeepSeek : Un acteur intrigant dans le paysage de l’IA
DeepSeek, qui affirme avoir l’intention de rendre DeepSeek-R1 open source et de publier une API, est une entreprise curieuse. Elle est soutenue par High-Flyer Capital Management, un fonds spéculatif quantitatif chinois qui utilise l’IA pour guider ses décisions de trading.
L’un des premiers modèles de DeepSeek, DeepSeek-V2, un modèle polyvalent d’analyse de texte et d’image, a contraint des concurrents comme ByteDance, Baidu et Alibaba à réduire les prix d’utilisation de certains de leurs modèles, voire à les rendre totalement gratuits.
High-Flyer construit ses propres clusters de serveurs pour l’entraînement des modèles, dont le plus récent compterait 10 000 GPU Nvidia A100 pour un coût de 1 milliard de yens (environ 138 millions de dollars). Fondé par Liang Wenfeng, diplômé en informatique, High-Flyer vise à atteindre une IA « superintelligente » à travers son organisation DeepSeek.
Conclusion
L’arrivée de DeepSeek-R1 sur la scène de l’IA marque une avancée significative dans le domaine des modèles de raisonnement. Bien que prometteur, ce modèle chinois doit encore faire face à des défis, notamment en termes de censure et de pression gouvernementale. Néanmoins, son émergence témoigne de l’évolution rapide du paysage de l’IA, avec la remise en question des « scaling laws » et l’émergence de nouvelles approches comme le « test-time compute ». Reste à voir comment DeepSeek-R1 se positionnera face à ses concurrents et quel impact il aura sur le développement futur de l’IA.