Alors que l’attention se porte principalement sur DeepSeek cette semaine, son rival chinois Alibaba n’est pas en reste. L’équipe Qwen d’Alibaba vient de dévoiler une nouvelle famille de modèles d’intelligence artificielle capables d’analyser textes et images, mais aussi de contrôler des ordinateurs et téléphones, à l’image de l’assistant Operator récemment lancé par OpenAI.
Qwen2.5-VL : Des Modèles Qui Repoussent Les Limites
D’après les benchmarks réalisés par l’équipe Qwen, leur meilleur modèle Qwen2.5-VL surpasse GPT-4o d’OpenAI, Claude 3.5 Sonnet d’Anthropic et Gemini 2.0 Flash de Google sur un large éventail de tâches allant de la compréhension vidéo aux mathématiques, en passant par l’analyse de documents et les questions-réponses.
Qwen2.5-VL, disponible sur l’app Qwen Chat d’Alibaba et sur la plateforme de développement IA Hugging Face, peut notamment :
- Analyser des graphiques et schémas
- Extraire des données de factures et formulaires scannés
- « Comprendre » des vidéos de plusieurs heures
- Reconnaître des propriétés intellectuelles de films, séries TV et produits
Cette dernière fonctionnalité suggère que les modèles ont probablement été entraînés en partie sur des œuvres protégées par le droit d’auteur. Un sujet qui soulève des questions éthiques et légales sur lesquelles Alibaba devra se pencher.
Une IA Made In China Sous Surveillance
Qwen2.5-VL étant développé par une entreprise chinoise, il est soumis à certaines restrictions sur les sujets qu’il peut aborder, du moins sur Qwen Chat. Les systèmes d’IA chinois ont en effet pour consigne de décliner les thèmes sensibles susceptibles de froisser le gouvernement, comme l’autonomie de Taïwan.
Le régulateur d’internet chinois évalue de nombreux modèles développés dans le pays pour s’assurer que leurs réponses « incarnent les valeurs socialistes fondamentales ».
Le Contrôle Informatique, Grande Force De Qwen2.5-VL
L’une des fonctionnalités les plus intéressantes de Qwen2.5-VL est sa capacité à interagir avec des logiciels, sur PC comme sur mobile. Une vidéo postée sur X par Philipp Schmid de Hugging Face montre le modèle en train de lancer l’application Booking.com sur Android et de réserver un vol entre deux villes chinoises.
Sur une démonstration avec un ordinateur Linux, un modèle Qwen2.5-VL contrôle différentes applications, même s’il ne semble pas réaliser de tâches très poussées au-delà du changement d’onglets. Les benchmarks de Qwen révèlent d’ailleurs un score assez faible sur OSWorld, un test cherchant à reproduire un véritable environnement informatique.
Un Accès Libre, Mais Sous Conditions Pour Les Entreprises
Les deux modèles plus petits et moins sophistiqués de la série, Qwen2.5-VL-3B et 7B, sont disponibles sous licence open-source permissive. Le fleuron Qwen2.5-VL-72B est quant à lui soumis à une licence custom d’Alibaba. Les entreprises et développeurs comptant plus de 100 millions d’utilisateurs actifs mensuels doivent demander l’autorisation de Qwen/Alibaba avant tout déploiement commercial.
Avec ces nouveaux modèles multi-tâches et « plug-and-play », Alibaba montre qu’il compte bien rester dans la course à l’IA aux côtés des géants américains et de son compatriote DeepSeek. Un domaine en pleine effervescence où les avancées s’enchaînent à un rythme effréné. Les assistants virtuels n’ont pas fini de nous surprendre !