
Qwen2.5-VL d’Alibaba : L’IA qui contrôle PC et smartphones
Alors que tous les regards sont tournés vers le laboratoire d'IA chinois DeepSeek cette semaine, son rival national Alibaba n'est pas en reste. L'équipe Qwen d'Alibaba vient en effet de dévoiler une nouvelle famille de modèles d'IA multimodaux baptisée Qwen2.5-VL, capable de prouesses impressionnantes dans l'analyse de texte, d'images et de vidéos.
Qwen2.5-VL : des modèles d'IA multimodaux surpuissants
Les nouveaux modèles Qwen2.5-VL présentés par Alibaba peuvent réaliser un large éventail de tâches allant du traitement de fichiers à la compréhension de vidéos, en passant par le comptage d'objets dans des images. Mais ce n'est pas tout : à l'instar du modèle alimentant l'agent conversationnel Operator d'OpenAI, Qwen2.5-VL est également capable de contrôler un ordinateur.
Selon les benchmarks réalisés par l'équipe Qwen, leur meilleur modèle Qwen2.5-VL surpasse GPT-4 d'OpenAI, Claude 3.5 Sonnet d'Anthropic et Gemini 2.0 Flash de Google sur toute une batterie de tests portant sur la compréhension vidéo, les mathématiques, l'analyse de documents et les questions-réponses.
Analyse de graphiques et extraction de données
Disponible en test dans l'application Qwen Chat d'Alibaba et au téléchargement sur la plateforme de développement Hugging Face, Qwen2.5-VL est capable d'analyser des graphiques et des images, d'extraire des données à partir de scans de factures et de formulaires, et de "comprendre" des vidéos de plusieurs heures. L'équipe Qwen affirme également que le modèle peut reconnaître "des propriétés intellectuelles issues de films et de séries TV, ainsi qu'une grande variété de produits".
Des restrictions liées au contexte chinois
Étant une IA développée par une entreprise chinoise, Qwen2.5-VL est soumis à certaines restrictions sur les sujets qu'il peut aborder, du moins dans l'application Qwen Chat. Lorsque l'on demande au modèle le plus grand et le plus performant, Qwen2.5-VL-72B, de parler des "erreurs de Xi Jinping", Qwen Chat renvoie un message d'erreur. En Chine, le régulateur d'Internet s'assure que les réponses des modèles d'IA "incarnent les valeurs socialistes fondamentales". De nombreux systèmes d'IA chinois refusent ainsi de répondre à des sujets qui pourraient susciter l'ire des autorités, comme l'autonomie de Taïwan.
Contrôle d'appareils : le point fort de Qwen2.5-VL
L'une des fonctionnalités les plus intéressantes de Qwen2.5-VL est sa capacité à interagir avec des logiciels, à la fois sur PC et sur appareils mobiles. Une vidéo postée sur X par Philipp Schmid, un responsable technique de Hugging Face, montre Qwen2.5-VL en train de lancer l'application Booking.com pour Android et de réserver un vol de Chongqing à Pékin.
Malgré toute la hype autour de DeepSeek, Qwen vient de sortir le meilleur multimodal open source ! Qwen 2.5 VL est un modèle langage-vision qui peut contrôler votre ordinateur, similaire à l'opérateur d'OpenAI, extraire des informations structurées à partir de graphiques, et plus encore !!
– Philipp Schmid, responsable technique chez Hugging Face
Une autre vidéo montre un modèle Qwen2.5-VL en train de contrôler des applications sur un bureau Linux, même s'il ne semble pas accomplir grand-chose au-delà du changement d'onglets. Les benchmarks de Qwen montrent d'ailleurs que Qwen2.5-VL obtient de mauvais scores sur OSWorld, un test qui tente de reproduire un environnement informatique réel.
Disponibilité et conditions d'utilisation
Les deux modèles plus petits et moins sophistiqués de la série Qwen2.5-VL, à savoir Qwen2.5-VL-3B et Qwen2.5-VL-7B, sont disponibles sous une licence permissive. Le fleuron Qwen2.5-VL-72B est quant à lui soumis à la licence personnalisée d'Alibaba, qui exige que les entreprises et les développeurs ayant plus de 100 millions d'utilisateurs actifs mensuels demandent l'autorisation de Qwen/Alibaba avant de déployer le modèle commercialement.
La Chine, un acteur majeur dans la course à l'IA
Avec Qwen2.5-VL, Alibaba démontre une nouvelle fois que la Chine est devenue un acteur incontournable dans le domaine de l'intelligence artificielle. Ses géants technologiques, au premier rang desquels Alibaba et Baidu, rivalisent désormais avec les mastodontes américains comme Google, Meta ou OpenAI en termes de puissance et de polyvalence de leurs modèles d'IA.
Reste à savoir si ces prouesses technologiques suffiront à faire oublier les controverses qui entourent régulièrement les entreprises chinoises, accusées de collusion avec le régime autoritaire de Pékin et de surveillance de masse. Une chose est sûre : dans la guerre sino-américaine pour la suprématie technologique, l'intelligence artificielle est devenue un champ de bataille crucial.