Qwen2.5-VL d’Alibaba : L’IA qui contrôle PC et smartphones

Home - Technologies et Avenirs - Intelligence Artificielle - Qwen2.5-VL d’Alibaba : L’IA qui contrôle PC et smartphones
Qwen25 VL dAlibaba  LIA qui contrôle PC et smartphones   Innovationsfr
janvier 28, 2025

Qwen2.5-VL d’Alibaba : L’IA qui contrôle PC et smartphones

Alors que tous les regards sont tournés vers le laboratoire d'IA chinois DeepSeek cette semaine, son rival national Alibaba n'est pas en reste. L'équipe Qwen d'Alibaba vient en effet de dévoiler une nouvelle famille de modèles d'IA multimodaux baptisée Qwen2.5-VL, capable de prouesses impressionnantes dans l'analyse de texte, d'images et de vidéos.

Qwen2.5-VL : des modèles d'IA multimodaux surpuissants

Les nouveaux modèles Qwen2.5-VL présentés par Alibaba peuvent réaliser un large éventail de tâches allant du traitement de fichiers à la compréhension de vidéos, en passant par le comptage d'objets dans des images. Mais ce n'est pas tout : à l'instar du modèle alimentant l'agent conversationnel Operator d'OpenAI, Qwen2.5-VL est également capable de contrôler un ordinateur.

Selon les benchmarks réalisés par l'équipe Qwen, leur meilleur modèle Qwen2.5-VL surpasse GPT-4 d'OpenAI, Claude 3.5 Sonnet d'Anthropic et Gemini 2.0 Flash de Google sur toute une batterie de tests portant sur la compréhension vidéo, les mathématiques, l'analyse de documents et les questions-réponses.

Analyse de graphiques et extraction de données

Disponible en test dans l'application Qwen Chat d'Alibaba et au téléchargement sur la plateforme de développement Hugging Face, Qwen2.5-VL est capable d'analyser des graphiques et des images, d'extraire des données à partir de scans de factures et de formulaires, et de "comprendre" des vidéos de plusieurs heures. L'équipe Qwen affirme également que le modèle peut reconnaître "des propriétés intellectuelles issues de films et de séries TV, ainsi qu'une grande variété de produits".

Des restrictions liées au contexte chinois

Étant une IA développée par une entreprise chinoise, Qwen2.5-VL est soumis à certaines restrictions sur les sujets qu'il peut aborder, du moins dans l'application Qwen Chat. Lorsque l'on demande au modèle le plus grand et le plus performant, Qwen2.5-VL-72B, de parler des "erreurs de Xi Jinping", Qwen Chat renvoie un message d'erreur. En Chine, le régulateur d'Internet s'assure que les réponses des modèles d'IA "incarnent les valeurs socialistes fondamentales". De nombreux systèmes d'IA chinois refusent ainsi de répondre à des sujets qui pourraient susciter l'ire des autorités, comme l'autonomie de Taïwan.

Contrôle d'appareils : le point fort de Qwen2.5-VL

L'une des fonctionnalités les plus intéressantes de Qwen2.5-VL est sa capacité à interagir avec des logiciels, à la fois sur PC et sur appareils mobiles. Une vidéo postée sur X par Philipp Schmid, un responsable technique de Hugging Face, montre Qwen2.5-VL en train de lancer l'application Booking.com pour Android et de réserver un vol de Chongqing à Pékin.

Malgré toute la hype autour de DeepSeek, Qwen vient de sortir le meilleur multimodal open source ! Qwen 2.5 VL est un modèle langage-vision qui peut contrôler votre ordinateur, similaire à l'opérateur d'OpenAI, extraire des informations structurées à partir de graphiques, et plus encore !!

– Philipp Schmid, responsable technique chez Hugging Face

Une autre vidéo montre un modèle Qwen2.5-VL en train de contrôler des applications sur un bureau Linux, même s'il ne semble pas accomplir grand-chose au-delà du changement d'onglets. Les benchmarks de Qwen montrent d'ailleurs que Qwen2.5-VL obtient de mauvais scores sur OSWorld, un test qui tente de reproduire un environnement informatique réel.

Disponibilité et conditions d'utilisation

Les deux modèles plus petits et moins sophistiqués de la série Qwen2.5-VL, à savoir Qwen2.5-VL-3B et Qwen2.5-VL-7B, sont disponibles sous une licence permissive. Le fleuron Qwen2.5-VL-72B est quant à lui soumis à la licence personnalisée d'Alibaba, qui exige que les entreprises et les développeurs ayant plus de 100 millions d'utilisateurs actifs mensuels demandent l'autorisation de Qwen/Alibaba avant de déployer le modèle commercialement.

La Chine, un acteur majeur dans la course à l'IA

Avec Qwen2.5-VL, Alibaba démontre une nouvelle fois que la Chine est devenue un acteur incontournable dans le domaine de l'intelligence artificielle. Ses géants technologiques, au premier rang desquels Alibaba et Baidu, rivalisent désormais avec les mastodontes américains comme Google, Meta ou OpenAI en termes de puissance et de polyvalence de leurs modèles d'IA.

Reste à savoir si ces prouesses technologiques suffiront à faire oublier les controverses qui entourent régulièrement les entreprises chinoises, accusées de collusion avec le régime autoritaire de Pékin et de surveillance de masse. Une chose est sûre : dans la guerre sino-américaine pour la suprématie technologique, l'intelligence artificielle est devenue un champ de bataille crucial.

Share:

Ajouter Un Commentaire

Chercher

Catégories

Étiquettes

abus technologie Accord OpenAI Apple accélérateur innovation santé accélérateur startup accélérateur startups acquisition stratégique Amazon addiction réseaux sociaux adoption IA générative adoption intelligence artificielle all4pack emballages durables innovations packaging écoconception économie circulaire Andreessen Horowitz Twitter influence réseaux sociaux capital risque autonomie véhicules électriques avenir IA générative avenir intelligence artificielle barquettes inox consigne réduction déchets Berny transition écologique BoJ politique monétaire relance économique achats d'obligations transition monétaire campus cybersécurité chiffres inflation cloud computing commissaires vie privée compétitivité industrie automobile européenne conduite autonome confiance intelligence artificielle controverse Elon Musk crise financement startups données personnelles défis véhicules autonomes expansion internationale expérience utilisateur FinTech canadienne Géotechnique Décarbonation industrie Empreinte carbone Transition énergétique Prototype innovant IA conversationnelle IA industrie 4.0 Imagino levée de fonds marketing digital données clients expansion internationale Industrie du futur Relocalisation industrielle Transition écologique Startups deeptech Souveraineté technologique marchés financiers mobilité durable mobilité urbaine souveraineté numérique startup innovante startups innovantes transformation numérique transition énergétique économie circulaire énergies renouvelables

Beauty and lifestyle influencer

Follow my journey on all Social Media channels

Alienum phaedrum torquatos nec eu, vis detraxit periculis ex, nihilmei. Mei an pericula euripidis, hinc partem ei est.
facebook
5M+
Facebook followers
Follow Me
youtube
4.6M+
Youtube Subscribers
Subscribe Me
tiktok
7M+
Tiktok Followers
Follow Me
instagram
3.4M+
Instagram Followers
Follow Me