阿里巴巴人工智能部门今日正式发布Qwen3-VL视觉语言模型系列的紧凑版,推出4亿和8亿参数的变体。此举标志着先进多模态AI技术向边缘设备和资源受限环境更广泛应用的重大飞跃。

性能飞跃,小模型媲美巨头

此次发布的4B和8B模型均提供Instruct和Thinking版本,并针对STEM推理、视觉问答(VQA)、光学字符识别(OCR)、视频理解及代理任务等核心多模态能力进行了优化。

根据公布的基准测试结果,这些小型模型在多个类别中表现出色,超越了Gemini2.5Flash Lite和GPT-5Nano等竞争对手。更引人注目的是,其性能在若干领域甚至能与仅六个月前发布的更大规模Qwen2.5-VL-72B模型相媲美,展示出极高的参数效率。

阿里巴巴推出紧凑型Qwen3-VL模型,提升多模态AI效率,加速边缘设备部署

资源优化,推动AI民主化

新模型的关键亮点在于显著降低的VRAM使用率,使其可以直接在消费级硬件如笔记本电脑和智能手机上运行。为进一步提升效率,阿里巴巴还提供了FP8量化版本,在不牺牲核心能力的前提下进一步降低资源消耗。正如一位参与开发的Qwen团队成员所说:“小型VL模型适用于部署,并在手机和机器人领域具有显著意义。”

快速迭代,开源共享

此次紧凑模型的推出,延续了9月首发的Qwen3-VL系列(旗舰模型参数规模达2350亿)的路线图。此前,阿里巴巴在十月初已发布30B-A3B变体,通过仅30亿活跃参数实现了与GPT-5Mini和Claude4Sonnet相当的基准测试结果。这种快速迭代被业内视为阿里巴巴推动高性能AI民主化的有力体现,尤其适用于机器人等具身系统。

地址:

https://huggingface.co/collections/Qwen/qwen3-vl-68d2a7c1b8a8afce4ebd2dbe

https://github.com/QwenLM/Qwen3-VL/tree/main/cookbooks