阿里巴巴人工智能部门今日正式发布Qwen3-VL视觉语言模型系列的紧凑版,推出4亿和8亿参数的变体。此举标志着先进多模态AI技术向边缘设备和资源受限环境更广泛应用的重大飞跃。
性能飞跃,小模型媲美巨头
此次发布的4B和8B模型均提供Instruct和Thinking版本,并针对STEM推理、视觉问答(VQA)、光学字符识别(OCR)、视频理解及代理任务等核心多模态能力进行了优化。
根据公布的基准测试结果,这些小型模型在多个类别中表现出色,超越了Gemini2.5Flash Lite和GPT-5Nano等竞争对手。更引人注目的是,其性能在若干领域甚至能与仅六个月前发布的更大规模Qwen2.5-VL-72B模型相媲美,展示出极高的参数效率。
资源优化,推动AI民主化
新模型的关键亮点在于显著降低的VRAM使用率,使其可以直接在消费级硬件如笔记本电脑和智能手机上运行。为进一步提升效率,阿里巴巴还提供了FP8量化版本,在不牺牲核心能力的前提下进一步降低资源消耗。正如一位参与开发的Qwen团队成员所说:“小型VL模型适用于部署,并在手机和机器人领域具有显著意义。”
快速迭代,开源共享
此次紧凑模型的推出,延续了9月首发的Qwen3-VL系列(旗舰模型参数规模达2350亿)的路线图。此前,阿里巴巴在十月初已发布30B-A3B变体,通过仅30亿活跃参数实现了与GPT-5Mini和Claude4Sonnet相当的基准测试结果。这种快速迭代被业内视为阿里巴巴推动高性能AI民主化的有力体现,尤其适用于机器人等具身系统。
地址:
https://huggingface.co/collections/Qwen/qwen3-vl-68d2a7c1b8a8afce4ebd2dbe
https://github.com/QwenLM/Qwen3-VL/tree/main/cookbooks
发评论,每天都得现金奖励!超多礼品等你来拿
登录 在评论区留言并审核通过后,即可获得现金奖励,奖励规则可见: 查看奖励规则