阿里巴巴通义千问团队近日发布了Qwen3-VL系列的两款轻量级模型——4B和8B参数版本。Qwen3-VL系列于上月首次亮相,是通义千问迄今推出的能力最强的视觉语言模型家族。此次新增的小参数版本旨在降低部署门槛,同时保持强劲的性能表现。
新发布的模型包含4B和8B两种参数规模,每种规模均提供Instruct(指令遵循)和Thinking(思维链推理)两个版本,为开发者提供了更灵活的选择空间。从功能定位来看,这两款模型在保持完整能力的前提下显著压缩了体积。
在技术实现上,新模型达成了三个核心目标。首先是大幅降低了硬件资源要求,参数规模的缩减使得显存占用明显减少,让开发者能够在更多类型的消费级和边缘设备上部署运行。其次,尽管模型尺寸大幅缩小,但完整继承了Qwen3-VL系列的所有核心能力,包括多模态理解、长文本处理和复杂推理等功能模块。
从性能表现来看,这两款轻量级模型在多项权威基准测试中展现出超越同等规模竞品的实力。在STEM学科问答、视觉问答(VQA)、光学字符识别(OCR)、视频理解以及Agent任务等场景中,4B和8B模型不仅超过了Google Gemini2.5Flash Lite和OpenAI GPT-5Nano等同类轻量级模型,在部分任务上甚至能够接近半年前发布的72B参数旗舰模型Qwen2.5-VL-72B的水平。
这一发布标志着大模型"小型化"趋势的又一进展。通过模型压缩和优化技术,开发团队在保持能力完整性的前提下实现了参数量与计算成本的大幅削减,为视觉语言模型在移动端、物联网设备等资源受限场景的应用铺平了道路。对于需要在本地部署或对推理成本敏感的企业用户而言,这两款新模型提供了更具性价比的解决方案。
模型地址:https://huggingface.co/collections/Qwen/qwen3-vl-68d2a7c1b8a8afce4ebd2dbe
发评论,每天都得现金奖励!超多礼品等你来拿
登录 在评论区留言并审核通过后,即可获得现金奖励,奖励规则可见: 查看奖励规则