近日,艾伦人工智能研究所(Ai2)发布了全新的 Molmo2开源视频语言模型。这一系列新模型和相关训练数据展示了该非营利机构在开源领域的坚定承诺,特别是在企业希望掌控模型使用的背景下,这无疑是一项重大利好。

​艾伦人工智能研究所推出 Molmo 2 开源视频语言模型

Molmo2包含几种不同的模型版本,包括基于阿里巴巴 Qwen3语言模型的 Molmo2-4B 和 Molmo2-8B,此外还有基于 Ai2Olmo 语言模型的完全开源版本 Molmo2-O-7B。除了模型,Ai2还推出了九个新的数据集,这些数据集包括多图像和视频输入的长格式质量保证数据集,以及一个开放的视频指向和跟踪数据集。

Molmo2的一个显著特点是其增强的功能。根据 Ai2的介绍,Molmo2-O-7B 是一个透明模型,允许用户进行端到端的研究和定制。这意味着用户可以全面访问视觉语言模型及其语言学习模型(LLM),从而能够更灵活地调整模型以满足特定需求。

Molmo2模型支持用户提问关于图像或视频的问题,并能够基于视频中识别的模式进行推理。Ai2的感知推理和交互研究主管 Ranjay Krishna 表示,这些模型不仅能给出答案,还能够在时间和空间上明确指出某些事件发生的时刻。此外,Molmo2还具备生成描述性字幕、追踪物体数量以及检测长视频序列中的罕见事件等能力。

用户可以在 Hugging Face 和 Ai2Playground 上使用 Molmo2,后者是 Ai2提供的平台,用户可以体验各种工具和模型。该发布彰显了 Ai2对开源的坚持,分析师 Bradley Shimmin 指出,发布与模型相关的数据和权重对于企业至关重要,尤其是在重视数据主权的背景下。

Molmo 系列的模型参数相对较小(40亿或80亿个参数),这对于很多企业来说更加经济实惠。Shimmin 强调,企业逐渐意识到,模型的大小并不是唯一的关键,训练数据的透明度和负责性同样重要。

项目:https://allenai.org/blog/molmo2

划重点:

1. 🚀 Ai2发布 Molmo2系列开源视频语言模型,增强了企业对模型使用的掌控。

2. 🎥 新模型支持多图像和视频输入,能够进行事件推理和生成描述性字幕。

3. 📊 Ai2坚持开源承诺,强调数据透明度和模型定制化的重要性。