当业界还在争论多模态AI能否真正落地,美团已悄然甩出一张王牌——全新开源大模型 LongCat-Flash-Omni 正式上线,并在多项基准测试中超越多个闭源竞品,实现“开源即SOTA”(State-of-the-Art)的罕见突破。这款名字中暗含“全能”之意的AI系统,不仅支持文本、语音、图像、视频的实时融合处理,更以近乎零延迟的交互体验,将本地化多模态智能推向新高度。

LongCat-Flash-Omni的惊艳之处,在于其对复杂跨模态任务的精准掌控。实测显示,面对“描述一个小球在六边形空间内的运动轨迹”这类融合物理逻辑与空间推理的问题,模型不仅能准确建模,还能用自然语言清晰解释动力学过程。在语音识别方面,即便在高噪声环境下,它仍能精准提取语义;面对模糊图像或短视频片段,也能快速定位关键信息并生成结构化回答。

美团“全能猫”横空出世!LongCat-Flash-Omni多模态大模型开源即登顶,实时交互快到离谱

这一切得益于其创新的端到端统一架构。不同于传统多模态模型将各模态分支独立处理再拼接,LongCat采用深度融合设计,让文本、音频、视觉数据在统一表征空间中对齐与推理。训练过程中,团队采用渐进式多模态注入策略——先夯实语言基础,再逐步引入图像、语音、视频数据,使模型在保持语言能力的同时,稳步提升跨模态泛化性能。

更令人意外的是其极致优化的响应速度。得益于Flash推理引擎与轻量化设计,LongCat-Flash-Omni在普通消费级GPU上即可实现流畅对话,用户在美团官方LongCat APP或网页端体验时,几乎感受不到输入与回复之间的延迟,真正实现“所问即所得”的自然交互。

美团“全能猫”横空出世!LongCat-Flash-Omni多模态大模型开源即登顶,实时交互快到离谱

目前,该模型已在美团旗下平台免费开放,开发者可通过Hugging Face获取权重,普通用户则可直接在应用内试用。这一举动不仅彰显美团在AI底层技术上的自信,也释放出推动国产多模态生态发展的明确信号。

在AI竞争从“单模态精度”转向“多模态协同”的关键节点,LongCat-Flash-Omni的出现,既是对技术边界的突破,也是对应用场景的重新定义。当外卖平台都能训练出比肩国际巨头的多模态大模型,中国AI的下半场,或许才刚刚开始。