多模态大型语言模型相关资讯及多模态大型语言模型相关产品

上海AI实验室开源InternVL3系列多模态大型语言模型

4月11日，OpenGVLab开源发布了InternVL3系列模型，这标志着多模态大型语言模型（MLLM）领域迎来了新的里程碑。InternVL3系列包含从1B到78B共7个尺寸的模型，能够同时处理文…

面壁智能推MiniCPM-o 2.6：一款适用于手机的多模态智能大模型

OpenBMB 团队近日推出了 MiniCPM-o2.6，这是该系列中最新、功能最强大的多模态大型语言模型（MLLM）。MiniCPM-o2.6的最大亮点在于它的8亿参数，使其在视觉、语音以及多模态直…

精选视频

阿里巴巴达摩院推出电商场景多模态大模型Valley 2

阿里巴巴达摩院近日推出了一款名为Valley2的多模态大型语言模型，该模型基于电商场景设计，旨在通过可扩展的视觉-语言架构，提升各领域性能并拓展电商与短视频场景的应用边界。Valley2采用了Qwen…

中文视觉语音开源模型VITA-1.5发布具备类GPT 4o高级语音和视觉能力

最近，多模态大型语言模型（MLLM）取得了显著进展，特别是在视觉和文本模态的集成方面。但随着人机交互的日益普及，语音模态的重要性也日益凸显，尤其是在多模态对话系统中。语音不仅是信息传输的关键媒介，还能…

精选视频

书生·万象多模态大模型InternVL 2.5开源性能媲美GPT-4o

近日，上海 AI 实验室宣布推出书生·万象InternVL2.5模型。这款开源多模态大型语言模型以其卓越的性能，成为首个在多模态理解基准(MMMU)上超过70%准确率的开源模型，与商业模型如GPT-4…

亚马逊开发新型多模态语言模型 “Olympus” 或将亮相 AWS 大会

亚马逊公司近日被报道正在开发一种名为 “Olympus” 的多模态大型语言模型，预计最早将于下周的 AWS re:Invent 大会上正式发布。根据theinformation的消息，这一算法的内部代…

视频理解领域杀出黑马！Video-XL这款模型能处理长达一小时的视频！

当前，多模态大型语言模型（MLLM）在视频理解领域取得了显著进展，但处理超长视频仍然是一个挑战。这是因为，MLLM 通常难以处理超过最大上下文长度的数千个视觉标记，并且会受到标记聚合导致的信息衰减的…

Meta开源长视频LLM项目LongVU：可过滤重复帧高效精准理解长视频内容

最近，Meta AI 团队带来了 LongVU，这是一种新颖的时空自适应压缩机制，旨在提升长视频的语言理解能力。传统的多模态大型语言模型（MLLMs）在处理长视频时面临着上下文长度的限制，而 Long…

清华大学、腾讯联合推全开源多模态架构Oryx 支持超长视频输入

在人工智能快速发展的今天，一个名为ORYX的多模态大型语言模型正在悄然改变我们对AI理解视觉世界能力的认知。这个由清华大学、腾讯和南洋理工大学研究人员联合开发的AI系统，堪称视觉处理领域的"…

Apple 旨在利用 UI-JEPA 模型来理解设备上的用户意图

随着人工智能技术的不断进步，用户界面（UI）的理解成为了创建直观且有用的AI应用程序的关键挑战。最近，苹果公司的研究人员在一篇新论文中介绍了UI-JEPA，这是一种旨在实现轻量级设备端UI理解的架构，…

NVIDIA推全新视觉语音模型NVEagle，可以看图跟你聊天

最近，NVIDIA 联合 Georgia Tech、UMD 和 HKPU 的研究团队推出了全新的视觉语言模型 ——NVEagle。它能看懂图片还能跟你聊天，这相当于一个会看会说的超级助手。比如在下面…

清华与北大合作发布长视频理解基准测试：LVBench

站长之家（ChinaZ.com）6月17日消息:近日，智谱、清华大学和北京大学合作推出了一个名为LVBench的长视频理解基准测试项目。现有的多模态大型语言模型虽然在短视频理解方面取得了长足进步，但…