多模态大模型相关资讯及多模态大模型相关产品

英伟达推出统一音频智能模型 Nemotron-Labs-Audex-30B-A3B

在多模态大模型快速迭代的今天，音频处理能力往往容易被“牺牲”——很多模型在增强音频理解的同时，却导致了文本逻辑能力的下降。近日，NVIDIA 研究团队正式发布了一款名为 Nemotron-Labs-A…

AI 视频赛道格局重塑：谷歌 Gemini Omni Flash 登顶盲测榜首

在人工智能视频生成这一技术角逐的前沿阵地，最新的行业排名再次引发关注。7月3日，基于用户盲测反馈的权威排行榜 Video Arena 正式更新，谷歌 DeepMind 推出的文生视频模型 Gemini…

商汤科技秘密研发多模态模型“U1Pro”:由林达华牵头，预计7月启动内测对标OpenAI

商汤科技近期正秘密研发一款面向“设计”场景的多模态大模型，内部代号为“U1Pro”。该模型作为商汤“日日新”模型家族的新成员，由商汤联合创始人、首席科学家林达华牵头负责，旨在对标OpenAI旗下的 G…

重磅开源！原生多模态 LongCat-Next 发布，让视觉和语音成为 AI 的“母语”

全球人工智能界正迎来一场关于“AI母语”的技术革新。针对当前大模型普遍存在的“以语言为中心、外挂视觉或语音模块”的拼凑式异构架构，大模型研发团队于近日正式发布并开源了全新原生多模态大模型 LongCa…

先理解再动手！字节开源统一框架 Bernini，让 AI 视频编辑告别“碰运气”

AI 视频生成与编辑领域迎来底层逻辑的重构。字节跳动商业化技术团队近日正式开源了面向视频生成与视频编辑的统一框架——Bernini。该框架核心主打“先理解、再生成”的协同机制，旨在解决传统模型因无法精…

百度文心发布PaddleOCR-VL-1.6:准确率破96.33%刷新文档解析SOTA

百度正式发布文心大模型衍生模型PaddleOCR-VL-1.6，在OmniDocBench v1.6权威评测中以96.33%的准确率超越Gemini-3-Pro、GPT-5.2及GLM-OCR等国内外…

编程与GUI双向通吃!Qwen3.7-Plus 登场，11小时自主闭环开发真实APP

阿里正式发布了全新多模态大模型 Qwen3.7-Plus。该模型在 Qwen3.7强大的文本能力基础上，全面升级了视觉-语言能力，并将其统一为一体化的智能体基座。作为一款多模态交互混合智能…

阿里ATH事业群HappyHorse模型登顶AI视频榜，Elo积分力压Seedance2.0

4月10日，国产多模态大模型赛道近期涌现黑马，匿名模型“HappyHorse-1.0”在文本转视频（无音频）权威评测中，以1332的 Elo 积分空降榜首，其领先位居次席的字节跳动 Dreamina …

美团发布原生多模态 LongCat-Next：视觉语音实现底层统一

4 月 3 日，美团技术团队正式发布原生多模态大模型 LongCat-Next。该模型突破了传统“语言基座+插件”的拼凑架构，通过将图像、语音与文本统一转化为同源的离散 Token，让 AI 第一次能…

Qwen3.5-Omni 震撼发布:215项 SOTA 开启全感官 AI 时代

通义实验室昨晚正式发布全新多模态大模型 Qwen3.5-Omni。相比前代，该模型在理解力、交互感与任务执行力上实现了跨越式进化，标志着 AI 正在从“屏幕内的助手”真正走向“理解物理世界的智能体”。…

阿里通义发布 Fun-CineForge：开源影视级配音大模型，攻克音画同步难题

阿里通义实验室于3月16日正式发布并开源了影视级多场景配音多模态大模型 Fun-CineForge。该模型旨在解决 AI 配音中长期存在的口型不同步、情感表达缺失以及多角色音色不一致等核心痛点，并同步…

报道称DeepSeek V4 与腾讯姚顺雨混元模型 4 月同步发布

据《白鲸实验室》独家消息，备受期待的 DeepSeek V4 与姚顺雨新混元模型将于 2026 年 4 月正式发布。DeepSeek V4 是由梁文锋主导研发的多模态大模型，经过长期的打磨与提升，预计…

小红书新款AI编辑模型FireRed-Image-Edit v1.1开源，攻克ID一致性与复杂融合难题

2026年3月9日，小红书Super Intelligence团队正式发布图像编辑模型FireRed-Image-Edit v1.1。此次更新距离1.0版本发布仅过去不足一个月，标志着小红书在多模态大…

能自主决定何时“思考”！微软发布 Phi-4 15B 开源模型，主打小型化多模态

微软近日正式发布了全新的开源权重多模态大模型 Phi-4-reasoning-vision-15B。这款模型最大的技术突破在于其具备“自主决定思考时机”的能力——它能够智能判断任务难度，自主选择是快速…

编程效率暴增：Kimi K2.5 接入 Kimi Code，三倍额度福利限时开启

月之暗面近日宣布，旗下最强编程模型、原生多模态大模型 Kimi K2.5正式接入 Kimi Code。为了庆祝这一技术跨越，官方同步推出了限时福利与重磅计费调整，旨在为开发者提供更畅快、更精准的 AI…

商汤重磅开源 SenseNova-MARS：开启多模态自主推理新篇章

2026年1月29日，商汤科技正式宣布开源其多模态自主推理模型 SenseNova-MARS，并同步提供8B 和32B 两个版本。这款模型的发布，标志着多模态大模型在自主推理领域迈出了关键一步。技术…

神州云动CloudCC AI入选全球AI Agent图谱！汽车售后响应提速300%，企业级市场爆发式增长

企业级AI智能体（AI Agent）赛道迎来高速增长拐点。据最新发布的《2025年Q3全球企业级AI Agent优秀厂商图谱》，神州云动(CloudCC)凭借其多模态大模型融合平台成功入选，成为国内少…

多模态大模型最新评测出炉！Gemini-3-Pro断层第一，豆包、商汤领跑国产阵营，Qwen3-VL成首个开源高分模型

全球多模态大模型竞争格局再更新。近日，权威评测平台SuperCLUE-VLM发布2025年12月多模态视觉语言模型综合榜单，谷歌Gemini-3-Pro以83.64分断层领先，展现其在视觉理解与推理领…

Jan团队发布Jan-v2-VL-Max！30B多模态模型专攻长周期Agent任务，长序列执行稳超Gemini 2.5 Pro

在AI智能体（Agent）向复杂、多步任务演进的关键阶段，开源社区迎来一员新锐猛将。Jan团队今日正式发布 Jan-v2-VL-Max——一款300亿参数的多模态大模型，专为长周期、高稳定性自动化执行…

长跑型 AI 登场：Jan 团队发布 Jan-v2-VL，深度优化多步任务执行力

开源 AI 项目 Jan 团队近日正式推出了全新的多模态大模型 Jan-v2-VL-Max。这款拥有30B 参数的模型并非盲目追求通用性，而是精准锁定在“长周期执行任务”这一核心痛点上，旨在解决 AI…

前字节视觉大模型 AI 平台负责人潘欣加盟美团出任多模态AI创新业务负责人

前字节跳动视觉大模型AI平台负责人潘欣已于本周到岗，出任多模态AI创新业务负责人，直接向美团技术委员会汇报。至此，这家市值千亿港元的生活服务巨头在 2025 年“外卖＋AI”战略中补齐了最核心的一块算…

智谱开源 GLM-4.6V 系列：106B 原生支持 Function Call，轻量版 9B 免费商用

智谱正式并上线开源 GLM-4.6V 多模态大模型系列，含基础版 GLM-4.6V（总参106B，激活12B）与轻量版 GLM-4.6V-Flash(9B)。新模型将上下文窗口提升至128k toke…

智源研究院推出全球最强多模态世界模型Emu3.5 一键预测真实世界“下一秒”！

12月4日，北京智源人工智能研究院正式发布新一代多模态大模型Emu3.5，被誉为“真正理解物理世界的AI”。与以往图像、视频、文本模型各自为战不同，Emu3.5首次实现“世界级统一建模”，让AI从“会…

巨量引擎亮出AI治理“利剑”：自研多模态大模型10分钟审90%广告，单季拦截84万违规素材

当AI生成内容席卷广告行业，虚假宣传、违规素材和恶意诱导也悄然滋生。面对这场由技术催生的新风险，巨量引擎选择用更强大的AI来守护秩序。近日，其首次公开自研的AI广告治理大模型，以“全链路治理”为框架、…

突破瓶颈！上交大与上海AI Lab携手提升多模态大模型反思能力

多模态大模型（MLLM）在解决复杂问题方面逐渐展现出强大的潜力。然而，这些模型在处理复杂推理时常常显得 “耿直”，缺乏反思能力，导致在面对需要多次尝试的挑战时难以回头。为了解决这一问题，上海交通大学与…

2025年9月19日，生数科技宣布完成新一轮数亿元人民币规模的A轮融资，此次融资由博华资本领投，百度战投、北京市人工智能产业投资基金、启明创投、达泰资本、BV百度风投等老股东持续跟投，同时建发新兴投资…

阿里启动近千人AI招聘计划重点布局大模型与AI硬件

阿里巴巴集团旗下智能信息事业群近日启动了近年最大规模的AI人才招聘计划，面向社招与校招，总规模接近千人，覆盖北京、上海、杭州、广州等核心城市。本轮招聘重点聚焦大语言模型、多模态识别与理解、多模态训练…

小米再出AI黑马！开源多模态大模型 MiMo-VL-7B-2508 性能大幅跃升，支持思考模式切换

小米宣布开源全新版本的多模态大模型——Xiaomi MiMo-VL-7B-2508，并同步推出 SFT 和 RL 两个模型版本。此次升级不仅优化了输出模式，还提升了 RL 训练的稳定性，在多项能力评测…