内容持续更新中
在人工智能技术飞速发展的今天,中国科学院计算技术研究所自然语言处理团队推出了一款名为 Stream-Omni 的文本 – 视觉 – 语音多模态大模型。这一模型的核心亮点在于它能…
近日,意大利特伦托大学、德国柏林工业大学及慕尼黑工业大学的研究团队联合推出了开源多模态大模型 EarthMind,该模型旨在高效分析和理解复杂的地球观测数据。这一创新的模型能够处理多粒度和多传感器的地…
2025年6月29日,阿里巴巴国际AI团队正式发布了全新多模态大模型 **Ovis-U1**,标志着其在多模态人工智能领域的又一重大突破。作为Ovis系列的最新力作,Ovis-U1将多模态理解、图像生…
近日,Qwen VLo多模态大模型正式发布,该模型在图像内容理解与生成方面取得了显著进展,为用户带来了全新的视觉创作体验。 据介绍,Qwen VLo在继承原有Qwen-VL系列模型优势的基础上,进行了…
近日,来自香港大学、香港中文大学以及商汤科技的研究团队发布了一个令人瞩目的新框架 ——GoT-R1。这一全新的多模态大模型通过引入强化学习(RL),在视觉生成任务中显著提升了 AI 的语义和空间推理能…
在人工智能领域,多模态大模型(MLLM)一直在不断进化,然而最近一个新发布的基准测试 ——SolidGeo,给这些模型带来了前所未有的挑战。由中国科学院自动化研究所的研究团队推出的 SolidGeo,…
近日,由清华大学、腾讯混元、斯坦福大学及卡耐基梅隆大学的研究团队联合发布了一项新评估基准 ——RBench-V,专门针对多模态大模型的视觉推理能力进行测试。该基准的推出,旨在填补当前评估体系中对模型视…
阶跃星辰与原力灵机在北京签署了战略合作协议,双方将利用各自的技术优势,在多模态大模型技术、智能终端 Agent 和具身智能场景方面展开深入合作。此次合作的目标是实现 “实现在物理世界的推理”,共同开发…
在人工智能迅速发展的今天,上海人工智能实验室再次引领潮流,推出了全新的多模态大模型 “书生・万象3.0”。这一升级版本不仅在技术上进行了全面提升,还在多模态预训练和后训练方法的加持下,展现出了更强大的…
近日,商汤科技创始人徐立正式发布了其最新一代人工智能大模型“日日新V6”,这一消息迅速引发了科技圈的热烈讨论。据AIbase了解,日日新V6在多模态能力上实现了重大突破,进一步巩固了商汤科技在AI领域…
Meta 公司推出了其最新的开源人工智能模型 Llama4,标志着其在人工智能领域的又一重大进展。Llama4分为两个版本,分别命名为 Scout 和 Maverick,旨在提升 AI 模型的功能与表…
近日,百度正式推出其最新的文心大模型4.5及文心大模型 X1,用户可在文心一言官网免费体验这两款先进的模型。文心4.5是百度首个原生多模态大模型,专注于多模态理解和逻辑推理,其性能在多项基准测试中超越…
阿里巴巴宣布推出AI旗舰应用——新夸克。新夸克基于阿里通义领先的推理及多模态大模型,全面升级为一个无边界的“AI超级框”。 “新夸克” 不仅具备强大的推理能力,还能够实现多模态的交互,用户在使用过程中…
3月13日,阿里巴巴正式推出其AI旗舰应用——新夸克。这款全新升级的夸克基于阿里通义领先的推理及多模态大模型,打造了一个无边界的“AI超级框”,为用户带来全新的AI体验。 新夸克的创新之处在于将AI对…
谷歌 CEO 桑达尔・皮查伊(Sundar Pichai)在一场发布会上宣布,谷歌开源了最新的多模态大模型 Gemma-3,该模型以低成本、高性能为特点,备受关注。 Gemma-3提供了四种不同参数规…
近日,魔乐社区(Modelers)正式上线了由阶跃星辰研发的 Step-Video 和 Step-Audio 两款开源多模态大模型。这两款模型分别用于视频生成和语音交互,旨在为开发者和企业用户提供更强…
今日,阶跃星辰与吉利汽车集团宣布,联合开源两款阶跃Step系列多模态大模型——Step-Video-T2V视频生成模型和Step-Audio语音模型。 其中,阶跃Step-Video-T2V视频生成模…
近日,当虹科技宣布其 BlackEye 多模态视听大模型成功完成与 DeepSeek-R1和 DeepSeek Janus Pro 的深度融合。这一里程碑式的进展标志着当虹科技在视听传媒、工业与卫星、…
前微软亚洲研究院视觉计算组的首席研究员胡瀚已正式加入腾讯,接替已离职的前腾讯混元大模型技术负责人刘威,承担起多模态大模型的研发任务。这一消息引起了业界的广泛关注。 胡瀚的学术背景十分扎实。2008年,…
12月30日,支付宝推出新一代AI视觉搜索产品“探一下”,基于自研的多模态大模型技术,可“用AI之眼探索万物”,提供更快速、有用、趣味的生成式搜索服务。 用户遇到感兴趣的事物,就能让AI通过摄像头,识…
有“AI教母”之称的斯坦福大学教授李飞飞及其团队近日发布了一项关于多模态大模型“空间智能”的研究,揭示这些模型在记忆和回忆空间方面已经具备初步能力,并展现出形成局部世界模型的潜力。 研究团队开发了用于…
近日,视觉中国宣布与北京生数科技有限公司建立战略合作关系,双方将共同探索并建立“视觉产业大模型平台及应用”。这一合作致力于深化人工智能技术在视觉内容产业的应用,并推动产业智能化升级,旨在为全球视觉内容…
近日,厦门大学信息学院史晓东教授团队的“基于甲骨文多模态大模型的多元信息甲骨文辅助考释模型”入选“探元计划2024”创新探索型项目TOP10榜单,为甲骨文的现代化考释开辟了新路径。 甲骨文作为世界四大…