多模态AI相关资讯及多模态AI相关产品

多模态AI思维导图工具GitMind推出终身订阅计划，支持多源资料秒级生成图表

7月21日，效率工具领域推出全新多模态AI功能升级，多功能思维导图软件GitMind联合StackCommerce推出了售价49.99美元（原价169美元）的单用户基础计划终身订阅服务，提供包含未来更…

6 人团队 48 小时搞定电影级长视频！华科大自研AI平台“爱乌”破解行业穿帮痛点

5月中旬，华中科技大学视频号发布的一部《新江汉揽胜图》电影版引发了广泛关注。这部浓缩江城千年史诗的10分钟长视频，其初剪版竟是由该校设计学院6人学生团队在短短48小时内完成的。创造这一“效率奇迹”的幕…

OpenAI 战略转型：ChatGPT 拟接入视频生成工具 Sora

据知情人士透露，OpenAI 计划将其人工智能视频生成器 Sora 整合至 ChatGPT 平台。这一重磅战略转变旨在拓展其多模态 AI 技术布局，通过强化视频创作能力，重塑 ChatGP…

中国AI崛起：全球调用量首次超越美国，投资机会引关注！

最近的数据显示，中国的人工智能（AI）产业正在迅速崛起，尤其是在全球市场上的表现令人瞩目。根据华龙证券的计算机行业周报，全球最大 AI 模型 API 聚合平台 OpenRouter 的最新数据表明，2…

深度交互新纪元：三星官宣 2026 年推出多模态 AI 智能眼镜

三星电子在近日的战略发布中明确了其在可穿戴领域的下一个“大动作”。三星移动体验执行副总裁 Seong Cho 证实，备受瞩目的“下一代 AR 眼镜”已正式排期，将于2026年内面世。核心亮点:从“显…

三星官宣：下一代 AR 眼镜将于 2026 年发布，主打多模态 AI

在近日举行的2025年第四季度财报电话会议上，三星正式确认其备受期待的“下一代 AR 眼镜”计划于2026年内面世。这款新产品将不再仅仅是显示终端，而是进化的“多模态 AI 载体”。核心卖点:深度沉…

多模态AI引爆A股！多只概念股集体涨停，市场押注下一代人机交互革命

多模态人工智能的商业化浪潮正加速席卷资本市场。1月12日，A股多模态AI概念板块强势爆发，焦点科技、易点天下、引力传媒、新华网、浙数文化等个股全线涨停，昆仑万维、中文在线、拓尔思、因赛集团、万兴科技、…

声智科技推全球首款“多模态AI时尚耳机”！声视融合，Kickstarter首发开启随身感知新时代

可穿戴设备迎来“感知革命”。中国AI声学领军企业声智科技（SoundAI）宣布，其全球首款多模态AI时尚耳机将于海外知名众筹平台Kickstarter全球首发。该产品突破传统耳机仅限音频交互的局限，创…

前字节跳动视觉模型负责人潘欣加盟美团，主导多模态 AI 创新

据智能涌现消息，外卖巨头美团在 AI 战略上迈出了重要一步，前字节跳动视觉模型 AI 平台负责人潘欣正式加入公司，负责多模态 AI 的创新工作。这一人事变动被业内广泛关注，标志着美团在竞争日益激烈的外…

ElevenLabs炸裂级更新：图像、视频、音乐一站式生成

多模态AI龙头ElevenLabs重磅官宣:全新「Image & Video平台」正式上线!这不再是单纯的语音工具，而是一座集图像生成、视频生成、声音合成、音乐创作、音效设计于一体的超级AI内…

文心大模型5.0重磅发布！百度推全球首个“原生全模态”大模型，李彦宏：智能本身就是最大应用

在今日举行的百度世界大会上，百度创始人、董事长兼CEO李彦宏正式发布文心大模型5.0，并将其定义为“统一的原生全模态模型”——这一命名不仅宣告百度在多模态AI领域的技术跃迁，更标志着国产大模型正式迈入…

一张合影就能泄露全家信息？央视紧急预警：“读心AI”正让社交晒图变成隐私炸弹

你以为只是随手发了张旅行合照?在AI大模型的“火眼金睛”下，这张照片可能正在泄露你的住址、身份证号、家庭关系甚至行程轨迹。在2025年世界互联网大会期间，央视新闻罕见发出高危警示:随着多模态AI的普及…

美团“全能猫”横空出世！LongCat-Flash-Omni多模态大模型开源即登顶，实时交互快到离谱

当业界还在争论多模态AI能否真正落地，美团已悄然甩出一张王牌——全新开源大模型 LongCat-Flash-Omni 正式上线，并在多项基准测试中超越多个闭源竞品，实现“开源即SOTA”（State-…

盲人也能“看见”街景？Google新AI系统让虚拟探索无障碍，科技向善迈出关键一步

近日，其发布了一款名为StreetReaderAI的创新原型系统，旨在让盲人及低视力用户也能无障碍地“游览”Google街景——不再是被动接收信息，而是通过自然语言与虚拟环境实时互动，真正实现自主探索…

百度小度 AI 眼镜将于百度世界2025大会正式发布，年内开售

据报道，百度旗下小度 AI 眼镜将于 11月举行的百度世界2025大会上正式发布，并计划在今年年内开售。这款产品是百度在多模态 AI 与可穿戴设备领域的重要落地成果，标志着其在智能硬件生态中的…

xAI 推出视频生成模型 Imagine v0.9，迈入“电影级一键生成”时代

10月9日，马斯克旗下 xAI 宣布推出其最新视频生成模型 Imagine v0.9，标志着该公司在多模态 AI 创作领域取得重大突破。相比早期版本 v0.1，新模型在画质、动作自然度与音频生成等方面…

生数科技获数亿元融资，视频生成引领AI商业化新潮流

近日，多模态 AI 领域的先锋企业生数科技宣布成功完成数亿元人民币的 A 轮融资。这轮融资由博华资本领投，老股东百度战投、北京市人工智能产业投资基金等多个投资方继续跟进，显示出市场对生数科技的高度认可…

MiniMax重磅发布视频Agent工具：一句话生成高清视频，人脸ID还能完美一致！

近日，MiniMax公司推出了一款令人瞩目的视频Agent工具，为视频生成技术带来了全新突破。这款工具不仅支持通过简单文本指令生成完整视频，还能通过上传人脸图片实现视频中人物身份的精准一致性，展现了M…

多模态AI席卷网络，DeepMind Veo 3与GPT-4o引领增长新引擎

近年来，多模态AI技术以其强大的跨领域能力，逐渐成为科技行业的增长引擎。谷歌DeepMind最新发布的Veo3模型以及OpenAI的GPT-4o，通过结合文本、图像、视频甚至音频的生成能力，不仅提升了…

国内首个多模态AI程序员正式上岗文心快码Coding智能体Zulu正式发布

2025年4月25日，百度Create AI开发者大会在北京隆重举行。在这场备受瞩目的科技盛会中，百度正式发布了文心快码3.5版本以及国内首个多模态AI程序员——文心快码Comate Zulu智能体，…

Moonshot AI发布Kimi-Audio：开源音频基础模型树立新标杆

近日，Moonshot AI正式宣布推出Kimi-Audio，一款全新的开源音频基础模型，旨在推动音频理解、生成和交互领域的技术进步。这一发布引发了全球AI社区的广泛关注，被认为是多模态AI发展的重要…

Grok大更新！视觉能力、多语言音频处理与实时搜索功能震撼上线

由xAI打造的生成式人工智能聊天机器人Grok迎来了一次里程碑式的更新，其功能全面升级，不仅新增了视觉处理能力，还实现了多语言音频处理以及语音模式下的实时搜索功能。这一更新标志着Grok在多模态AI领…

苹果与索邦大学联合研究：早期融合与稀疏架构助力多模态 AI 发展

在多模态人工智能（AI）领域，苹果公司的工程师们与法国索邦大学的研究团队合作，展开了一项重要研究。近日，科技媒体 marktechpost 发布了相关博文，探讨了早期融合与后期融合模型在多模态 AI …

MiniMax MCP Server正式上线，开启多模态AI新纪元

人工智能技术的边界正在不断拓展。AIbase从社交媒体获悉，中国AI初创公司MiniMax稀宇科技于近日宣布，其MiniMax MCP Server正式上线。这一服务器通过简单的文本输入，即可调用视频…

报道称OpenAI下周重磅发布GPT-4.1系列，包含Mini版和Nano版

人工智能领域的领跑者OpenAI即将在下周掀起新一波技术热潮!据科技媒体 The Verge 报道，OpenAI计划推出包括GPT-4.1系列、o3系列以及其他多款AI模型在内的重大更新。这一波密集发…

联想CTO：押注多模态AI协作，打造模型工厂加速智能体落地

在联想集团2025/26财年誓师大会上，首席技术官Tolga Kurtoglu强调，当前AI应用仍处于快速迭代的技术演示阶段，远未真正释放为用户创造价值的成熟能力。他指出，未来AI发展的关键在于将技术…

马斯克xAI收购视频生成初创公司Hotshot，AI视频领域竞争再升级

硅谷科技巨头的版图扩张再添新篇!埃隆·马斯克旗下的xAI公司今日宣布收购专注于视频生成AI技术的初创公司Hotshot，这一战略收购将为xAI在多模态AI技术领域注入新的活力。 Hotshot首席执行…

Figure机器人加速进军家庭场景 2025年启动Alpha测试挑战行业极限

湾区机器人新锐Figure正以超预期速度推进其家庭机器人计划。公司创始人Brett Adcock周四宣布，将于2025年下半年启动Figure02人形机器人的家庭环境Alpha测试，这一时间表较业界预…