内容持续更新中
2025年4月26日 AIbase报道:OpenAI近日宣布,其旗舰多模态模型GPT-4o的图像生成功能现已正式集成至ChatGPT的自定义GPTs功能中。这一更新标志着用户创建的定制化AI助手能够直…
字节跳动宣布推出全新多模态模型Vidi,专注于视频理解与编辑,首版核心能力为精准的时间检索功能。据AIbase了解,Vidi能够处理视觉、音频和文本输入,支持长达一小时的超长视频分析,在时间检索任务上…
在今天凌晨1点的技术直播中,OpenAI正式推出其最新且最强大的多模态模型o4-mini和满血版o3。这两款模型具备独特优势,不仅能同时处理文本、图像和音频,还可作为智能体自动调用网络搜索、图像生成、…
近日,谷歌人工智能开发平台Google AI Studio迎来了一次重大更新,全新的“Gemini-2.0-flash-live-001”模型正式亮相,并即刻取代了此前处于实验阶段的Gemini2.0…
在人工智能领域,阿里巴巴近日公布了一则引人瞩目的消息:他们开源了最新的多模态模型——Qwen2.5-VL-32B-Instruct。作为Qwen2.5系列的新成员,这款32B版本的模型在维持高性能的同…
在人工智能领域,阿里通义实验室团队近日宣布开源其最新研发的多模态模型 ——R1-Omni。这一模型结合了强化学习与可验证奖励(RLVR)方法,展现出了在处理音频和视频信息方面的卓越能力。R1-Omni…
全球开发者目光再次聚焦中国!在备受瞩目的全球开发者大会(GDC)上,阿里云魔搭社区重磅宣布,首发上线阶跃星辰最新开源的两款多模态模型,包括 全球参数量最大的开源视频生成模型 Step-Vid…
近日,微软研究院联合华盛顿大学、斯坦福大学、南加州大学、加利福尼亚大学戴维斯分校以及加利福尼亚大学旧金山分校的研究人员共同推出了 LLaVA-Rad,这是一种新型的小型多模态模型(SMM),旨在提升临…
李飞飞团队推出了一种新的多模态模型,该模型能够理解和生成人类的动作,并通过结合语言模型,实现了对口头和非口头语言的统一处理。 这一突破性的研究,使得机器不仅可以理解人类的指令,还能读懂动作中蕴含的情绪…
亚马逊近日在其 AWS re:Invent 大会上宣布了一系列新的 AI 基础模型,采用全新的 “Nova” 品牌。这些模型将作为亚马逊 Bedrock 模型库的一部分提供,标志着亚马逊在人工智能领域…
来自智源研究院的Emu3团队发布了一套全新的多模态模型Emu3,该模型仅基于下一个token预测进行训练,颠覆了传统的扩散模型和组合模型架构,在生成和感知任务上均取得了最先进的性能。 一直以来,下一个…
面壁小钢炮MiniCPM-V系列的最新版本2.6自发布以来,在全球著名开源社区GitHub和HuggingFace趋势榜上迅速上升至Top3,其GitHub星标数量已破万。自2月1日首次亮相至今,Mi…
苹果和瑞士洛桑联邦理工学院(EPFL)的研究人员联合开发了一种任意到任意模态的单一模型,可以在数十种高度多样化的模态上进行训练,并对大规模多模态数据集和文本语料库进行协同训练。该模型被命名为4M-21…
上海人工智能实验室与上海交通大学医学院附属瑞金医院等合作伙伴在 “2023 健康中国思南峰会” 上发布了医疗多模态基础模型群 “浦医 2.0”。新版本新增多领域模型,语言参数增量,涵盖医学图像、医学文…
浙大竺院的一位校友与微软研究院合作,推出了多模态模型LLaVA,挑战GPT-4V。LLaVA在11个测试数据集上表现出色,获得6k+星标。模型综合能力高,超过GPT-4V水平的85%。LLaVA的开源…
清华大学与智谱 AI 合作开发的国产多模态模型 CogVLM-17B 表现出卓越的性能。该模型可以识别图像中的对象,并且能够分辨完整可见和部分可见的物体。CogVLM-17B 采用了独特的深度融合方法…