内容持续更新中
探索人工智能时代中智能体的定义与挑战,强调智能体监管的重要性与现有风险。了解智能体如何利用AI算法进行自主决策与行动,及其可能带来的长期影响。
微软最新发布了多模态模型LLaVA-1.5,其引入了跨模态连接器和学术视觉问答数据集,取得了多个领域的成功测试。该模型不仅达到了开源模型的最高水平,还融合了视觉、语言、生成器等多个模块。据测试表明,L…
苹果公司与康奈尔大学合作发布名为「Ferret」的开源多模态机器学习模型。Ferret是一个可以在图像中任何位置参考并定位元素的系统,它可以识别用户查询中有用的元素,并进行适当的响应。这一发布显示了苹…
谷歌最近推出了新一代人工智能系统Gemini,这是其在人工智能领域的重要进展。Gemini支持文本、图像、音频、视频和代码等多种模式,拥有出色的理解和推理能力。该系统在多个基准测试中表现优异,缩小了与…
谷歌发布了最新一代 AI 模型 Gemini 1.0,具备多模态的能力,可处理文本、图像、音频等信息。Gemini 分为三种规模,适用于不同的任务和设备,并在性能方面表现出色。Gemini 具备多模态…
SALMONN框架通过整合不同听觉编码器和激活调整阶段,取得了竞争性的通用听觉性能。其多模态架构为大型语言模型提供了直接理解和处理通用音频输入的能力,展示了在多种任务中的竞争性性能。
快手首席执行官程一笑表示,今年初,快手启动了新的 AI 战略,并设定了战略目标,希望确保自己在可能到来的新技术突破中保持国内领先地位。快手已开始研发超千亿规模的语言大模型和多模态大模型。此外,快手推出…
近日,上海人工智能实验室(上海AI实验室)推出首个图文混合创作大模型书生·浦语灵笔(InternLM-XComposer)。浦语灵笔能进行流利的中英文图文对话,准确理解图像内容,更解锁了“一键生成”图…
9月25日,OpenAI为旗下热门对话AI ChatGPT推出了语音交互和图片识别等多模态功能。新功能支持用户通过语音对话以及上传图片进行交互,可实现语音识别、文本识别、物体检测等功能。多模态版Cha…
OpenAI 最新发布的 DALL-E 3 文图生成模型,与 ChatGPT 实现了深度融合,理解复杂语言指令的能力得到大幅提升。DALL-E 3 在遵循提示生成连贯细节的能力上,明显超过了早期版本甚…
面壁智能发布了千亿多模态大模型 “Luca”,Luca 具备多项语言模型能力和强大的多模态处理能力。Luca2.0 已开启公测,为用户提供更多智能对话助手功能。
文章介绍了字节跳动推出的 BuboGPT 模型,该模型支持文本、图像、音频三种模态的多模态联合理解,并首次引入视觉定位技术,能够精确定位图像中的对象。研究人员通过采用多模态指令调整的训练方案,使得 B…