近日科技媒体 Appleinsider,苹果发表了一篇磅研究论文,介绍了最新研发的多模态 AI 模型 “zano”。这一模型将 “视觉” 和 “文本生成图像” 这两项功能有机结合,标志 AI 技术的又一次重大突破。

“Manzano” 的核心创新在于其 “双修” 能力:它不仅能够像人类一样精准地图像内容能根据文本生成高质量的图片。这技术的前无疑是令人振奋的在行业内,能同时满足两项需求的模型并多见,而现有模型往在画质理解能力之间存在妥协。

苹果发布多模态 AI 新宠 “Manzano”:视觉与创意的完美融合

为了克服这一难题,Manzano 采用了的三段式架构。首先引入了一种 “混合器”,能同时生成连续和离散的视觉表示接着,强大的大语言模型(LLM)对像的义内容进行预测,通过 “扩散解码器” 进行像素级一设计使得 Manzano 在和图方面都表现出,甚至能够处理一些复杂任务,比如深估计、风格移和图像修复。

数据显示,Manzano 在对反直觉和违物理常识的复杂指令时,表现非常出色。例如,当生成 “一只鸟在大下方飞翔” 的画面时,Manzano 的逻辑准确性与 OpenAI 的 GPT4o 和谷歌 Nano Banana 模型不相上下。研究团队还测试了不同参数版本的模型,结果表明,随着模型规模的扩大,其性能提升依然显著。

尽管目前 zano 仍处于研究尚被直接应用于 iPhone 或 Mac 设备,但这无疑显示出苹果在构建更强大的底层方面的雄心。未来,业内普遍认为 Manzano 技术很可能会融入苹果即将推出的 “图乐园 Image Playground” 功能,为用户提供更智能的修图体验和更想象力画面生成能力,从而进一步巩固苹果在端 AI 领域的竞争力。