苹果公司最近发布了一篇重要论文,展示了他们在人工智能领域的最新进展。与业界普遍采用的扩散模型或自回归模型不同,苹果选择了一条被广泛忽视的道路 —— 归一化流(Normalizing Flows)技术。该技术的核心是通过数学变换,将真实世界的数据(例如图像)转化为结构化的噪声,并能将其恢复为清晰的图像样本。

​苹果利用 “归一化流” 技术推出创新 AI 生图模型TarFlow

归一化流的最大优势在于它能够精确计算生成图像的概率,而这是许多扩散模型无法做到的。这使得归一化流在那些对概率要求较高的任务中显得格外重要。不过,这种技术的研发成本相对较高,且早期模型常常存在模糊和缺乏细节的问题。

在此次研究中,苹果推出了一种名为 TarFlow(Transformer AutoRegressive Flow)的新型归一化流模型。该模型的工作原理是将一张待生成的图像分割成多个小块,并逐块生成相应的像素值。每个小块的生成都依赖于已生成部分的内容,这样可以有效避免将图像压缩为固定词汇表时造成的质量损失。

然而,TarFlow 在生成高分辨率图像时仍面临挑战,因此苹果提出了增强版的 STARFlow(Scalable Transformer AutoRegressive Flow)。该模型通过在 “潜空间” 中进行工作,首先生成图像的压缩表示,然后利用解码器进行放大。这种方法不仅提升了生成效率,同时也避免了大量像素值的预测,先关注图像的整体结构。

此外,STARFlow 在处理文本提示方面也有了显著改进。它不再依赖于内建的文本编码器,而是能够调用现有的语言模型,比如谷歌的小型语言模型 Gemma,这样就可以更灵活地处理用户的语言指令。通过这种方式,STARFlow 能够专注于图像细节的生成与优化,进一步提升了生成图像的质量。

苹果在 AI 生图领域的探索标志着他们在技术创新上的持续努力,也为未来的图像生成技术提供了新的思路和方向。

划重点:  

🌟 苹果采用 “归一化流” 技术开发新的 AI 生图模型,区别于传统的扩散模型。  

🖼️ TarFlow 模型通过拆分图像块生成,避免了压缩造成的质量损失。  

🚀 STARFlow 在潜空间工作,并支持调用现有语言模型优化文本提示处理。