谷歌DeepMind新研究TIPSv2：让AI真正"看懂"图片，而不只是"扫一眼"

现在的AI看图，其实有个隐藏的短板。

问它"这张图里有什么"，它能答得头头是道。但要问"图中那只熊猫的左后腿在哪里"，它就开始含糊了。这不是个别模型的问题，而是整个视觉-语言大模型领域长期存在的通病——全局理解强，局部定位弱。

谷歌DeepMind在最新论文中提出了TIPSv2方案，专门来啃这块硬骨头。

谷歌DeepMind新研究TIPSv2：让AI真正"看懂"图片，而不只是"扫一眼"

研究团队在调查中发现了一个反直觉的现象:在精细分割任务上，参数量少的"学生模型"表现经常碾压体量更大的"教师模型"。原因在于，蒸馏过程移除了遮盖机制，迫使模型学习整张图的所有细节，形成了"全区域监督"。受此启发，TIPSv2围绕这一发现做出了三项关键改进。

第一项是iBOT++。传统预训练只对图像中被遮盖的区域计算损失，可见区域处于"放养"状态，局部语义容易漂移。iBOT++要求模型同时对所有可见区域进行精确监督，相当于从"猜谜游戏"升级为"全文精读"。仅这一项改动，零样本分割性能就直接提升了14.1个百分点。

第二项是Head-only EMA。传统自监督训练需要在显存里维护两份几乎相同的大模型，开销极大。TIPSv2发现图文对比损失本身已经能稳定主干网络，因此EMA只需作用于最后的投影头，主干不再复制。结果是训练参数量直接缩减约42%，速度更快，性能几乎无损。

第三项是多粒度文本搭配。训练时将网页简短描述、中等详细描述和Gemini生成的长描述混合随机喂给模型，难易交替，既防止模型因任务太简单而"偷懒"，又确保细节不丢失。

最终效果相当扎实。TIPSv2在9大任务、20个权威数据集上完成冻结评估，零样本语义分割刷新业界最优，图文检索与分类击败了参数量比自身大56%的对比模型，纯视觉任务也全面跻身前列。

目前TIPSv2的代码与模型权重已全面开源。对于医疗影像、自动驾驶、工业检测等需要高精度图像理解的团队来说，这套方案值得认真评估。

论文地址：https://www.alphaxiv.org/abs/2604.12012

【搬运】AI动画制作流程揭秘！综合实拍+合成+ai视频转绘技术（带中文字幕）

23.1万用户在看

中国人工智能缩小与美国差距

19.9万用户在看

七个圈AIGC破圈俱乐部欢迎您！

18.5万用户在看

3款AI工具让历史名人‘复活’：梵高、莫扎特、奥斯汀等重现当下

17.1万用户在看

谷歌DeepMind新研究TIPSv2：让AI真正"看懂"图片，而不只是"扫一眼"

最近更新

文章目录

谷歌DeepMind新研究TIPSv2：让AI真正"看懂"图片，而不只是"扫一眼"

发评论，每天都得现金奖励！超多礼品等你来拿

关联网址

关联标签

相关文章

搜索

近期热门

【搬运】AI动画制作流程揭秘！综合实拍+合成+ai视频转绘技术（带中文字幕）

23.1万 用户在看

中国人工智能缩小与美国差距

19.9万 用户在看

七个圈AIGC破圈俱乐部欢迎您！

18.5万 用户在看

3款AI工具让历史名人‘复活’：梵高、莫扎特、奥斯汀等重现当下

17.1万 用户在看

谷歌DeepMind新研究TIPSv2：让AI真正"看懂"图片，而不只是"扫一眼"

最近更新

文章目录

谷歌DeepMind新研究TIPSv2：让AI真正"看懂"图片，而不只是"扫一眼"

发评论，每天都得现金奖励！超多礼品等你来拿

关联网址

关联标签

相关文章

23.1万用户在看

19.9万用户在看

18.5万用户在看

17.1万用户在看