根据谷歌研究部门的最新披露,其视频生成模型 Veo3 在视觉AI领域取得了突破性进展,被誉为达到了“GPT-3”时刻。在对 Veo3进行了一系列测试后,研究人员发现,该模型不仅限于视频生成,还能在无需额外训练的情况下,自动完成多项复杂的视觉任务。
在用18,384个最简单的视频生成任务进行测试时,Veo3展示出惊人的多功能性,包括寻找物体、修复照片、玩迷宫、解决数独等。具体来说,Veo3能够:
理解图像:自动识别图像中的边缘、轮廓、物体位置、颜色和形状等基本视觉元素。
理解物理原理:具备基本的物理认知,例如能够分辨出哪些物体会漂浮,哪些会下沉,并理解光的反射方式。
进行手动编辑:像“自动版 Photoshop”一样,Veo3可以执行复杂的图片编辑任务,如去除背景、添加文字,甚至将照片转换为油画风格。
具备“理性”能力:在面对迷宫图像时,它能够自主规划并绘制出穿过迷宫的路径。
谷歌研究部门认为,Veo3的这一突破标志着视觉AI领域进入了新的发展阶段,其通用性和自主任务解决能力堪比自然语言处理领域的GPT-3。
发评论,每天都得现金奖励!超多礼品等你来拿
登录 在评论区留言并审核通过后,即可获得现金奖励,奖励规则可见: 查看奖励规则