谷歌近日在 Gemini 安卓应用17.10.54.sa.arm64测试版中,展示了针对生成式图像编辑功能的重大升级。该版本通过引入深度集成的标记(Markup)界面与实时文本描述框,旨在解决当前 AI 图像二次创作中指令传递不精准、操作链路断裂的痛点,进一步强化了 Gemini 对生成内容(如 Nano Banana 图像)的局部调优能力。

谷歌 Gemini 测试版曝光:新增图像标记工具与对话式局部编辑功能

此次技术迭代的核心在于交互逻辑的重构。相较于此前仅支持基础涂鸦、且需退出编辑界面后再向机器人下达指令的初级方案,新版界面允许用户在点击“铅笔”图标后,直接在图像特定区域进行高精度标记,并同步在底部新增的文本框中输入修改意图。

这种“视觉定位+自然语言”的双模态交互方式,显著提升了模型对特定局部修改指令的理解精度。此外,测试版还预留了调整大小(Resizing)及特效(Effects)选项空间,预示着 Gemini 正在从单一的文生图工具向集生成、修剪、滤镜处理于一体的综合性图像工作站演进。

从行业趋势看,谷歌此举反映了生成式 AI 竞争重心正从“从无到有”的单纯生成,转向“精益求精”的受控编辑。通过将复杂的标记工具融入移动端原生应用,谷歌试图在移动 AI 摄影与数字创作领域建立更高的交互门槛。

尽管上述功能目前仍处于代码分析阶段,尚未正式面向公众开放,但其展现出的“即标即改”逻辑,预示着多模态模型在感知用户精细化审美意图方面迈出了关键一步,将进一步加速 AI 绘画从娱乐化向专业化创作流程的渗透。