斯坦福大学的研究团队最近发布了 AgentFlow,这是一个可训练的智能代理框架,旨在通过模块化设计和工具集成,提升 AI 的智能决策能力。AgentFlow 由四个模块组成:规划器(Planner)、执行器(Executor)、验证器(Verifier)和生成器(Generator),并通过显式内存进行协调。在每一步中,规划器会提出子目标并选择适当的工具和上下文,执行器则负责调用工具,验证器则判断是否继续,而生成器则在任务完成后给出最终答案。
这一框架的核心创新在于其训练方法 ——Flow-GRPO(基于流的组精炼策略优化)。这种方法能够将长时间跨度、稀疏奖励的优化问题转化为可处理的单轮更新。具体来说,Flow-GRPO 会在每一步中广播一个单一的可验证的轨迹级信号,将成功的全局目标与局部步骤对齐。同时,它使用每个 token 的加权比率计算,结合 PPO 风格的剪辑和 KL 惩罚,防止策略漂移。
在多个基准测试中,研究团队对 AgentFlow 进行了评估,主要涵盖知识密集型搜索、代理推理、数学和科学四个任务类型。经过 Flow-GRPO 优化的7B 模型在10个基准上的表现平均提高了14.9%(搜索任务)、14.0%(代理推理)、14.5%(数学任务)和4.1%(科学任务)。研究团队表示,该模型在这些任务上超越了现有的强基线,甚至超过了 GPT-4o。
此外,研究还表明,使用 AgentFlow 的工具调用的可靠性有了显著提升,工具调用错误减少了28.4%。这些成果表明,在更大的轮次预算和模型规模下,规划质量有了明显改善。
AgentFlow 的公开实现展示了一个模块化工具包,并附带了快速启动脚本,方便用户进行推理、训练和基准测试。该项目采用 MIT 许可证,确保了其开源和可访问性,支持广泛的研究与开发。
划重点:
🛠️ AgentFlow 是一个模块化的 AI 代理框架,包含规划器、执行器、验证器和生成器四个模块。
🚀 Flow-GRPO 训练方法能够高效优化代理的决策过程,通过轨迹级奖励对每个步骤进行指导。
📈 实验结果显示,AgentFlow 在多个基准测试中表现优异,平均提高了14.9% 的任务完成率,超越了现有的强基线。
发评论,每天都得现金奖励!超多礼品等你来拿
登录 在评论区留言并审核通过后,即可获得现金奖励,奖励规则可见: 查看奖励规则