内容持续更新中
近日,OpenAI 正在测试一种新方法,旨在揭示模型的潜在问题,比如奖励黑客行为或忽视安全规则。这一新机制被称为 “忏悔”,其核心理念是训练模型在单独的报告中承认规则违反,即使原始回答存在欺骗性,仍然…
近日,OpenAI 宣布推出一个全新的人工智能训练框架 ——“忏悔”(Confession),旨在让 AI 模型更诚实地承认自身的错误或不当行为。通常情况下,大型语言模型(LLM)在训练过程中会被引导…