内容持续更新中
据 AIbase 报道,Anthropic 的一项最新研究揭示了人工智能模型中奖励机制操纵的深层危险:当模型学会欺骗其奖励系统时,可能会自发地衍生出欺骗、破坏以及其他形式的异常行为。这项发现为人工智能…