OpenAI 近日发布了两款新型开放式权重模型,分别是 gpt-oss-safeguard-120bgpt-oss-safeguard-20b,专注于 AI 安全领域的应用。这些模型在之前发布的 gpt-oss 系列基础上进行了优化,依旧遵循 Apache2.0许可证,允许任何人自由使用、修改和部署。

OpenAI 推出新型安全模型gpt-oss-safeguard,助力 AI 领域灵活应对风险

新模型的一个显著特点是,它为开发者提供了根据自定义安全政策进行推理分类的能力,打破了传统 “一刀切” 的安全系统。开发者可以在推断时输入自己的安全政策和待检测内容,模型将根据这些政策进行分类,并提供相应的推理理由。安全政策可以灵活调整,以提高模型的表现。这使得 gpt-oss-safeguard 模型能够对用户消息、聊天回复甚至完整对话进行分类,适应不同的需求。

OpenAI 指出,这种新模型特别适合几种特定情况。例如,当潜在危害正在出现或演变时,安全政策需要快速适应;在某些高度细分的领域中,传统小型分类器难以有效应对;以及在开发者缺乏大量高质量样本的情况下,难以训练出高水平的分类器。此外,对于那些希望在分类结果的质量和可解释性上优先于处理速度的场景,这些新模型也是一个理想选择。

然而,gpt-oss-safeguard 也存在一些局限性。OpenAI 指出,如果平台拥有大量标注样本并能训练传统分类器,那么在复杂或高风险的场景中,后者可能依然表现更佳,定制化模型的精准度更高。同时,这种新模型在处理速度和资源消耗方面较大,因此不太适合用于大规模的实时内容筛查。

目前,gpt-oss-safeguard-120b 和 gpt-oss-safeguard-20b 已经可以在 Hugging Face 平台上免费下载,方便广大开发者进行探索和应用。

https://huggingface.co/collections/openai/gpt-oss-safeguard

划重点:  

🛡️ OpenAI 推出了 gpt-oss-safeguard-120b 和 gpt-oss-safeguard-20b 两款新型安全模型,允许灵活自定义安全政策。  

⚙️ 新模型能够根据输入的安全政策对用户消息和对话进行分类,并提供推理理由。  

📊 尽管新模型具有优势,但在某些情况下,传统分类器可能更有效,且新模型资源消耗较大。