近日,中国信息通信研究院(信通院)正式推出了 “方升基准测试体系3.0,标志着国内人工智能(AI)评测的又一重大进步。这个全新的版本在前期基础上进行了全面升级,不仅新增了模型基础属性测试,还系统性地评估了模型的参数规模和推理效率等底层特征。此外,该体系还前瞻性地布局了未来的高级智能测试,聚焦全模态理解、长期记忆和自主学习等十项高级能力,为工业制造、基础科学和金融等重点行业提供了更深入的场景化评测。

为了更好地实施 “方升”3.0,信通院在多个方面加强了评测基础设施的建设。首先,他们计划扩容高质量测试数据资源,将新增300万条数据,以满足多语言、多任务和多场景的模型评测需求。其次,信通院将系统性研究和应用先进测试方法,集中解决大模型评测中的关键技术难题,比如高质量测试数据合成与质量评估。此外,信通院还将构建新一代智能评测基座,新增多智能体交互与环境感知的仿真测试环境,以满足复杂场景下的智能体协同交互和动态环境适应能力的评估需求。

中国信通院发布 “方升” 3.0 大模型基准测试

从2024年开始,信通院将每两个月开展一次大模型基准测试活动。最新的一轮测试中,评估了141个大模型和7个智能体,涵盖了基础能力、推理能力、代码应用能力和多模态理解能力。测试结果显示,OpenAI 的 GPT-5在综合能力上继续领先,而国内的阿里巴巴 Qwen3-Max-Preview 和月之暗面的 Kimi K2表现不俗。在多模态模型的评测中,图像理解能力也取得了突破,但在复杂逻辑推理任务上还有待提升。

此外,代码应用能力的测试结果也显示,虽然在简单函数级任务中表现出色,但在真实项目开发中仍显短板。这也意味着国内外的技术竞争依然在加剧,智能体在多模态理解和复杂信息处理方面仍需努力。

信通院未来将继续强化大模型评测技术研发,提升评测的公信力与权威性,以支撑人工智能的前沿创新和新型工业化发展。