内容持续更新中
近日,科技巨头 OpenAI 宣布收购初创公司 Context.ai 团队,这一举措旨在提升其 AI 模型的评估与分析能力。Context.ai 成立于2023年,由前谷歌员工 Henry Scott…
OpenAI 宣布启动 “先锋计划”(OpenAI Pioneers Program),旨在改善当前 AI 模型的评分体系,以创建更符合实际应用场景的评估标准。 随着 AI 技术在各行各业的快速发展,…
近日,人工智能领域的领军企业OpenAI宣布正式推出Evals API,这一全新工具的亮相迅速引发了开发者和技术圈的热烈反响。据悉,Evals API支持用户通过编程方式定义测试、自动化运行评估流程,…
一位12年级的学生创建了一个革新性的平台,使得人们可以评估不同的AI模型在Minecraft创作任务中的表现,这一举措为人工智能的性能评测注入了新的视角。 新基准测试应对传统评估的局限 随着传统的AI…
Anthropic 推出了一个计划,资助开发新类型的基准测试,以评估 AI 模型的性能和影响,包括像其自己的 Claude 这样的生成模型。 Anthropic 在周一发布了这个计划,将向第三方组织发…