内容持续更新中
在 AI 行业快速发展的背景下,Chatbot Arena 这个众包 AI 基准测试项目正在扩展其影响力,正式成立了一家名为 Arena Intelligence Inc. 的新公司。根据彭博社的报道…
OpenAI 宣布启动 “先锋计划”(OpenAI Pioneers Program),旨在改善当前 AI 模型的评分体系,以创建更符合实际应用场景的评估标准。 随着 AI 技术在各行各业的快速发展,…
在人工智能技术飞速发展的今天,评估和比较不同生成式AI模型的实力成为了一个备受关注的难题。传统的AI基准测试方法逐渐显露出其局限性,为此,AI开发者们正在积极探索更具创新性的评估途径。 近日,一个名为…
一位12年级的学生创建了一个革新性的平台,使得人们可以评估不同的AI模型在Minecraft创作任务中的表现,这一举措为人工智能的性能评测注入了新的视角。 新基准测试应对传统评估的局限 随着传统的AI…