内容持续更新中
OpenAI 正式发布了一个大型数据集,旨在评估大型语言模型在医疗健康领域回答问题的能力。这一项目被命名为 HealthBench,专家们对这一开源数据和详细的评估标准给予了高度赞誉,称其在规模和广度…