内容持续更新中
一个名为 SciArena 的全新开放平台现已上线,旨在通过人类偏好评估大型语言模型(LLM)在科学文献任务中的表现。早期结果已揭示不同模型之间存在显著的性能差距。 SciArena 由耶鲁大学、纽约…