ICLR2025一轮审稿刚结束,苹果一篇号称“小模型超越GPT-5”的视觉推理论文即遭公开“处刑”。阶跃星辰研究员Lei Yang在复现过程中发现:官方代码漏掉图片输入,修复后准确率反而暴跌;随即抽查20道题,竟有6道Ground Truth标签错误——估算整体GT错误率约30%。

北京程序员通宵“扫雷”:苹果论文被曝30%基准数据出错,ICLR稿件紧急勘误

Lei Yang在GitHub提交issue,仅获两句回复便被关闭,于是撰写长文向审稿人示警。帖子迅速发酵,作者团队次日承认“数据生成流程缺陷”,并紧急上传修正版基准,承诺重新跑实验、更新结果。事件引发学术圈热议:大模型时代自动生成的数据集若缺乏人工质检,即便巨头招牌也难免“翻车”。Lei Yang提醒同行,“复现前先跑一遍小样本‘体检’,别让错误GT浪费算力与通宵”。

参考资料:https://x.com/diyerxx/status/1994042370376032701