北京程序员通宵“扫雷”：苹果论文被曝30%基准数据出错，ICLR稿件紧急勘误

ICLR2025一轮审稿刚结束，苹果一篇号称“小模型超越GPT-5”的视觉推理论文即遭公开“处刑”。阶跃星辰研究员Lei Yang在复现过程中发现:官方代码漏掉图片输入，修复后准确率反而暴跌;随即抽查20道题，竟有6道Ground Truth标签错误——估算整体GT错误率约30%。

北京程序员通宵“扫雷”：苹果论文被曝30%基准数据出错，ICLR稿件紧急勘误

Lei Yang在GitHub提交issue，仅获两句回复便被关闭，于是撰写长文向审稿人示警。帖子迅速发酵，作者团队次日承认“数据生成流程缺陷”，并紧急上传修正版基准，承诺重新跑实验、更新结果。事件引发学术圈热议:大模型时代自动生成的数据集若缺乏人工质检，即便巨头招牌也难免“翻车”。Lei Yang提醒同行，“复现前先跑一遍小样本‘体检’，别让错误GT浪费算力与通宵”。

参考资料：https://x.com/diyerxx/status/1994042370376032701

【搬运】AI动画制作流程揭秘！综合实拍+合成+ai视频转绘技术（带中文字幕）

33.8万用户在看

中国人工智能缩小与美国差距

21.7万用户在看

七个圈AIGC破圈俱乐部欢迎您！

19.6万用户在看

快速上手！Midjourney 网页版操作指南，生成MJ图片无需Discord！

18万用户在看

北京程序员通宵“扫雷”：苹果论文被曝30%基准数据出错，ICLR稿件紧急勘误

最近更新

文章目录

北京程序员通宵“扫雷”：苹果论文被曝30%基准数据出错，ICLR稿件紧急勘误

发评论，每天都得现金奖励！超多礼品等你来拿

关联网址

关联标签

相关文章

搜索

近期热门

【搬运】AI动画制作流程揭秘！综合实拍+合成+ai视频转绘技术（带中文字幕）

33.8万 用户在看

中国人工智能缩小与美国差距

21.7万 用户在看

七个圈AIGC破圈俱乐部欢迎您！

19.6万 用户在看

快速上手！Midjourney 网页版操作指南，生成MJ图片无需Discord！

18万 用户在看

北京程序员通宵“扫雷”：苹果论文被曝30%基准数据出错，ICLR稿件紧急勘误

最近更新

文章目录

北京程序员通宵“扫雷”：苹果论文被曝30%基准数据出错，ICLR稿件紧急勘误

发评论，每天都得现金奖励！超多礼品等你来拿

关联网址

关联标签

相关文章

33.8万用户在看

21.7万用户在看

19.6万用户在看

18万用户在看