ICLR2025一輪審稿剛結(jié)束,蘋果一篇號稱“小模型超越GPT-5”的視覺推理論文即遭公開“處刑”。階躍星辰研究員Lei Yang在復(fù)現(xiàn)過程中發(fā)現(xiàn):官方代碼漏掉圖片輸入,修復(fù)后準(zhǔn)確率反而暴跌;隨即抽查20道題,竟有6道Ground Truth標(biāo)簽錯誤——估算整體GT錯誤率約30%。
Lei Yang在GitHub提交issue,僅獲兩句回復(fù)便被關(guān)閉,于是撰寫長文向?qū)徃迦耸揪L友杆侔l(fā)酵,作者團(tuán)隊次日承認(rèn)“數(shù)據(jù)生成流程缺陷”,并緊急上傳修正版基準(zhǔn),承諾重新跑實驗、更新結(jié)果。事件引發(fā)學(xué)術(shù)圈熱議:大模型時代自動生成的數(shù)據(jù)集若缺乏人工質(zhì)檢,即便巨頭招牌也難免“翻車”。Lei Yang提醒同行,“復(fù)現(xiàn)前先跑一遍小樣本‘體檢’,別讓錯誤GT浪費(fèi)算力與通宵”。
參考資料:https://x.com/diyerxx/status/1994042370376032701

