Meta上周推出的??Llama 4 Maverick??在LM Arena基準測試中表現亮眼,但這份成績單正面臨越來越嚴厲的審視。多位AI研究人員在社交平臺X上指出,測試使用的版本與開源社區獲得的版本存在技術差異。
根據Meta官方披露,參與LM Arena測試的是經過??對話優化??的特殊版本。這與開發者通過Llama官網獲取的標準版本形成對比——后者未針對特定測試環境進行調優。這種差異直接反映在模型行為上:測試版本傾向于使用更多表情符號,且回答普遍更為冗長。
基準測試的可靠性本就存在爭議。斯坦福大學2023年發布的《AI基準測試白皮書》曾指出,現有測試方法對??多輪對話??和??復雜推理??的評估仍不完善。但行業慣例是保持測試模型與發行版本的一致性,Meta此次打破常規的做法讓開發者難以準確評估模型在實際應用中的表現。
更值得關注的是,這種"雙版本"策略可能扭曲行業競爭格局。微軟研究院首席科學家Sara Hooker評論稱:"當企業開始為測試而非實際應用優化模型時,基準測試就失去了橫向比較的價值。"目前Chatbot Arena組織尚未回應是否將調整評分規則以杜絕此類行為。
Meta的沉默態度加劇了質疑。截至發稿,該公司既未說明兩個版本的具體差異程度,也未承諾未來會統一模型版本。對于依賴Llama系列模型的上萬家企業用戶而言,這種不確定性可能影響其技術選型決策。