本站4月10日消息,今日,字節跳動豆包大模型團隊宣布,正式開源首個多語言類SWE數據集——Multi-SWE-bench,可用于評估和提升大模型“自動修 Bug”能力。
在SWE-bench基礎上,Multi-SWE-bench首次覆蓋Python之外的7種主流編程語言(Java、Go、Rust、C、C 、TypeScript、JavaScript),是真正面向“全棧工程”的評測基準。
Multi-SWE-bench包含1632個實例,均來自GitHub issue,并經過統一的測試標準和專業開發者的審核篩選,確保每個樣本具備清晰的問題描述、正確的修復補丁以及可復現的運行測試環境。
豆包大模型團隊希望,Multi-SWE-bench能作為大模型在多種主流編程語言與真實代碼環境中的系統性評測基準,推動自動編程能力向更實用、更工程化的方向發展。
團隊表示,相比于以往聚焦Python的單語言任務,Multi-SWE-bench更貼近現實中的多語言開發場景,也更能反映當前模型在“自動化軟件工程”方向上的實際能力邊界。
鄭重聲明:本文版權歸原作者所有,轉載文章僅為傳播更多信息之目的,如作者信息標記有誤,請第一時間聯系我們修改或刪除,多謝。