在開源平臺HuggingFace上發(fā)布R1模型的更新后,5月29日晚,DeepSeek終于發(fā)布了官方公告介紹這次版本的具體能力迭代細節(jié),其中包括深度思考能力強化、幻覺改善和創(chuàng)意寫作更好等。
在測評數(shù)據(jù)上,官方表示,更新后的R1模型在數(shù)學、編程與通用邏輯等多個基準測評中取得了當前國內(nèi)所有模型中首屈一指的成績,并且在整體表現(xiàn)上已接近其他國際頂尖模型,如 o3 與 Gemini-2.5-Pro。
值得一提的是,DeepSeek提到,新版DeepSeek R1 針對“幻覺”問題進行了優(yōu)化。與舊版相比,更新后的模型在改寫潤色、總結(jié)摘要、閱讀理解等場景中,幻覺率降低了 45%-50% 左右,能夠提供更為準確可靠的結(jié)果。
所謂幻覺即大模型的“胡說八道”,此前DeepSeek的幻覺率并不低,也被不少用戶和開發(fā)者所討論。5月15日,SuperCLUE曾發(fā)布最新一輪中文大模型忠實性幻覺測評結(jié)果,顯示此前的DeepSeek-R1模型幻覺率在21%左右,在測評的國內(nèi)模型中排名第五。
據(jù)SuperCLUE,推理模型的幻覺比非推理模型更顯著,在他們的測評中推理模型的平均幻覺率為22.95%,非推理模型的平均幻覺率為13.52%。
除了幻覺方面的改善,官方介紹,新R1模型在復雜推理任務(wù)中的表現(xiàn)有了顯著提升。例如在 AIME 2025 測試(一個數(shù)學基準測試,用于模型在數(shù)學推理方面的能力)中,新版模型準確率由舊版的70%提升至87.5%。
此外,更新后的 R1 模型針對議論文、小說、散文等文體進行了進一步優(yōu)化,能夠輸出篇幅更長、結(jié)構(gòu)內(nèi)容更完整的長篇作品,同時呈現(xiàn)出更加貼近人類偏好的寫作風格。
在官方發(fā)文之前,眾多測試表明R1新模型的代碼能力有顯著提升,在代碼測試平臺Live CodeBench中,其性能幾乎媲美OpenAI重量級的o3-high模型。官方此次公告也提到,在前端代碼生成、角色扮演等領(lǐng)域,模型的能力確實均有更新和提升。
在迭代路徑上,DeepSeek表示,DeepSeek-R1-0528 仍然使用 2024 年12月所發(fā)布的DeepSeek V3 Base模型作為基座,但在后訓練過程中投入了更多算力,顯著提升了模型的思維深度與推理能力。
本次R1新模型參數(shù)為 685B,開源版本上下文長度為 128K(網(wǎng)頁端、App 和 API 提供 64K 上下文)。同時,與舊版本的R1保持一致,此次開源模型權(quán)重仍然統(tǒng)一采用 MIT License,允許用戶利用模型輸出、通過模型蒸餾等方式訓練其他模型。
有趣的是,在X平臺DeepSeek的官方評論區(qū)中,討論的話題全都關(guān)于R2模型,“We want R2(我們想要R2模型)”,有用戶評論稱。業(yè)界對DeepSeek下一代的模型期待已久。
基于DeepSeek剛剛發(fā)布了更新,有用戶猜測,“是否意味著我們暫時不會聽到有關(guān)R2的消息?”也有用戶調(diào)侃稱,這一模型或許在開發(fā)中應(yīng)該是R2,但是當他們發(fā)現(xiàn)在基準測試中沒有超越OpenAI的o3 時,DeepSeek將其重新命名為R1的更新。
一向低調(diào)的DeepSeek并未對外界的猜測進行任何回應(yīng),基于R1是在V3模型的基礎(chǔ)上訓練的,或許我們會先等到V4模型的更新。無論如何,海內(nèi)外大模型領(lǐng)域的基座模型大戰(zhàn)還在繼續(xù),DeepSeek之后,誰會是下一家?
鄭重聲明:本文版權(quán)歸原作者所有,轉(zhuǎn)載文章僅為傳播更多信息之目的,如作者信息標記有誤,請第一時間聯(lián)系我們修改或刪除,多謝。