在DeepSeek V3一個月前驚艷亮相后,它背后的“能量來源”DeepSeek R1系列正式發(fā)布。
1月20日,DeepSeek在Huggingface上上傳了R1系列的技術(shù)報告和各種信息。
按照DeepSeek的介紹,它這次發(fā)布了三組模型:1)DeepSeek-R1-Zero,它直接將RL應(yīng)用于基座模型,沒有任何SFT數(shù)據(jù),2)DeepSeek-R1,它從經(jīng)過數(shù)千個長思想鏈(CoT)示例微調(diào)的檢查點開始應(yīng)用RL,和3)從DeepSeek-R1中蒸餾推理能力到小型密集模型。
DeepSeek-R1在AIME2024上獲得了79.8%的成績,略高于OpenAI-o1-1217。在MATH-500上,它獲得了97.3%的驚人成績,表現(xiàn)與OpenAI-o1-1217相當(dāng),并明顯優(yōu)于其他模型。在編碼相關(guān)的任務(wù)中,DeepSeek-R1在代碼競賽任務(wù)中表現(xiàn)出專家水平,在Codeforces上獲得了2029 Elo評級,在競賽中表現(xiàn)優(yōu)于96.3%的人類參與者。對于工程相關(guān)的任務(wù),DeepSeek-R1的表現(xiàn)略優(yōu)于OpenAI-o1-1217。
“RL is all you need”
此次技術(shù)報告里披露的技術(shù)路線,最讓人驚嘆的是R1 Zero的訓(xùn)練方法。
DeepSeek R1 放棄了過往對預(yù)訓(xùn)練大模型來說必不可少甚至最關(guān)鍵的一個訓(xùn)練技巧——SFT。SFT(微調(diào))簡單說,就是先用大量人工標(biāo)準(zhǔn)的數(shù)據(jù)訓(xùn)練然后再通過強化學(xué)習(xí)讓機器自己進一步優(yōu)化,而RL(強化學(xué)習(xí))簡單說就是讓機器自己按照某些思維鏈生成數(shù)據(jù)自己調(diào)整自己學(xué)習(xí)。SFT的使用是ChatGPT當(dāng)初成功的關(guān)鍵,而今天R1 Zero完全用強化學(xué)習(xí)取代了SFT。
而且,效果看起來不錯。報告顯示,隨著強化學(xué)習(xí)訓(xùn)練過程的進行,DeepSeek-R1-Zero 的性能穩(wěn)步提升。比如,“在 AIME 2024 上,DeepSeek-R1-Zero 的平均 pass@1 得分從最初的 15.6% 躍升至令人印象深刻 71.0%,達到與 OpenAl-o1-0912 相當(dāng)?shù)男阅芩?。這一重大改進突顯了我們的 RL 算法在優(yōu)化模型性能方面的有效性?!?/p>
但R1 zero本身也有問題,因為完全沒有人類監(jiān)督數(shù)據(jù)的介入,它會在一些時候顯得混亂。為此DeepSeek用冷啟動和多階段RL的方式,改進了一個訓(xùn)練流程,在R1 zero基礎(chǔ)上訓(xùn)練出更“有人味兒”的R1。這其中的技巧包括:
冷啟動數(shù)據(jù)引入—— 針對 DeepSeek-R1-Zero 的可讀性和語言混雜問題,DeepSeek-R1 通過引入數(shù)千條高質(zhì)量的冷啟動數(shù)據(jù)進行初始微調(diào),顯著提升了模型的可讀性和多語言處理能力;
兩階段強化學(xué)習(xí)——模型通過兩輪強化學(xué)習(xí)不斷優(yōu)化推理模式,同時對齊人類偏好,提升了多任務(wù)的通用性;
增強型監(jiān)督微調(diào)——在強化學(xué)習(xí)接近收斂時,結(jié)合拒絕采樣(Rejection Sampling)和多領(lǐng)域的數(shù)據(jù)集,模型進一步強化了寫作、問答和角色扮演等非推理能力。
可以看出來,R1系列與GPT,甚至OpenAI的o系列看起來的做法相比,在對待“有監(jiān)督數(shù)據(jù)”上都更加激進。不過這也合理,當(dāng)模型的重點從“與人類的交互”變成“數(shù)理邏輯”,前者是有大量的現(xiàn)成的數(shù)據(jù)的,但后者很多都是停留在腦子里的抽象思考,沒有現(xiàn)成數(shù)據(jù)可以用,而尋找那些奧數(shù)大師們一個個羅列和標(biāo)注他們腦子里的解題思路,顯然又貴又耗時。讓機器自己產(chǎn)生某種同樣存在它自己腦子里的數(shù)據(jù)鏈條,是合理的做法。
論文里另一個很有意思的地方,是R1 zero訓(xùn)練過程里,出現(xiàn)了涌現(xiàn)時刻,DeepSeek把它們稱為“aha moment”。
技術(shù)報告里提到,DeepSeek-R1-Zero 在自我進化過程中展現(xiàn)了一個顯著特點:隨著測試階段計算能力的提升,復(fù)雜行為會自發(fā)涌現(xiàn)。例如,模型會進行“反思”,即重新審視并評估之前的步驟,還會探索解決問題的替代方法。這些行為并非通過明確編程實現(xiàn),而是模型與強化學(xué)習(xí)環(huán)境交互的自然產(chǎn)物,大大增強了其推理能力,使其能夠更高效、更精準(zhǔn)地解決復(fù)雜任務(wù)。
“它突顯了強化學(xué)習(xí)的力量和美麗:與其明確地教模型如何解決問題,我們只需為其提供正確的激勵,它就會自主地開發(fā)先進的問題解決策略。這一“頓悟時刻”有力地提醒了強化學(xué)習(xí)在解鎖人工智能新水平方面的潛力,為未來更自主、更適應(yīng)的模型鋪平了道路?!?/p>
蒸餾,蒸餾,歡迎大家一起來蒸餾
在DeepSeek的官方推文里,所有介紹的重點并不在R1模型技巧或R1模型榜單成績,而是在蒸餾。
“今天,我們正式發(fā)布 DeepSeek-R1,并同步開源模型權(quán)重。DeepSeek-R1 遵循 MIT License,允許用戶通過蒸餾技術(shù)借助 R1 訓(xùn)練其他模型。DeepSeek-R1 上線API,對用戶開放思維鏈輸出,通過設(shè)置 `model=’deepseek-reasoner’` 即可調(diào)用。DeepSeek 官網(wǎng)與 App 即日起同步更新上線?!?/p>
這是它官方發(fā)布的頭幾句話。
DeepSeek在R1基礎(chǔ)上,用Qwen和Llama蒸餾了幾個不同大小的模型,適配目前市面上對模型尺寸的最主流的幾種需求。它沒有自己搞,而是用了兩個目前生態(tài)最強大,能力也最強大的開源模型架構(gòu)。Qwen 和 Llama 的架構(gòu)相對簡潔,并提供了高效的權(quán)重參數(shù)管理機制,適合在大模型(如 DeepSeek-R1)上執(zhí)行高效的推理能力蒸餾。蒸餾過程不需要對模型架構(gòu)進行復(fù)雜修改,減少了開發(fā)成本。而且,直接在 Qwen 和 Llama 上進行蒸餾訓(xùn)練比從頭訓(xùn)練一個同規(guī)模的模型要節(jié)省大量的計算資源,同時可以復(fù)用已有的高質(zhì)量參數(shù)初始化。
這是DeepSeek打的一手好算盤。
而且,效果同樣不錯。
“我們在開源 DeepSeek-R1-Zero 和 DeepSeek-R1 兩個 660B 模型的同時,通過 DeepSeek-R1 的輸出,蒸餾了 6 個小模型開源給社區(qū),其中 32B 和 70B 模型在多項能力上實現(xiàn)了對標(biāo) OpenAI o1-mini 的效果?!?/p>
此外,在技術(shù)方向上,這也給業(yè)界帶來啟發(fā):
對小模型來說,蒸餾優(yōu)于直接強化學(xué)習(xí):從 DeepSeek-R1 蒸餾得到的小模型在多個推理基準(zhǔn)(如 AIME 2024 和 MATH-500)上的表現(xiàn)優(yōu)于直接對小模型進行強化學(xué)習(xí)。大模型學(xué)到的推理模式在蒸餾中得到了有效傳遞。
DeepSeek比OpenAI更有活力
如果簡單來概括R1系列的發(fā)布,DeepSeek用巨大的算力和各類資源,訓(xùn)練了一個強大的底層模型——這個叫做R1 zero的模型,在訓(xùn)練過程里直接拋棄了GPT系列為代表的SFT等預(yù)訓(xùn)練技巧,直接激進地幾乎全部依賴強化學(xué)習(xí),造出了一個僅靠自己反思就擁有泛化能力的模型。
然后,因為全是“自我反思”學(xué)出來的能力,R1 zero有時候會顯得學(xué)的有點雜而混亂了,為了能夠讓人更好使用,DeepSeek用它自己的一系列技巧來讓它和真實的場景做了對齊,改造出一個R1。
然后在此基礎(chǔ)上,不是自己蒸餾小模型而是用幾個最流行的開源框架蒸餾出來了幾個最合適尺寸的模型。所有這些都開源給外界參考和使用。
整個過程里,DeepSeek顯示出很強的自己自成一派的技術(shù)路線和風(fēng)格。而這種路線正在和OpenAI正面交鋒。
OpenAI的o系列此前陸續(xù)傳出的訓(xùn)練方法上,對于“對齊”基本延續(xù)著GPT系列形成的風(fēng)格,此前一名OpenAI負責(zé)訓(xùn)練安全和對齊部分的研究員曾對我們透露,他們內(nèi)部,所謂安全和與人類對齊,其實和提高模型能力是同一件事。但后來隨著o3的預(yù)告,同時發(fā)生的就是這些人類安全對齊機制的研究員的集體離職。這也讓這家公司的創(chuàng)新變得遮遮掩掩,外部看來就是慢下來,且活力減少了。
這樣的對比,也讓DeepSeek在這個階段的異軍突起顯得更讓人期待。它比OpenAI更有活力。
從DeepSeek R系列來看,它的對齊放在了R1這個模型的訓(xùn)練階段里,而R1 zero更像是只追求用最極致的強化學(xué)習(xí)方法自己練出強大的邏輯能力。人類反饋說喜不喜歡它,這些信息并沒有太被混在最初R1 zero里面一起訓(xùn)練。
這繼續(xù)在把“基礎(chǔ)模型”的能力和實際使用的模型分開,最初GPT3和InstructGPT其實就是這樣的思路,只不過當(dāng)時是基礎(chǔ)能力和人類偏好分開兩階段完成,現(xiàn)在是更抽象的基礎(chǔ)邏輯能力和更強調(diào)實用性能和性價比的偏好。這也是為什么V3之前被發(fā)現(xiàn)在文科類的能力上不強的原因。
所以,與“追上o1”相比,DeepSeek R1 zero證明出來的能力,和用它蒸餾出來的V3的驚艷,以及這次它又用Llama和Qwen蒸餾出來的幾個小參數(shù)模型表現(xiàn)出來的能力,才是這一系列動作的關(guān)鍵。
在與人類交互這件事上,ChatGPT因為有GPT4提供的基礎(chǔ)能力后,實現(xiàn)了突破,但OpenAI選擇立刻閉源,這樣就只有它自己能突破。在泛化出強大的數(shù)理推理能力這件事上,DeepSeek V3因為有DeepSeek R1的強大涌現(xiàn)才實現(xiàn)突破,而DeepSeek則把它開源,選擇讓大家都能一起突破。
DeepSeek對OpenAI的威脅是真實的,接下來的“比拼”會越來越有意思。