捆绑调教sm免费专区,综合激情五月综合激情五月激情1,在线看片免费人成视频播,亚洲国产福利成人一区二区,亚洲一区二区三区四区五区六区


提供最具價(jià)值的商業(yè)資訊

DeepSeek R1來(lái)了,追平o1 它現(xiàn)在不但比OpenAI開(kāi)放,也比它有活力

  在DeepSeek V3一個(gè)月前驚艷亮相后,它背后的“能量來(lái)源”DeepSeek R1系列正式發(fā)布。

1月20日,DeepSeek在Huggingface上上傳了R1系列的技術(shù)報(bào)告和各種信息。

按照DeepSeek的介紹,它這次發(fā)布了三組模型:1)DeepSeek-R1-Zero,它直接將RL應(yīng)用于基座模型,沒(méi)有任何SFT數(shù)據(jù),2)DeepSeek-R1,它從經(jīng)過(guò)數(shù)千個(gè)長(zhǎng)思想鏈(CoT)示例微調(diào)的檢查點(diǎn)開(kāi)始應(yīng)用RL,和3)從DeepSeek-R1中蒸餾推理能力到小型密集模型。

DeepSeek-R1在AIME2024上獲得了79.8%的成績(jī),略高于OpenAI-o1-1217。在MATH-500上,它獲得了97.3%的驚人成績(jī),表現(xiàn)與OpenAI-o1-1217相當(dāng),并明顯優(yōu)于其他模型。在編碼相關(guān)的任務(wù)中,DeepSeek-R1在代碼競(jìng)賽任務(wù)中表現(xiàn)出專(zhuān)家水平,在Codeforces上獲得了2029 Elo評(píng)級(jí),在競(jìng)賽中表現(xiàn)優(yōu)于96.3%的人類(lèi)參與者。對(duì)于工程相關(guān)的任務(wù),DeepSeek-R1的表現(xiàn)略?xún)?yōu)于OpenAI-o1-1217。

“RL is all you need”

此次技術(shù)報(bào)告里披露的技術(shù)路線,最讓人驚嘆的是R1 Zero的訓(xùn)練方法。

DeepSeek R1 放棄了過(guò)往對(duì)預(yù)訓(xùn)練大模型來(lái)說(shuō)必不可少甚至最關(guān)鍵的一個(gè)訓(xùn)練技巧——SFT。SFT(微調(diào))簡(jiǎn)單說(shuō),就是先用大量人工標(biāo)準(zhǔn)的數(shù)據(jù)訓(xùn)練然后再通過(guò)強(qiáng)化學(xué)習(xí)讓機(jī)器自己進(jìn)一步優(yōu)化,而RL(強(qiáng)化學(xué)習(xí))簡(jiǎn)單說(shuō)就是讓機(jī)器自己按照某些思維鏈生成數(shù)據(jù)自己調(diào)整自己學(xué)習(xí)。SFT的使用是ChatGPT當(dāng)初成功的關(guān)鍵,而今天R1 Zero完全用強(qiáng)化學(xué)習(xí)取代了SFT。

而且,效果看起來(lái)不錯(cuò)。報(bào)告顯示,隨著強(qiáng)化學(xué)習(xí)訓(xùn)練過(guò)程的進(jìn)行,DeepSeek-R1-Zero 的性能穩(wěn)步提升。比如,“在 AIME 2024 上,DeepSeek-R1-Zero 的平均 pass@1 得分從最初的 15.6% 躍升至令人印象深刻 71.0%,達(dá)到與 OpenAl-o1-0912 相當(dāng)?shù)男阅芩?。這一重大改進(jìn)突顯了我們的 RL 算法在優(yōu)化模型性能方面的有效性。”

但R1 zero本身也有問(wèn)題,因?yàn)橥耆珱](méi)有人類(lèi)監(jiān)督數(shù)據(jù)的介入,它會(huì)在一些時(shí)候顯得混亂。為此DeepSeek用冷啟動(dòng)和多階段RL的方式,改進(jìn)了一個(gè)訓(xùn)練流程,在R1 zero基礎(chǔ)上訓(xùn)練出更“有人味兒”的R1。這其中的技巧包括:

冷啟動(dòng)數(shù)據(jù)引入—— 針對(duì) DeepSeek-R1-Zero 的可讀性和語(yǔ)言混雜問(wèn)題,DeepSeek-R1 通過(guò)引入數(shù)千條高質(zhì)量的冷啟動(dòng)數(shù)據(jù)進(jìn)行初始微調(diào),顯著提升了模型的可讀性和多語(yǔ)言處理能力;

兩階段強(qiáng)化學(xué)習(xí)——模型通過(guò)兩輪強(qiáng)化學(xué)習(xí)不斷優(yōu)化推理模式,同時(shí)對(duì)齊人類(lèi)偏好,提升了多任務(wù)的通用性;

增強(qiáng)型監(jiān)督微調(diào)——在強(qiáng)化學(xué)習(xí)接近收斂時(shí),結(jié)合拒絕采樣(Rejection Sampling)和多領(lǐng)域的數(shù)據(jù)集,模型進(jìn)一步強(qiáng)化了寫(xiě)作、問(wèn)答和角色扮演等非推理能力。

可以看出來(lái),R1系列與GPT,甚至OpenAI的o系列看起來(lái)的做法相比,在對(duì)待“有監(jiān)督數(shù)據(jù)”上都更加激進(jìn)。不過(guò)這也合理,當(dāng)模型的重點(diǎn)從“與人類(lèi)的交互”變成“數(shù)理邏輯”,前者是有大量的現(xiàn)成的數(shù)據(jù)的,但后者很多都是停留在腦子里的抽象思考,沒(méi)有現(xiàn)成數(shù)據(jù)可以用,而尋找那些奧數(shù)大師們一個(gè)個(gè)羅列和標(biāo)注他們腦子里的解題思路,顯然又貴又耗時(shí)。讓機(jī)器自己產(chǎn)生某種同樣存在它自己腦子里的數(shù)據(jù)鏈條,是合理的做法。

論文里另一個(gè)很有意思的地方,是R1 zero訓(xùn)練過(guò)程里,出現(xiàn)了涌現(xiàn)時(shí)刻,DeepSeek把它們稱(chēng)為“aha moment”。

技術(shù)報(bào)告里提到,DeepSeek-R1-Zero 在自我進(jìn)化過(guò)程中展現(xiàn)了一個(gè)顯著特點(diǎn):隨著測(cè)試階段計(jì)算能力的提升,復(fù)雜行為會(huì)自發(fā)涌現(xiàn)。例如,模型會(huì)進(jìn)行“反思”,即重新審視并評(píng)估之前的步驟,還會(huì)探索解決問(wèn)題的替代方法。這些行為并非通過(guò)明確編程實(shí)現(xiàn),而是模型與強(qiáng)化學(xué)習(xí)環(huán)境交互的自然產(chǎn)物,大大增強(qiáng)了其推理能力,使其能夠更高效、更精準(zhǔn)地解決復(fù)雜任務(wù)。

“它突顯了強(qiáng)化學(xué)習(xí)的力量和美麗:與其明確地教模型如何解決問(wèn)題,我們只需為其提供正確的激勵(lì),它就會(huì)自主地開(kāi)發(fā)先進(jìn)的問(wèn)題解決策略。這一“頓悟時(shí)刻”有力地提醒了強(qiáng)化學(xué)習(xí)在解鎖人工智能新水平方面的潛力,為未來(lái)更自主、更適應(yīng)的模型鋪平了道路?!?/p>

蒸餾,蒸餾,歡迎大家一起來(lái)蒸餾

在DeepSeek的官方推文里,所有介紹的重點(diǎn)并不在R1模型技巧或R1模型榜單成績(jī),而是在蒸餾。

“今天,我們正式發(fā)布 DeepSeek-R1,并同步開(kāi)源模型權(quán)重。DeepSeek-R1 遵循 MIT License,允許用戶(hù)通過(guò)蒸餾技術(shù)借助 R1 訓(xùn)練其他模型。DeepSeek-R1 上線API,對(duì)用戶(hù)開(kāi)放思維鏈輸出,通過(guò)設(shè)置 `model=’deepseek-reasoner’` 即可調(diào)用。DeepSeek 官網(wǎng)與 App 即日起同步更新上線?!?/p>

這是它官方發(fā)布的頭幾句話(huà)。

DeepSeek在R1基礎(chǔ)上,用Qwen和Llama蒸餾了幾個(gè)不同大小的模型,適配目前市面上對(duì)模型尺寸的最主流的幾種需求。它沒(méi)有自己搞,而是用了兩個(gè)目前生態(tài)最強(qiáng)大,能力也最強(qiáng)大的開(kāi)源模型架構(gòu)。Qwen 和 Llama 的架構(gòu)相對(duì)簡(jiǎn)潔,并提供了高效的權(quán)重參數(shù)管理機(jī)制,適合在大模型(如 DeepSeek-R1)上執(zhí)行高效的推理能力蒸餾。蒸餾過(guò)程不需要對(duì)模型架構(gòu)進(jìn)行復(fù)雜修改,減少了開(kāi)發(fā)成本。而且,直接在 Qwen 和 Llama 上進(jìn)行蒸餾訓(xùn)練比從頭訓(xùn)練一個(gè)同規(guī)模的模型要節(jié)省大量的計(jì)算資源,同時(shí)可以復(fù)用已有的高質(zhì)量參數(shù)初始化。

這是DeepSeek打的一手好算盤(pán)。

而且,效果同樣不錯(cuò)。

“我們?cè)陂_(kāi)源 DeepSeek-R1-Zero 和 DeepSeek-R1 兩個(gè) 660B 模型的同時(shí),通過(guò) DeepSeek-R1 的輸出,蒸餾了 6 個(gè)小模型開(kāi)源給社區(qū),其中 32B 和 70B 模型在多項(xiàng)能力上實(shí)現(xiàn)了對(duì)標(biāo) OpenAI o1-mini 的效果?!?/p>

此外,在技術(shù)方向上,這也給業(yè)界帶來(lái)啟發(fā):

對(duì)小模型來(lái)說(shuō),蒸餾優(yōu)于直接強(qiáng)化學(xué)習(xí):從 DeepSeek-R1 蒸餾得到的小模型在多個(gè)推理基準(zhǔn)(如 AIME 2024 和 MATH-500)上的表現(xiàn)優(yōu)于直接對(duì)小模型進(jìn)行強(qiáng)化學(xué)習(xí)。大模型學(xué)到的推理模式在蒸餾中得到了有效傳遞。

DeepSeek比OpenAI更有活力

如果簡(jiǎn)單來(lái)概括R1系列的發(fā)布,DeepSeek用巨大的算力和各類(lèi)資源,訓(xùn)練了一個(gè)強(qiáng)大的底層模型——這個(gè)叫做R1 zero的模型,在訓(xùn)練過(guò)程里直接拋棄了GPT系列為代表的SFT等預(yù)訓(xùn)練技巧,直接激進(jìn)地幾乎全部依賴(lài)強(qiáng)化學(xué)習(xí),造出了一個(gè)僅靠自己反思就擁有泛化能力的模型。

然后,因?yàn)槿恰白晕曳此肌睂W(xué)出來(lái)的能力,R1 zero有時(shí)候會(huì)顯得學(xué)的有點(diǎn)雜而混亂了,為了能夠讓人更好使用,DeepSeek用它自己的一系列技巧來(lái)讓它和真實(shí)的場(chǎng)景做了對(duì)齊,改造出一個(gè)R1。

然后在此基礎(chǔ)上,不是自己蒸餾小模型而是用幾個(gè)最流行的開(kāi)源框架蒸餾出來(lái)了幾個(gè)最合適尺寸的模型。所有這些都開(kāi)源給外界參考和使用。

整個(gè)過(guò)程里,DeepSeek顯示出很強(qiáng)的自己自成一派的技術(shù)路線和風(fēng)格。而這種路線正在和OpenAI正面交鋒。

OpenAI的o系列此前陸續(xù)傳出的訓(xùn)練方法上,對(duì)于“對(duì)齊”基本延續(xù)著GPT系列形成的風(fēng)格,此前一名OpenAI負(fù)責(zé)訓(xùn)練安全和對(duì)齊部分的研究員曾對(duì)我們透露,他們內(nèi)部,所謂安全和與人類(lèi)對(duì)齊,其實(shí)和提高模型能力是同一件事。但后來(lái)隨著o3的預(yù)告,同時(shí)發(fā)生的就是這些人類(lèi)安全對(duì)齊機(jī)制的研究員的集體離職。這也讓這家公司的創(chuàng)新變得遮遮掩掩,外部看來(lái)就是慢下來(lái),且活力減少了。

這樣的對(duì)比,也讓DeepSeek在這個(gè)階段的異軍突起顯得更讓人期待。它比OpenAI更有活力。

從DeepSeek R系列來(lái)看,它的對(duì)齊放在了R1這個(gè)模型的訓(xùn)練階段里,而R1 zero更像是只追求用最極致的強(qiáng)化學(xué)習(xí)方法自己練出強(qiáng)大的邏輯能力。人類(lèi)反饋說(shuō)喜不喜歡它,這些信息并沒(méi)有太被混在最初R1 zero里面一起訓(xùn)練。

這繼續(xù)在把“基礎(chǔ)模型”的能力和實(shí)際使用的模型分開(kāi),最初GPT3和InstructGPT其實(shí)就是這樣的思路,只不過(guò)當(dāng)時(shí)是基礎(chǔ)能力和人類(lèi)偏好分開(kāi)兩階段完成,現(xiàn)在是更抽象的基礎(chǔ)邏輯能力和更強(qiáng)調(diào)實(shí)用性能和性?xún)r(jià)比的偏好。這也是為什么V3之前被發(fā)現(xiàn)在文科類(lèi)的能力上不強(qiáng)的原因。

所以,與“追上o1”相比,DeepSeek R1 zero證明出來(lái)的能力,和用它蒸餾出來(lái)的V3的驚艷,以及這次它又用Llama和Qwen蒸餾出來(lái)的幾個(gè)小參數(shù)模型表現(xiàn)出來(lái)的能力,才是這一系列動(dòng)作的關(guān)鍵。

在與人類(lèi)交互這件事上,ChatGPT因?yàn)橛蠫PT4提供的基礎(chǔ)能力后,實(shí)現(xiàn)了突破,但OpenAI選擇立刻閉源,這樣就只有它自己能突破。在泛化出強(qiáng)大的數(shù)理推理能力這件事上,DeepSeek V3因?yàn)橛蠨eepSeek R1的強(qiáng)大涌現(xiàn)才實(shí)現(xiàn)突破,而DeepSeek則把它開(kāi)源,選擇讓大家都能一起突破。

DeepSeek對(duì)OpenAI的威脅是真實(shí)的,接下來(lái)的“比拼”會(huì)越來(lái)越有意思。

轉(zhuǎn)載請(qǐng)注明來(lái)源:華夏商業(yè)網(wǎng)_華夏財(cái)經(jīng)_華夏資訊 » DeepSeek R1來(lái)了,追平o1 它現(xiàn)在不但比OpenAI開(kāi)放,也比它有活力
分享到: 更多 (0)