337P日本大胆欧美人视频_亚洲AV永久无码精品成人_精品久久久久久无码人妻中文字幕_国产精品99久久久久久宅男
美國(guó)硅谷巨頭神話(huà)崩塌,國(guó)產(chǎn)大模型DeepSeek在全球掀起復(fù)現(xiàn)狂潮

美國(guó)硅谷巨頭神話(huà)崩塌,國(guó)產(chǎn)大模型DeepSeek在全球掀起復(fù)現(xiàn)狂潮

zhangyanan 2025-03-07 快手 39 次瀏覽 0個(gè)評(píng)論

編輯:編輯部 HYZ

【新智元導(dǎo)讀】就在剛剛,網(wǎng)上已經(jīng)出現(xiàn)了一波復(fù)現(xiàn)DeepSeek的狂潮。UC伯克利、港科大、HuggingFace等紛紛成功復(fù)現(xiàn),只用強(qiáng)化學(xué)習(xí),沒(méi)有監(jiān)督微調(diào),30美元就能見(jiàn)證「啊哈時(shí)刻」!全球AI大模型,或許正在進(jìn)入下一分水嶺。


這些天,硅谷徹底處于中國(guó)公司帶來(lái)的大地震余波中。

全美都在恐慌:是否全球人工智能的中心已經(jīng)轉(zhuǎn)移到了中國(guó)?

就在這當(dāng)口,全球復(fù)現(xiàn)DeepSeek的一波狂潮也來(lái)了。

誠(chéng)如LeCun所言:「這一次,正是開(kāi)源對(duì)閉源的勝利!」

圖片

在沒(méi)有頂級(jí)芯片的情況下,以極低成本芯片訓(xùn)出突破性模型的DeepSeek,或?qū)⑼{到美國(guó)的AI霸權(quán)。

大模型比拼的不再是動(dòng)輒千萬(wàn)億美元的算力戰(zhàn)。

OpenAI、Meta、谷歌這些大公司引以為傲的技術(shù)優(yōu)勢(shì)和高估值將會(huì)瓦解,英偉達(dá)的股價(jià)將開(kāi)始動(dòng)搖。

種種這些觀點(diǎn)和討論,讓人不禁懷疑:數(shù)百億美元支出,對(duì)這個(gè)行業(yè)真的必要嗎?甚至有人說(shuō),中國(guó)量化基金的一群天才,將導(dǎo)致納斯達(dá)克崩盤(pán)。

從此,大模型時(shí)代很可能會(huì)進(jìn)入一個(gè)分水嶺:超強(qiáng)性能的模型不再獨(dú)屬于算力巨頭,而是屬于每個(gè)人。

30美金,就能看到「啊哈」時(shí)刻

來(lái)自UC伯克利博士生潘家怡和另兩位研究人員,在CountDown游戲中復(fù)現(xiàn)了DeepSeek R1-Zero。

他們表示,結(jié)果相當(dāng)出色!

實(shí)驗(yàn)中,團(tuán)隊(duì)驗(yàn)證了通過(guò)強(qiáng)化學(xué)習(xí)RL,3B的基礎(chǔ)語(yǔ)言模型也能夠自我驗(yàn)證和搜索。

更令人興奮的是,成本不到30美金(約217元),就可以親眼見(jiàn)證「啊哈」時(shí)刻。

圖片

這個(gè)項(xiàng)目叫做TinyZero,采用了R1-Zero算法——給定一個(gè)基礎(chǔ)語(yǔ)言模型、提示和真實(shí)獎(jiǎng)勵(lì)信號(hào),運(yùn)行強(qiáng)化學(xué)習(xí)。

然后,團(tuán)隊(duì)將其應(yīng)用在CountDown游戲中(這是一個(gè)玩家使用基礎(chǔ)算術(shù)運(yùn)算,將數(shù)字組合以達(dá)到目標(biāo)數(shù)字的游戲)。

模型從最初的簡(jiǎn)單輸出開(kāi)始,逐步進(jìn)化出自我糾正和搜索的策略。

在以下示例中,模型提出了解決方案,自我驗(yàn)證,并反復(fù)糾正,直到解決問(wèn)題為止。

圖片

在消融實(shí)驗(yàn)中,研究人員運(yùn)行了Qwen-2.5-Base(0.5B、1.5B、3B、7B四種參數(shù)規(guī)模)。

結(jié)果發(fā)現(xiàn),0.5B模型僅僅是猜測(cè)一個(gè)解決方案然后停止。而從1.5B開(kāi)始,模型學(xué)會(huì)了搜索、自我驗(yàn)證和修正其解決方案,從而能夠獲得更高的分?jǐn)?shù)。

他們認(rèn)為,在這個(gè)過(guò)程,基礎(chǔ)模型是性能的關(guān)鍵。

圖片

他們還驗(yàn)證了,額外的指令微調(diào)(SFT)并非是必要的,這也印證了R1-Zero的設(shè)計(jì)決策。

圖片

這是首個(gè)驗(yàn)證LLM推理能力的實(shí)現(xiàn)可以純粹通過(guò)RL,無(wú)需監(jiān)督微調(diào)的開(kāi)源研究

基礎(chǔ)模型和指令模型兩者區(qū)別:

圖片

此外,他們還發(fā)現(xiàn),具體的RL算法并不重要。PPO、GRPO、PRIME這些算法中,長(zhǎng)思維鏈(Long CoT)都能夠涌現(xiàn),且?guī)?lái)不錯(cuò)的性能表現(xiàn)。

圖片

而且,模型在推理行為中非常依賴(lài)于具體的任務(wù):

圖片

蘋(píng)果機(jī)器學(xué)習(xí)科學(xué)家Yizhe Zhang對(duì)此表示,太酷了,小到1.5B的模型,也能通過(guò)RL涌現(xiàn)出自我驗(yàn)證的能力。

圖片

7B模型復(fù)刻,結(jié)果令人驚訝

港科大助理教授何俊賢的團(tuán)隊(duì)(共同一作黃裕振、Weihao Zeng),只用了8K個(gè)樣本,就在7B模型上復(fù)刻出了DeepSeek-R1-Zero和DeepSeek-R1的訓(xùn)練。

結(jié)果令人驚喜——模型在復(fù)雜的數(shù)學(xué)推理上取得了十分強(qiáng)勁結(jié)果。

圖片

圖片

項(xiàng)目地址:https://github.com/hkust-nlp/simpleRL-reason

他們以Qwen2.5-Math-7B(基礎(chǔ)模型)為起點(diǎn),直接對(duì)其進(jìn)行強(qiáng)化學(xué)習(xí)。

整個(gè)過(guò)程中,沒(méi)有進(jìn)行監(jiān)督微調(diào)(SFT),也沒(méi)有使用獎(jiǎng)勵(lì)模型。

最終,模型在AIME基準(zhǔn)上實(shí)現(xiàn)了33.3%的準(zhǔn)確率,在AMC上為62.5%,在MATH上為77.2%。

這一表現(xiàn)不僅超越了Qwen2.5-Math-7B-Instruct,并且還可以和使用超過(guò)50倍數(shù)據(jù)量和更復(fù)雜組件的PRIME和rStar-MATH相媲美!

圖片
圖片

其中,Qwen2.5-7B-SimpleRL-Zero是在Qwen2.5-Math-7B基礎(chǔ)模型上僅使用純PPO方法訓(xùn)練的,僅采用了MATH數(shù)據(jù)集中的8K樣本。

Qwen2.5-7B-SimpleRL則首先通過(guò)Long CoT監(jiān)督微調(diào)(SFT)作為冷啟動(dòng),然后再進(jìn)行強(qiáng)化學(xué)習(xí)。

在這兩種方法中,團(tuán)隊(duì)都只使用了相同的8K MATH樣本,僅此而已。

大概在第44步的時(shí)候,「啊哈時(shí)刻」出現(xiàn)了!模型的響應(yīng)中,出現(xiàn)了自我反思。

圖片

并且,在這個(gè)過(guò)程中,模型還顯現(xiàn)了更長(zhǎng)的CoT推理能力和自我反思能力。

圖片

在博客中,研究者詳細(xì)剖析了實(shí)驗(yàn)設(shè)置,以及在這個(gè)強(qiáng)化學(xué)習(xí)訓(xùn)練過(guò)程中所觀察到的現(xiàn)象,例如長(zhǎng)鏈?zhǔn)剿伎迹–oT)和自我反思機(jī)制的自發(fā)形成。

與DeepSeek R1類(lèi)似,研究者的強(qiáng)化學(xué)習(xí)方案極其簡(jiǎn)單,沒(méi)有使用獎(jiǎng)勵(lì)模型或MCTS(蒙特卡洛樹(shù)搜索)類(lèi)技術(shù)。

他們使用的是PPO算法,并采用基于規(guī)則的獎(jiǎng)勵(lì)函數(shù),根據(jù)生成輸出的格式和正確性分配獎(jiǎng)勵(lì):

該實(shí)現(xiàn)基于OpenRLHF。初步試驗(yàn)表明,這個(gè)獎(jiǎng)勵(lì)函數(shù)有助于策略模型快速收斂,產(chǎn)生符合期望格式的輸出。

接下來(lái),研究者為我們分享了訓(xùn)練過(guò)程動(dòng)態(tài)分析和一些有趣的涌現(xiàn)模式。

訓(xùn)練過(guò)程動(dòng)態(tài)分析

如下所示,所有基準(zhǔn)測(cè)試的準(zhǔn)確率在訓(xùn)練過(guò)程中都在穩(wěn)步提高,而輸出長(zhǎng)度則呈現(xiàn)先減少后逐漸增加的趨勢(shì)。

經(jīng)過(guò)進(jìn)一步調(diào)查,研究者發(fā)現(xiàn),Qwen2.5-Math-7B基礎(chǔ)模型在初始階段傾向于生成大量代碼,這可能源于模型原始訓(xùn)練數(shù)據(jù)的分布特征。

輸出長(zhǎng)度的首次下降,是因?yàn)閺?qiáng)化學(xué)習(xí)訓(xùn)練逐漸消除了這種代碼生成模式,轉(zhuǎn)而學(xué)會(huì)使用自然語(yǔ)言進(jìn)行推理。

隨后,生成長(zhǎng)度開(kāi)始再次增加,此時(shí)出現(xiàn)了自我反思機(jī)制。

圖片

訓(xùn)練獎(jiǎng)勵(lì)和輸出長(zhǎng)度

圖片

基準(zhǔn)測(cè)試準(zhǔn)確率(pass@1)和輸出長(zhǎng)度

自我反思機(jī)制的涌現(xiàn)

在訓(xùn)練到第 40 步左右時(shí),研究者觀察到:模型開(kāi)始形成自我反思模式,這正是DeepSeek-R1論文中所描述的「aha moment」(頓悟時(shí)刻)。

圖片

如前所述,研究者在進(jìn)行強(qiáng)化學(xué)習(xí)之前,先進(jìn)行了long CoT SFT預(yù)熱,使用了8,000個(gè)從QwQ-32B-Preview中提取的MATH示例響應(yīng)作為SFT數(shù)據(jù)集。

這種冷啟動(dòng)的潛在優(yōu)勢(shì)在于:模型在開(kāi)始強(qiáng)化學(xué)習(xí)時(shí)已具備long CoT思維模式和自我反思能力,從而可能在強(qiáng)化學(xué)習(xí)階段實(shí)現(xiàn)更快更好的學(xué)習(xí)效果。

圖片

與RL訓(xùn)練前的模型(Qwen2.5-Math-7B-Base + 8K QwQ知識(shí)蒸餾版本)相比,Qwen2.5-7B-SimpleRL的平均性能顯著提升了6.9個(gè)百分點(diǎn)。

此外,Qwen2.5-7B-SimpleRL不僅持續(xù)優(yōu)于Eurus-2-7B-PRIME,還在5個(gè)基準(zhǔn)測(cè)試中的3個(gè)上超越了Qwen2.5-7B-SimpleRL-Zero。

圖片

訓(xùn)練獎(jiǎng)勵(lì)和輸出長(zhǎng)度

圖片

基準(zhǔn)測(cè)試準(zhǔn)確率(pass@1)和輸出長(zhǎng)度

Qwen2.5-SimpleRL的訓(xùn)練動(dòng)態(tài)表現(xiàn)與Qwen2.5-SimpleRL-Zero相似。

有趣的是,盡管研究者先進(jìn)行了long CoT SFT,但在強(qiáng)化學(xué)習(xí)初期仍然觀察到輸出長(zhǎng)度減少的現(xiàn)象。

他們推測(cè),這可能是因?yàn)閺腝wQ提取的推理模式不適合小型策略模型,或超出了其能力范圍。

因此,模型選擇放棄這種模式,轉(zhuǎn)而自主發(fā)展新的長(zhǎng)鏈?zhǔn)酵评矸绞健?/span>

最后,研究者用達(dá)芬奇的一句話(huà),對(duì)這項(xiàng)研究做了總結(jié)——

簡(jiǎn)約,便是最終極的精致。

圖片

完全開(kāi)源復(fù)刻,HuggingFace下場(chǎng)了

甚至,就連全球最大開(kāi)源平臺(tái)HuggingFace團(tuán)隊(duì),今天官宣復(fù)刻DeepSeek R1所有pipeline。

復(fù)刻完成后,所有的訓(xùn)練數(shù)據(jù)、訓(xùn)練腳本等等,將全部開(kāi)源。

圖片

這個(gè)項(xiàng)目叫做Open R1,當(dāng)前還在進(jìn)行中。發(fā)布到一天,星標(biāo)沖破1.9k,斬獲142個(gè)fork。

圖片

項(xiàng)目地址:https://github.com/huggingface/open-r1

研究團(tuán)隊(duì)以DeepSeek-R1技術(shù)報(bào)告為指導(dǎo),將整個(gè)復(fù)刻過(guò)程劃分為三個(gè)關(guān)鍵步驟。

圖片

從斯坦福到MIT,R1成為首選

一個(gè)副業(yè)項(xiàng)目,讓全世界科技大廠(chǎng)為之惶恐。

DeepSeek這波成功,也成為業(yè)界的神話(huà),網(wǎng)友最新截圖顯示,這款應(yīng)用已經(jīng)在APP Store應(yīng)用榜單登頂。

圖片

在Hugging Face中,R1下載量直接登頂,另外3個(gè)模型也霸占著熱榜。

圖片

a16z合伙人Anjney Midha稱(chēng),一夜之間,從斯坦福到MIT,DeepSeek R1已經(jīng)成為美國(guó)頂尖高校研究人員「首選模型」。

圖片

還有研究人員表示,DeepSeek基本上取代了我用ChatGPT的需求。

圖片

中國(guó)AI,這一次真的震撼了世界。

參考資料:

https://x.com/junxian_he/status/1883183099787571519

https://x.com/jiayi_pirate/status/1882839370505621655

轉(zhuǎn)載請(qǐng)注明來(lái)自浙江中液機(jī)械設(shè)備有限公司 ,本文標(biāo)題:《美國(guó)硅谷巨頭神話(huà)崩塌,國(guó)產(chǎn)大模型DeepSeek在全球掀起復(fù)現(xiàn)狂潮》

百度分享代碼,如果開(kāi)啟HTTPS請(qǐng)參考李洋個(gè)人博客
每一天,每一秒,你所做的決定都會(huì)改變你的人生!

發(fā)表評(píng)論

快捷回復(fù):

驗(yàn)證碼

評(píng)論列表 (暫無(wú)評(píng)論,39人圍觀)參與討論

還沒(méi)有評(píng)論,來(lái)說(shuō)兩句吧...

Top
 211考研最新招生信息  河南富僑招聘信息最新  龍圩護(hù)士招聘最新信息  深圳黎村租房信息最新  林州京喜招聘信息最新  赤坑商鋪轉(zhuǎn)讓最新信息  平羅新安最新招聘信息  電商員工招聘信息最新  新豐苑門(mén)面出租信息最新  臺(tái)灣拉面師招聘信息最新  安吉最新招聘信息美容  貴州掌圈招聘信息最新  玉州分局領(lǐng)導(dǎo)信息最新  太安快遞招工信息最新  修文扎佐地震最新信息  曲靖招聘最新信息發(fā)布群  重慶回貴陽(yáng)路況最新信息  璧山大興征地最新信息  5g投資最新信息  南陵鑫山廠(chǎng)場(chǎng)最新信息  廣東承澤公司最新信息  浦東育嬰嫂招聘最新信息  成都大豐最新招工信息  璧山助聽(tīng)器招聘信息最新  漳州 瑞幸招聘最新信息  烏衣防疫最新信息查詢(xún)  沙涌村租房信息最新  西安最新疫情簡(jiǎn)報(bào)信息  中心城區(qū)最新信息網(wǎng)  長(zhǎng)治潞城區(qū)賣(mài)房信息最新 
337P日本大胆欧美人视频_亚洲AV永久无码精品成人_精品久久久久久无码人妻中文字幕_国产精品99久久久久久宅男