作者:APPSO
過去一周,來自中國的DeepSeek R1 模型攪動整個海外AI 圈。
一方面,它以較低的訓練成本實現了媲美OpenAI o1 性能的效果,詮釋了中國在工程能力和規模創新上的優勢;另一方面,它也秉持開源精神,熱衷分享技術細節。
最近,加州柏克萊大學在攻讀博士Jiayi Pan 的研究團隊更是成功地以極低的成本(低於30 美元)復現了DeepSeek R1-Zero 的關鍵技術——「頓悟時刻」。
所以難怪Meta CEO 祖克柏、圖靈獎得主Yann LeCun 以及Deepmind CEO Demis Hassabis 等人都對DeepSeek 給予了高度評價。
隨著DeepSeek R1 的熱度不斷攀升,今天下午,DeepSeek App 因用戶訪問量激增而短暫出現伺服器繁忙的狀況,甚至一度「崩了」。
OpenAI CEO Sam Altman 剛剛也試圖劇透o3-mini 使用額度,來搶回國際媒體的頭版頭條——ChatGPT Plus 會員每天可查詢100 次。
然而,鮮為人知的是,在聲名鵲起之前,DeepSeek 母公司幻方量化其實是國內量化私募領域的頭部企業之一。
DeepSeek 模型震撼矽谷,含金量還在上升
2024 年12 月26 日,DeepSeek 正式發表了DeepSeek-V3 大模型。
這款模型在多項基準測試中表現優異,超越業界主流頂尖模型,特別是在知識問答、長文本處理、程式碼生成和數學能力等方面。例如,在MMLU、GPQA 等知識類任務中,DeepSeek-V3 的表現接近國際頂尖模型Claude-3.5-Sonnet。
在數學能力方面,更是在AIME 2024 和CNMO 2024 等測驗中創造了新的記錄,超越所有已知的開源和閉源模型。同時,其生成速度較上代提升了200%,達到60 TPS,大幅改善了使用者體驗。
根據獨立評測網站Artificial Analysis 的分析,DeepSeek-V3 在多項關鍵指標上超越了其他開源模型,並在效能上與世界頂尖的閉源模型GPT-4o 和Claude-3.5-Sonnet 不分伯仲。
DeepSeek-V3 的核心技術優勢包括:
- 混合專家(MoE)架構:DeepSeek-V3 擁有6710 億參數,但在實際運行中,每個輸入僅激活370 億參數,這種選擇性激活的方式大大降低了計算成本,同時保持了高效能。
- 多頭潛在註意力(MLA):此架構在DeepSeek-V2 中已經得到驗證,能夠實現高效的訓練和推理。
- 無輔助損失的負載平衡策略:此策略旨在最小化因負載平衡對模型效能產生的負面影響。
- 多tokens預測訓練目標:此策略提升了模型的整體表現。
高效率的訓練框架:採用HAI-LLM 框架,支援16-way Pipeline Parallelism(PP)、64-way Expert Parallelism(EP)和ZeRO-1 Data Parallelism(DP),並透過多種優化手段降低了訓練成本。
更重要的是,DeepSeek-V3 的訓練成本僅558 萬美元,遠低於如訓練成本高達7,800 萬美元的GPT-4。並且,其API 服務價格也延續了過往親民的打法。
輸入tokens 每百萬僅需0.5元(快取命中)或2 元(快取未命中),輸出tokens 每百萬僅需8 元。
《金融時報》將其描述為「震驚國際科技界的黑馬」,認為其性能已與資金雄厚的OpenAI 等美國競爭對手模型相媲美。 Maginative 創辦人Chris McKay 更進一步指出,DeepSeek-V3 的成功或將重新定義AI 模型開發的既定方法。
換句話說,DeepSeek-V3 的成功也被視為對美國算力出口限制的直接回應,反而刺激了中國的創新。
DeepSeek 創辦人梁文鋒,低調的浙大天才
DeepSeek 的崛起讓矽谷寢食難安,這個攪動全球AI 產業模式的背後創辦人梁文鋒則完美詮釋了中國傳統意義上天才的成長軌跡——少年功成,歷久彌新。
一個好的AI 公司領導者,需要既懂技術又懂商業,既要有遠見又要務實,既要有創新勇氣又要有工程紀律。這種複合型人才本身就是稀缺資源。
17 歲考入浙江大學資訊與電子工程學專業,30 歲創辦幻方量化(Hquant),開始帶領團隊探索全自動量化交易。梁文鋒的故事印證了天才總會在對的時間做對的事。
- 2010 年:隨著滬深300 股指期貨推出,量化投資迎來發展機遇,幻方團隊乘勢而上,自營資金迅速成長。
- 2015 年:梁文鋒與校友共同創立幻棋量化,隔年推出首個AI 模型,上線深度學習產生的交易部位。
- 2017 年:幻方量化宣稱實現投資策略全面AI 化。
- 2018 年:確立AI 為公司主要發展方向。
- 2019 年:資金管理規模突破百億元,成為國內量化私募「四巨頭」一。
- 2021 年:幻方量化成為國內首個突破千億規模的量化私募大廠。
你不能只在成功的時候才想起這家公司在過去幾年坐冷板凳的日子。不過,就像量化交易公司轉型AI,看似意外,其實順理成章── 因為它們都是數據驅動的技術密集產業。
黃仁勳只想賣遊戲顯示卡,賺我們這些臭打遊戲的三瓜兩棗,卻沒想到成了全球最大的AI 軍火庫,幻方踏進AI 領域也是何其相似。這種演進比當下許多產業生搬硬套AI 大模型更有生命力。
幻方量化在量化投資過程中累積了大量資料處理和演算法最佳化經驗,同時擁有大量A100 晶片,為AI 模型訓練提供了強大硬體支援。從2017 年開始,幻方量化大規模佈局AI 算力,建構「螢火一號」「螢火二號」等高效能運算集群,為AI 模型訓練提供強大算力支援。
2023 年,幻方量化正式成立DeepSeek,專注於AI 大模型研發。 DeepSeek 繼承了幻方量化在技術、人才和資源方面的積累,並迅速在AI 領域嶄露頭角。
在接受《暗湧》的深度訪談中,DeepSeek 創辦人梁文鋒同樣展現出獨特的戰略視野。
有別於大多數選擇複製Llama 架構的中國公司,DeepSeek 直接從模型結構入手,只為瞄準AGI 的宏偉目標。
梁文鋒毫不諱言當前的差距當前中國AI 與國際頂尖水準存在顯著差距,在模型結構、訓練動力學和資料效率上的綜合差距導致需要投入4 倍的算力才能達到同等效果。
▲圖片來自央視新聞截圖
這種直面挑戰的態度源自於梁文鋒在幻方多年的經驗累積。
他強調,開源不僅是技術分享,更是一種文化表達,真正的護城河在於團隊的持續創新能力。 DeepSeek 獨特的組織文化鼓勵自下而上的創新,淡化層級,重視人才的熱情和創造力。
團隊主要由頂尖大學的年輕人組成,採用自然分工模式,讓員工自主探索與合作。在招募時更重視員工的愛和好奇心,而非傳統意義上的經驗和背景。
對於產業前景,梁文鋒認為AI 正處於技術創新的爆發期,而非應用爆發期。他強調,中國需要更多原創技術創新,不能永遠處於模仿階段,需要有人站到技術前沿。
即使OpenAI 等公司目前處於領先地位,但創新的機會仍然存在。
捲翻矽谷,Deepseek 讓海外AI 圈坐立不安
儘管業界對DeepSeek 的評價不盡相同,但我們也蒐集了一些業內人士的評價。
英偉達GEAR Lab 專案負責人Jim Fan 對DeepSeek-R1 給予了高度評價。
他指出這代表非美國公司正在實踐OpenAI 最初的開放使命,透過公開原始演算法和學習曲線等方式實現影響力,順便也內涵了一波OpenAI。
DeepSeek-R1 不僅開源了一系列模型,還揭露了所有訓練秘密。它們可能是首個展示RL 飛輪重大且持續成長的開源專案。
影響力既可以透過『ASI 內部實現』或『草莓計畫』等傳說般的計畫實現,也可以簡單地透過公開原始演算法和matplotlib 學習曲線來達成。
華爾街頂級風投A16Z 創辦人Marc Andreesen 則認為DeepSeek R1 是他所見過的最令人驚奇和令人印象深刻的突破之一,作為開源,這是給世界的一份意義深遠的禮物。
騰訊前高級研究員、北京大學人工智慧方向博士後盧菁從技術累積的角度進行分析。他指出DeepSeek 並非突然爆火,它承接了上一代模型版本中的許多創新,相關模型架構、演算法創新經過迭代驗證,震動產業也有其必然性。
圖靈獎得主、Meta 首席AI 科學家Yann LeCun 則提出了一個新的視角:
「給那些看到DeepSeek 的表現後,覺得「中國在AI 方面正在超越美國」的人,你們的解讀是錯的。正確的解讀應該是,「開源模型正在超越專有模型」。 」
Deepmind CEO Demis Hassabis 的評價則透露出一絲憂慮:
「它(DeepSeek)取得的成就令人印象深刻,我認為我們需要考慮如何保持西方前沿模型的領先地位,我認為西方仍然領先,但可以肯定的是,中國具有極強的工程和規模化能力。 」
微軟CEO Satya Nadella 在瑞士達沃斯世界經濟論壇上表示,DeepSeek 切實有效地開發出了一款開源模型,不僅在推理計算方面表現出色,而且超級計算效率極高。
他強調,微軟必須以最高度的重視來應對中國的這些突破性進展。
Meta CEO 祖克柏評價則更加深入,他認為DeepSeek 展現出的技術實力和性能令人印象深刻,並指出中美之間的AI 差距已經微乎其微,中國的全力衝刺使得這場競爭愈發激烈。
來自競爭對手的反應或許是對DeepSeek 最好的認可。根據Meta 員工在匿名職場社群TeamBlind 上的爆料,DeepSeek-V3 和R1 的出現讓Meta 的生成式AI 團隊陷入了恐慌。
Meta 的工程師們正在爭分奪秒地分析DeepSeek 的技術,試圖從中複製任何可能的技術。
原因在於DeepSeek-V3 的訓練成本僅為558 萬美元,這個數字甚至不如Meta 某些高階主管的年薪。如此懸殊的投入產出比,讓Meta 管理層在解釋其龐大的AI 研發預算時倍感壓力。
國際主流媒體對DeepSeek 的崛起也給予了高度關注。
《金融時報》指出,DeepSeek 的成功顛覆了「AI 研發必須依賴巨額投入」的傳統認知,證明精準的技術路線同樣能實現卓越的研究成果。更重要的是,DeepSeek 團隊對技術創新的無私分享,讓這家更注重研究價值的公司成為了一個格外強大的競爭對手。
《經濟學人》表示,認為中國AI 技術在成本效益方面的快速突破,已經開始動搖美國的技術優勢,這可能會影響美國未來十年的生產力提升和經濟成長潛力。
《紐約時報》則從另一個角度切入,DeepSeek-V3 在性能上與美國公司的高端聊天機器人相當,但成本大大降低。
這顯示即使在晶片出口管制的情況下,中國公司也能透過創新和高效利用資源來競爭。並且,美國政府的晶片限制政策可能適得其反,反而推動了中國在開源AI 技術領域的創新突破。
DeepSeek「報錯家門」,自稱是GPT-4
在一片讚譽聲中,DeepSeek 也面臨一些爭議。
許多外在人士認為DeepSeek可能在訓練過程中使用了ChatGPT 等模型的輸出資料作為訓練材料,透過模型蒸餾技術,這些資料中的「知識」被遷移到DeepSeek 自己的模型中。
這種做法在AI 領域並非罕見,但質疑者關注的是DeepSeek 是否在未充分揭露的情況下使用了OpenAI 模型的輸出資料。這似乎在DeepSeek-V3 的自我認知上也有所體現。
早前就有用戶發現,當詢問模型的身份時,它會將自己誤認為GPT-4。
高品質數據一直是AI 發展的重要因素,就連OpenAI 也難以避免數據獲取的爭議,其從互聯網大規模爬取數據的做法同樣因此吃了許多版權官司,截至目前,OpenAI 與紐約時報的一審裁決尚未靴子落地,又添新案。
所以DeepSeek 也因此遭到了Sam Altman 和John Schulman 的公開內涵。
「複製你知道行得通的東西是(相對)容易的。當你不知道它是否行得通時,做一些新的、有風險的、困難的事情是非常困難的。」
不過,DeepSeek 團隊在R1 的技術報告中明確表示未使用OpenAI 模型的輸出數據,並表示透過強化學習和獨特的訓練策略實現了高效能。
例如,採用了多階段訓練方式,包括基礎模型訓練、強化學習(RL)訓練、微調等,這種多階段循環訓練方式有助於模型在不同階段吸收不同的知識和能力。
省錢也是技術活,DeepSeek 背後技術的可取之道
DeepSeek-R1 技術報告裡提到一個值得關注的發現,那就是R1 zero 訓練過程裡出現的「aha moment(頓悟時刻)」。在模型的中期訓練階段,DeepSeek-R1-Zero 開始主動重新評估初步解題思路,並分配更多時間優化策略(如多次嘗試不同解法)。
換句話說,透過RL 框架,AI 可能自發性形成類人推理能力,甚至超越預設規則的限制。而這也將有望為開發更自主、適應性的AI 模型提供方向,例如在複雜決策(醫療診斷、演算法設計)中動態調整策略。
同時,許多業內人士正試圖深入解析DeepSeek 的技術報告。 OpenAI 前聯創Andrej Karpathy 則在DeepSeek V3 發布後曾表示:
DeepSeek(這家中國的AI 公司)今天讓人感到輕鬆,它公開發布了一個前沿級的語言模型(LLM),並且在極低的預算下完成了訓練(2048個GPU,持續2 個月,花費600 萬美元)。
作為參考,這種能力通常需要16K 個GPU 的叢集來支持,而現在這些先進的系統大多使用大約100K 個GPU。例如,Llama 3(405B參數)使用了3,080 萬個GPU 小時,而DeepSeek-V3 似乎是一個更強大的模型,只用了280 萬個GPU 小時(約為Llama 3 的1/11 計算量)。
如果這個模型在實際測試中也表現出色(例如,LLM 競技場排名正在進行,我的快速測試表現不錯),那麼這將是一個在資源受限的情況下,展現出研究和工程能力的非常令人印象深刻的成果。
那麼,這是不是意味著我們不再需要大型GPU 叢集來訓練前緣LLM 了?並非如此,但它表明,你必須確保自己使用的資源不會浪費,這個案例展示了數據和演算法優化仍然能帶來很大進展。此外,這份技術報告也非常精彩詳細,值得一讀。
面對DeepSeek V3 被質疑使用ChatGPT 資料的爭議,Karpathy 則表示,大語言模型本質上並不具備人類式的自我意識,模型是否能正確回答自己身份,完全取決於開發團隊是否專門構建了自我認知訓練集,如果沒有刻意訓練,模型會基於訓練資料中最接近的資訊作答。
此外,模型將自己識別為ChatGPT 並非問題所在,考慮到ChatGPT相關數據在互聯網上的普遍性,這種回答實際上反映了一種自然的「鄰近知識湧現」現象。
Jim Fan 在閱讀DeepSeek-R1 的技術報告後則指出:
這篇論文最重要的觀點是:完全由強化學習驅動,完全沒有任何監督學習(SFT)的參與,這種方法類似於AlphaZero——透過「冷啟動(Cold Start)」從零開始掌握圍棋、將棋和西洋棋,而不需要模仿人類棋手的下法。
– 使用基於硬編碼規則計算的真實獎勵,而不是那些容易被強化學習「破解」的學習型獎勵模型。
– 模型的思考時間隨著訓練過程的推進而穩定增加,這不是預先編程的,而是一種自發性的特性。
– 出現了自我反思和探索行為的現象。
– 使用GRPO 代替PPO:GRPO 去除了PPO 中的評論員網絡,轉而使用多個樣本的平均獎勵。這是一種簡單的方法,可以減少記憶體使用。值得注意的是,GRPO 是由DeepSeek 團隊在2024 年2 月發明的,真的是一個非常強大的團隊。
同一天Kimi 也發布了類似的研究成果時,Jim Fan 發現兩家公司的研究殊途同歸:
- 都放棄了MCTS 等複雜樹搜尋方法,轉向更簡單的線性化思維軌跡,採用傳統的自回歸預測方式
- 都避免使用需要額外模型副本的價值函數,降低了運算資源需求,提高了訓練效率
- 都摒棄密集的獎勵建模,盡可能依靠真實結果作為指導,確保了訓練的穩定性
但兩者也存在顯著差異:
- DeepSeek 採用AlphaZero 式的純RL 冷啟動法,Kimi k1.5 選擇AlphaGo-Master 式的預熱策略,使用輕量級SFT
- DeepSeek 以MIT 協議開源,Kimi 則在多模態基準測試中表現出色,論文系統設計細節上更為豐富,涵蓋RL 基礎設施、混合集群、程式碼沙箱、平行策略
不過,在這個快速迭代的AI 市場中,領先優勢往往稍縱即逝。其他模型公司必將快速汲取DeepSeek 的經驗並加以改進,或許很快就能迎頭趕上。
大模型價格戰的發起者
很多人都知道DeepSeek 有一個名為「AI 屆拼多多」的稱號,卻並不知道這背後的含義其實源自於去年打響的大模型價格戰。
2024 年5 月6 日,DeepSeek 發布了DeepSeek-V2 開源MoE 模型,透過如MLA(多頭潛在註意力機制)和MoE(混合專家模型)等創新架構,實現了效能與成本的雙重突破。
推理成本降至每百萬token 僅1 元人民幣,約為當時Llama3 70B 的七分之一,GPT-4 Turbo 的七十分之一。這種技術突破使得DeepSeek 能夠在不貼錢的情況下,提供極具性價比的服務,同時也給其他廠商帶來了巨大的競爭壓力。
DeepSeek-V2 的發布引發了連鎖反應,位元組跳動、百度、阿里、騰訊、智譜AI 紛紛跟進,大幅下調其大模型產品的價格。這場價格戰的影響力甚至跨越太平洋,引起了矽谷的高度關注。
DeepSeek 也因此被冠以「AI 屆的拼多多」之稱。
面對外界的質疑,DeepSeek 創辦人梁文鋒在接受暗湧的採訪時回應:
「搶用戶並不是我們的主要目的。我們降價一方面是因為我們在探索下一代模型的結構中,成本先降下來了;另一方面,我們也覺得無論是API 還是AI,都應該是普惠的、人人可以用得起的東西。
事實上,這場價格戰的意義遠超競爭本身,更低的准入門檻讓更多企業和開發者得以接觸和應用前沿AI,同時也倒逼整個產業重新思考定價策略,正是在這個時期,DeepSeek 開始進入公眾視野,嶄露頭角。
千金買馬骨,雷軍挖角AI 天才少女
幾週前,DeepSeek 還出現了一個引人注目的人事變動。
根據第一財經報道,雷軍花千萬年薪以千萬年薪成功挖角了羅福莉,並委以小米AI 實驗室大模型團隊負責人重任。
羅福莉於2022 年加入幻方量化旗下的DeepSeek,在DeepSeek-V2 和最新的R1 等重要報告中都能看到她的身影。
再後來,一度專注於B 端的DeepSeek 也開始佈局C 端,推出行動應用。截至發稿前,DeepSeek 的行動應用在蘋果App Store 免費版應用程式最高排到第二,展現出強勁的競爭力。
一連串的小高潮讓DeepSeek 聲名鵲起,但同時也在疊加著更高的高潮,1 月20 日晚,擁有660B 參數的超大規模模型DeepSeek R1 正式發布。
這款模型在數學任務上表現出色,如在AIME 2024 上獲得79.8% 的pass@1 得分,略超OpenAI-o1;在MATH-500 上得分高達97.3%,與OpenAI-o1 相當。
程式設計任務方面,如Codeforces 上獲得2029 Elo 評級,超越96.3%的人類參與者。在MMLU、MMLU-Pro 和GPQA Diamond 等知識基準測試中,DeepSeek R1 得分分別為90.8%、84.0% 和71.5%,雖然略低於OpenAI-o1,但優於其他閉源模型。
在最新公佈的大模型競技場LM Arena 的綜合榜單中,DeepSeek R1 排名第三,與o1 並列。
- 在「Hard Prompts」(高難度提示詞)、「Coding」(程式碼能力)和「Math」(數學能力)等領域,DeepSeek R1 名列第一。
- 在「Style Control」(風格控制)方面,DeepSeek R1 與o1 並列第一。
- 在「Hard Prompt with Style Control」(高難度提示詞與風格控制結合)的測試中,DeepSeek R1 也與o1 並列第一。
在開源策略上,R1 採用MIT License,給予用戶最大程度的使用自由,支持模型蒸餾,可將推理能力蒸餾到更小的模型,如32B 和70B 模型在多項能力上實現了對標o1-mini的效果,開源力道甚至超越了先前一直被詬病的Meta。
DeepSeek R1 的橫空出世,讓國內用戶首次能夠免費使用到媲美o1 等級的模型,打破了長期存在的資訊障礙。其在小紅書等社群平台掀起的討論熱潮,堪比發布之初的GPT-4 。
走出海去,到內卷
回望DeepSeek 的發展軌跡,其成功密碼清晰可見,實力是基礎,但品牌認知才是護城河。
在與《晚點》的對話中,MiniMax CEO 閔俊傑深入分享了他對AI 產業的思考和公司策略的轉變。他強調了兩個關鍵轉折點:一是認識到科技品牌的重要性,二是理解開源策略的價值。
閔俊傑認為在AI 領域,科技進化速度比當前成就更重要,而開源可以透過社群回饋加速這一進程;其次,強大的科技品牌對吸引人才、獲取資源至關重要。
以OpenAI 為例,儘管後期遭遇管理層動盪,但其早期建立的創新形象和開源精神已為其積攢了第一波好印象。即便Claude 後續在技術上已勢均力敵,逐步蠶食OpenAI 的B 端用戶,但憑藉著用戶的路徑依賴,OpenAI 依然在C 端用戶上遙遙領先。
在AI 領域,真正的競爭舞台永遠在全球,走出海去,去內卷,去宣傳也是一條不折不扣的好路。
這股出海浪潮早已在業界激起漣漪,更早時候的Qwen、面壁智能、以及最近DeepSeek R1、kimi v1.5、豆包v1.5 Pro 都早已在海外鬧起了不小的動靜。
2025 年雖被冠上了智能體元年,AI 眼鏡元年等諸多標籤,但今年也將是中國AI 企業擁抱全球市場的重要元年,走出去將成為繞不開的關鍵詞。
而且,開源策略也是一步好棋,吸引了大量技術博主和開發者自發成為DeepSeek 的“自來水”,科技向善,不該只是口號,從“AI for All”的口號到真正的技術普惠, DeepSeek 走出了一條比OpenAI 更純粹的道路。
如果說OpenAI 讓我們看到了AI 的力量,那麼DeepSeek 就讓我們相信:
這股力量終將惠及每個人。