作者:喻琰,澎湃新聞記者
·有負責大模型領域挖掘高端科技人才的獵頭告訴澎湃科技,DeepSeek的用人邏輯和大模型領域其他公司的用人邏輯並無太大差異,對人才的核心標籤都是“年輕高潛”,即年齡在1998年出生左右,工作經驗最好不要超過五年,“聰明、理工科、年輕、經驗少。”
·在業界人士看來,和國內其他大模型新創公司相比DeepSeek是幸運的,沒有融資壓力,不需要向投資人證明,不需要兼顧模型的技術迭代和產品應用的最佳化。但作為一家商業公司,大量投資後,或早或晚都要面臨目前其他模型公司面臨的壓力和挑戰。
2024年中國大模型圈最火紅的是哪家?杭州深度求索人工智慧基礎技術研究有限公司(以下簡稱DeepSeek)一定是有力競爭者,如果說作為去年年中大模型價格戰的發起者,DeepSeek初入公眾視野,到了歲末年初先後對外發布開源模型DeepSeek-V3和推理模型DeepSeek-R1後,DeepSeek徹底引爆了大模型圈的輿論場。人們一邊驚訝於其高性價比的訓練成本(據說DeepSeek-V3僅花費了557.6萬美元的訓練成本),另一方面為其模型開源和公開技術報告的行為鼓掌稱讚。 DeepSeek-R1的發布,讓不少科學家、開發者和用戶都興奮不已,甚至認為DeepSeek是OpenAI的o1等推理模型強有力的競爭對手。
這家低調的公司為何可以做到用極低的訓練成本做出表現不佳的大模型?它今天的火爆得益於它做對了什麼?在未來的日子裡,它要繼續在「模圈」乘風破浪一路向前將會面臨怎樣的挑戰?
演算法創新使得算力成本大幅下降
「DeepSeek投入早,累積多,在演算法上有自己的特色。」國內一家明星大模型創業公司的高層在提及DeepSeek時表示,他認為DeepSeek之所以能火出圈,最核心的優勢還是得歸功於演算法上的創新,“中國公司因為缺乏算力,所以在算力成本上會比OpenAI更注重節約。”
根據DeepSeek公佈的DeepSeek-R1資訊顯示,其在後訓練階段(Post-Training)大規模使用了強化學習(Reinforcement learning)技術,在僅有極少標註資料的情況下,極大提升了模型推理能力。在數學、程式碼、自然語言推理等任務上,效能比肩OpenAI o1 正式版。
DeepSeek-R1 API價格
DeepSeek創辦人梁文鋒先前曾多次強調,DeepSeek致力於開闢差異化技術路線,而非複製OpenAI的模式,DeepSeek必須想出更有效的方法來訓練其模型。
「他們使用了一系列工程技巧優化了模型架構,例如創新地使用模型混合方法等,本質的目的是透過工程化降低成本使其可以盈利。」在科技行業從事多年的資深人士告訴澎湃科技。
根據DeepSeek對外披露的資訊可以發現,其在MLA(Multi-head Latent Attention)多頭潛在註意力機制和自研的DeepSeekMOE(Mixture-of-Experts混合專家模型)結構方面取得了重大進展,這兩種技術設計透過減少訓練運算資源,使DeepSeek模型更具成本效益,也提升了訓練效率。根據研究機構Epoch AI的數據,DeepSeek 的最新模型非常有效率。
在資料方面,與OpenAI「海量資料投餵」的方式不同,DeepSeek利用演算法把資料進行總結和分類,經過選擇性處理之後,輸送給大模型,提高了訓練效率,也降低了DeepSeek的成本。 DeepSeek-V3的出現,實現了高性能與低成本的平衡,為大模型發展提供了新的可能性。
「未來或許不需要超大規模的GPU集群了。」DeepSeek的高性價比模型發布後,OpenAI創始成員Andrej Karpathy表示。
清華大學電腦系長聘副教授劉知遠向澎湃科技表示,DeepSeek的出圈,恰恰證明了我們的競爭優勢所在,透過有限資源的極致高效利用,實現以少勝多。 R1的發布,正顯示我們與美國的AI實力差距明顯縮小了。 《經濟學人》也在最新一期報道中稱:“DeepSeek以其低成本的訓練與模型設計的創新同步改變科技行業。”
現任Google DeepMind的執行長兼聯合創始人 Demis Hassabis表示,雖然尚不完全清楚DeepSeek在訓練資料和開源模型方面對西方系統的具體依賴程度,但必須承認該團隊所取得的成就確實令人印象深刻。一方面,他認可中國擁有非常強大的工程能力和規模化能力,另一方面,他也指出,西方仍然領先,並且需要考慮如何保持西方前沿模式的領先地位。
聚焦多年的厚積薄發
DeepSeek之所以能取得這些創新並非一日之功,而是「孵化」數年之久,長期規劃後的成果。梁文鋒也是頭部量化私募幻方量化的創辦人。 Deepseek被認為充分利用了幻方量化累積的資金、數據和卡片。
梁文鋒本科、研究生畢業於浙江大學,擁有資訊與電子工程學系學士及碩士學位。 2008年起,他開始帶領團隊使用機器學習等技術探索全自動量化交易。 2015年,幻方量化成立,隔年推出第一個AI模型,第一份由深度學習產生的交易部位上線執行,2018年確立以AI為主要發展方向。 2020年,幻方累計投資超億元、佔地面積相當於一個籃球場的AI超級電腦「螢火一號」正式投入運作,號稱可以匹敵4萬台個人電腦的超級算力。 2021年,幻方投入十億建設“螢火二號”,“配備了1萬張A100GPU晶片”。當時國內超過1萬家GPU的企業不超過5家,而且除了幻方量化之外,其他4家公司都是網路大廠。
2023年7月,DeepSeek正式成立,進軍通用人工智慧領域,至今從未對外融資。
「有相對充裕的卡,沒有融資壓力,前面幾年只做模型不做產品,讓DeepSeek和其他國內大模型公司相比顯得更加單純、聚焦,能夠在工程技術和演算法上有所突破。」上述國內大模型公司高層表示。
此外,當大模型產業日漸走向封閉,OpenAI被戲稱為CloseAI時,DeepSeek的模型開源和公開技術報告的行為也贏得了開發者們的眾多好評,使得其技術品牌迅速在海內外大模型市場得以脫穎而出。
有科學研究人員告訴澎湃科技,DeepSeek的開放性非常了不起,模型V3和R1的開源提高了市場上開源模型的基準水準。
成功證明了年輕人的力量
「DeekSeek的成功也讓大家看到了年輕人的力量,本質上來說這一代人工智慧發展更需要年輕的頭腦。」一位模型公司的人士向澎湃科技說。
此前,OpenAI前政策主管、Anthropic聯合創始人Jack Clark認為DeepSeek僱用了“一批高深莫測的奇才”,對此,梁文峰在接受自媒體採訪時曾表示,並沒有什麼高深莫測的奇才,都是來自國內頂尖大學的畢業生、沒畢業的博四、博五實習生,還有一些畢業才幾年的年輕人。
從目前已有的媒體公開報道中可以看出,DeepSeek團隊最大的特色是名校、年輕,即使是團隊Leader級別,年紀也多在35歲以下。不到140人的團隊,工程師和研發人員幾乎都來自清華大學、北京大學、中山大學、北京郵電大學等國內頂尖大學,工作時間都不長。
有負責大模型領域挖掘高端科技人才的獵頭告訴澎湃科技,DeepSeek的用人邏輯和大模型領域其他公司的用人邏輯並無太大差異,對人才的核心標籤都是“年輕高潛”,即年齡在1998年出生左右,工作經驗最好不要超過五年,“聰明、理工科、年輕、經驗少。”
不過,前述獵人頭也表示,大模型新創公司本質還是一家新創公司,並非不想招募海外頂尖AI人才,而現實環境是,海外頂尖AI人才願意回來的不多。
一位不願透露姓名的DeepSeek員工向澎湃科技透露,公司管理很扁平化,自由交流的氣氛比較好。梁文峰平日行蹤不定,大多數時間大家和他都是線上交流。
該名員工先前曾在國內大廠做大模型技術研發,但覺得自己在大廠更像螺絲釘,無法創造價值,最後選擇加入DeepSeek。在他看來,DeepSeek目前更專注於底層模型技術。
DeepSeek的工作氛圍完全自下而上,自然分工,每個人對於卡片和人的調動都不設上限,「自備想法,不需要Push。在探索過程中,他遇到問題,自己就會拉人討論。
“認為中國AI已經超越美國還為時過早”
美國商業媒體Business Insider分析認為,新發布的R1表明,中國可以與業內一些頂尖的人工智慧模型相媲美,並與美國矽谷前沿發展保持同步;其次,開源如此先進的人工智慧也可能對那些試圖通過出售技術來獲取巨額利潤的公司構成挑戰。
不過,現在就高喊「中國AI 已經超越美國」或許還為時過早。劉知遠公開表示,需要警惕輿論從極度悲觀轉向極度樂觀,覺得我們已經全面超越、遙遙領先了,「遠遠沒有」。劉知遠認為,當前AGI新技術還在加速演進,未來發展路徑還不明確,中國仍在追趕的階段,雖然已經不是望塵莫及,但也只能說尚可望其項背,「在別人已經探索出的路上跟隨快跑還是相對容易的,接下來如何在迷霧中開拓新路,才是更大的挑戰。
「現在太捲了,大家都太著急了,沒有意識到DeepSeek最後跑出來了。」接近DeepSeek的人向澎湃科技感慨,行業變化的速度太快,無法預測下一步能做什麼,只能看下一個Q3季的變動。
德米斯·哈薩比斯一方面認可中國擁有非常強大的工程能力和規模化能力,另一方面,他也指出,西方仍然領先,並且需要考慮如何保持西方前沿模型的領先地位。
雖然先前梁文峰對外表示,DeepSeek只做模型不做產品。但是作為一家商業化公司,幾乎不可能一直只做模型不做產品。 1月15日,DeepSeek官方App正式發表。接近DeepSeek的人士向澎湃科技表示,商業化已經被DeepSeek提上日程。
在業內人士看來,和國內其他大模型新創公司相比DeepSeek是幸運的,沒有融資壓力,不需要向投資人證明,不需要兼顧模型的技術迭代和產品應用的最佳化。但作為一家商業公司,大量投資後,或早或晚都要面臨目前其他模型公司面臨的壓力和挑戰。 「這次出圈為DeepSeek在商業化前夕做了一次成功的營銷,但未來真正商業化後,需要接受市場的檢驗,能否繼續破浪前行尚難定論。」上述模型公司人士表示。
可以確定的是,DeepSeek未來將要面臨更多的壓力和挑戰,通往通用模型的競賽現在才剛剛拉開序幕,誰能贏下去還取決於持續投入的資金和技術的迭代。但業內人士也都認為,“對於國內模型行業來說,有像DeepSeek這樣具備真正技術實力的公司加入,是件好事。”