作者:BadBot,IOBC Capital

就在昨晚,DeepSeek在Hugging Face發布了V3版本的更新——DeepSeek-V3-0324,模型參數為6850億,程式碼能力、UI設計、推理能力等顯著提高。

在剛結束的2025 GTC大會上,黃仁勳對DeepSeek給予了高度評價,同時強調,市場之前認為DeepSeek的高效模型會降低對英偉達晶片需求的理解是錯誤的,未來的運算需求只會更多,而不是更少。

DeepSeek作為演算法突破的明星產品,與英偉達的算力供應到底有什麼關係,我想先討論下算力與演算法對產業發展的意義。

從算力競賽到演算法革新:DeepSeek引領的AI新範式

算力與演算法的共生演化

在AI 領域,算力的提升為更複雜的演算法提供了運作基礎,使模型能處理更大量資料、學習更複雜模式;而演算法的最佳化則能更有效率地利用算力,提升運算資源的使用效率。

算力與演算法的共生關係正重塑AI產業格局:

技術路線分化:OpenAI等公司追求建構超大型算力集群,而DeepSeek等則專注演算法效率優化,形成不同技術流派。

產業鏈重建:英偉達透過CUDA生態系統成為AI算力主導者,雲端服務商則透過彈性算力服務降低部署門檻。

資源配置調整:企業研發重心在硬體基礎設施投資與高效率演算法研發間尋求平衡。

開源社群崛起:DeepSeek、LLaMA等開源模型讓演算法創新與算力優化成果得以分享,加速技術迭代與擴散。

DeepSeek的技術創新

DeepSeek的爆火絕對與它的技術創新分不開,我將使用通俗的語言解釋,讓大部分人都看得懂。

模型架構最佳化

DeepSeek採用了Transformer+MOE(Mixture of Experts)的組合架構,並引入了多頭潛在註意力機制(Multi-Head Latent Attension, MLA)。這種架構像是一個超級團隊,其中Transformer負責處理常規任務,而MOE像是團隊中的專家小組,每個專家都有自己的專長領域,當遇到特定問題時,由最擅長的專家來處理,這樣可以大大提高模型的效率和準確性。 MLA機制讓模型在處理資訊時更能靈活地關注不同的重要細節,進一步提升了模型的效能。

訓練方法革新

DeepSeek提出了FP8混合精準度訓練架構。這個框架像是一個智慧的資源調配器,它能夠根據訓練過程中不同階段的需求,動態地選擇合適的運算精度。在需要高精度運算的時候,它就使用較高的精度,以確保模型的準確性;而在可以接受較低精度的時候,它就降低精度,從而節省計算資源,提高訓練速度,減少記憶體佔用。

推理效率提升

在推理階段,DeepSeek引入了多Token預測(Multi-token Prediction, MTP)技術。傳統的推理方法是一步步來,每一步只預測一個Token。而MTP技術能夠一次預測多個Token,從而大大加快了推理的速度,同時也降低了推理的成本。

強化學習演算法突破

DeepSeek的新強化學習演算法GRPO(Generalized Reward-Penalized Optimization)優化了模型訓練流程。強化學習像是給模型配備了一個教練,教練透過獎勵和懲罰來引導模型學習更好的行為。傳統的強化學習演算法在這個過程中可能會消耗大量的運算資源,而DeepSeek的新演算法則更加高效,它能夠在保證模型效能提升的同時,減少不必要的運算,從而實現效能和成本的平衡。

這些創新不是孤立的技術點,而是形成了完整的技術體系,從訓練到推理全鏈條降低算力需求。一般消費級顯示卡現在也能運作強大的AI模型,大幅降低了AI應用的門檻,讓更多開發者和企業能夠參與AI創新。

對英偉達的影響

很多人認為DeepSeek繞過了Cuda層,從而擺脫了對英偉達的依賴。實際上,DeepSeek直接透過英偉達的PTX(Parallel Thread Execution)層進行演算法優化。 PTX是介於高階CUDA程式碼和實際GPU指令之間的中間表示語言,透過操作這一層級,DeepSeek能夠實現更精細的效能調優。

這對英偉達的影響是雙面的,一方面,DeepSeek其實與英偉達的硬體以及Cuda生態綁定更深了,AI應用門檻的降低又可能擴大整體市場規模;另一方面,DeepSeek的演算法優化可能改變市場對高階晶片的需求結構,一些原本需要H100等GPU才能運行的AI模型,現在可能在消費級數位。

對中國AI產業的意義

DeepSeek的演算法優化為中國AI產業提供了技術突圍路徑。在高階晶片受限背景下,"軟體補硬體"的思維減輕了對頂尖進口晶片的依賴。

在上游,高效率演算法降低了算力需求壓力,使算力服務商能透過軟體最佳化延長硬體使用週期,提高投資報酬率。 在下游,優化後的開源模型降低了AI應用開發門檻。眾多中小企業無需大量算力資源,也能基於DeepSeek模型開發競爭力應用,將催生更多垂直領域AI解決方案的出現。

對Web3+AI的深遠影響

去中心化AI Infra

DeepSeek的演算法最佳化為Web3 AI基礎設施提供了新的動力,創新的架構、高效的演算法和較低的算力需求,使得去中心化的AI推理成為可能。 MoE架構天然適合分散式部署,不同節點可以持有不同的專家網絡,無需單一節點儲存完整模型,這顯著降低了單節點的儲存和運算要求,從而提高模型的靈活性和效率。

FP8訓練框架則進一步降低了高階運算資源的需求,使得更多的運算資源可以加入到節點網路中。這不僅降低了參與去中心化AI運算的門檻,也提高了整個網路的運算能力和效率。

Multi-Agent System

智慧交易策略優化:透過即時市場數據分析agent、短期價格波動預測agent、鏈上交易執行agent、交易結果監督agent等的協同運行,幫助用戶獲得更高的收益。

智慧合約的自動化執行:智慧合約監控agent、智慧合約執行agent、執行結果監督agent等協同運行,以實現更複雜的業務邏輯自動化。

個人化投資組合管理:AI根據使用者的風險偏好、投資目標和財務狀況,幫助使用者即時尋找最佳的質押或流動性提供機會。

"我們只能看到很短的未來,但足以發現那裡有很多工作要做。"DeepSeek正是在算力約束下,透過演算法創新尋找突破,為中國AI產業開闢了差異化發展路徑。 降低應用門檻、推動Web3與AI融合、減輕對高階晶片依賴、賦能金融創新,這些影響正在重塑數位經濟格局。未來AI發展不再只是算力競賽,而是算力與演算法協同優化的競賽。在這條新賽道上,DeepSeek等創新者正在用中國智慧重新定義遊戲規則。