著者: アプソ

先週、中国の DeepSeek R1 モデルが海外の AI 界全体を巻き起こしました。

一方で、より低いトレーニングコストで OpenAI o1 に匹敵するパフォーマンスを達成しており、エンジニアリング能力と規模の革新における中国の優位性を実証しています。他方では、オープンソースの精神を支持しており、技術的な詳細を共有することに熱心です。

最近、カリフォルニア大学バークレー校の博士課程候補者である Jiayi Pan 氏の研究チームは、DeepSeek R1-Zero の主要テクノロジーである「Aha Moment」を非常に低コスト (米国よりも安価) で再現することに成功しました。 30ドル)。

DeepSeekがApp Storeを独占、中国AIが海外テクノロジー界を巻き起こす

したがって、Meta CEO のザッカーバーグ氏、チューリング賞受賞者のヤン・ルカン氏、ディープマインド CEO のデミス・ハサビス氏が揃って DeepSeek を高く評価したのも不思議ではありません。

DeepSeek R1 の人気が高まり続ける中、今日の午後、DeepSeek アプリのサーバーはユーザーのアクセスの急増により一時的に混雑し、一時的に「クラッシュ」したこともありました。

OpenAI CEO の Sam Altman 氏は、国際メディアの見出しをつかむために o3-mini の使用制限を明らかにしようとしました - ChatGPT Plus メンバーは 1 日に 100 回クエリできます。

しかし、あまり知られていないのは、DeepSeek の親会社である Huanfang Quantitative が、有名になる前は、実は国内のクオンツ プライベート エクイティ分野の大手企業の 1 つであったということです。

DeepSeek モデルはシリコンバレーに衝撃を与え、その金含有量は依然として上昇中

2024 年 12 月 26 日、DeepSeek は DeepSeek-V3 大型モデルを正式にリリースしました。

このモデルは、複数のベンチマーク テストで良好なパフォーマンスを示し、特に知識の質問と回答、長いテキストの処理、コード生成、数学的機能などの分野で、業界のトップの主流モデルを上回りました。たとえば、MMLU や GPQA などの知識タスクでは、DeepSeek-V3 のパフォーマンスは国際トップモデルの Claude-3.5-Sonnet に近いです。

DeepSeekがApp Storeを独占、中国AIが海外テクノロジー界を巻き起こす

数学的能力の点では、AIME 2024 や CNMO 2024 などのテストで新記録を樹立し、既知のオープンソース モデルおよびクローズド ソース モデルをすべて上回りました。同時に、生成速度は前世代と比較して 200% 向上し、60 TPS に達し、ユーザー エクスペリエンスが大幅に向上しました。

独立系評価ウェブサイト Artificial Analysis の分析によると、DeepSeek-V3 は多くの重要な指標において他のオープンソース モデルを上回り、パフォーマンスにおいては世界トップのクローズドソース モデル GPT-4o および Claude-3.5-Sonnet と同等です。

DeepSeek-V3 の主要な技術的利点は次のとおりです。

  1. Mixed Expert (MoE) アーキテクチャ: DeepSeek-V3 には 6,710 億のパラメーターがありますが、実際の動作では、各入力に対して 370 億のパラメーターのみがアクティブ化されます。この選択的なアクティブ化方法により、高いパフォーマンスを維持しながら、コンピューティング コストが大幅に削減されます。
  2. マルチヘッド潜在注意 (MLA): このアーキテクチャは DeepSeek-V2 で実証されており、効率的なトレーニングと推論を実現できます。
  3. 補助損失のない負荷分散戦略: この戦略は、モデルのパフォーマンスに対する負荷分散の悪影響を最小限に抑えるように設計されています。
  4. マルチトークン予測トレーニング ターゲット: この戦略により、モデルの全体的なパフォーマンスが向上します。

効率的なトレーニング フレームワーク: HAI-LLM フレームワークを使用して、16 方向のパイプライン並列処理 (PP)、64 方向のエキスパート並列処理 (EP)、および ZeRO-1 データ並列処理 (DP) をサポートし、さまざまな最適化方法によってトレーニング コストを削減します。 。

さらに重要なことは、DeepSeek-V3 のトレーニング コストはわずか 558 万米ドルであり、トレーニング コストが 7,800 万米ドルである GPT-4 よりもはるかに低いことです。また、APIサービスの価格も従来通りの優しい価格を継続しています。

DeepSeekがApp Storeを独占、中国AIが海外テクノロジー界を巻き起こす

入力トークンのコストは 100 万あたりわずか 0.5 元 (キャッシュ ヒット) または 2 元 (キャッシュ ミス) で、出力トークンのコストは 100 万あたりわずか 8 元です。

フィナンシャル・タイムズ紙はこれを「国際技術コミュニティに衝撃を与えたダークホース」と評し、その性能は資金豊富なOpenAIなどの米国のライバルモデルに匹敵すると信じていた。 Maginative の創設者 Chris McKay 氏はさらに、DeepSeek-V3 の成功が AI モデル開発の確立された手法を再定義する可能性があると指摘しました。

言い換えれば、DeepSeek-V3 の成功は、米国のコンピューティング能力に対する輸出規制への直接的な反応とも見られており、この外圧がむしろ中国のイノベーションを刺激したのである。

DeepSeek創設者、浙江大学の控えめな天才、梁文峰氏

DeepSeek の台頭により、シリコンバレーは眠れなくなりました。世界の AI 業界を巻き起こしたこのモデルの創設者である梁文峰氏は、若い成功と永続的な成功という中国の伝統的な意味での天才の成長の軌跡を完璧に説明しています。

優れた AI 企業のリーダーは、テクノロジーとビジネスの両方を理解し、先見性と現実性の両方を持ち、革新する勇気とエンジニアリングの規律を持っている必要があります。このような複合的な才能自体は希少な資源です。

17 歳で浙江大学に入学し、情報電子工学を専攻しました。30 歳で Hquant を設立し、完全自動定量取引の研究チームを率い始めました。梁文峰の物語は、天才は常に正しいタイミングで正しいことを行うことを証明しています。

DeepSeekがApp Storeを独占、中国AIが海外テクノロジー界を巻き起こす

  • 2010: CSI 300 株価指数先物取引の開始により、クオンツ投資が発展の機会をもたらし、Huanfang チームはその勢いを利用し、自己運用ファンドが急速に成長しました。
  • 2015: リャン・ウェンフェンは卒業生とともに Magic Square Quantitative を設立し、翌年、最初の AI モデルを立ち上げ、ディープラーニングによって生成された取引ポジションを開始しました。
  • 2017: Huanfang Quantitative は、包括的な AI ベースの投資戦略を実現すると主張しました。
  • 2018: AI を会社の主な開発方向として確立します。
  • 2019年:ファンド運用規模が100億元を超え、国内の定量的プライベートエクイティの「4大巨人」の1つとなる。
  • 2021: Huanfang Quantitative は規模が 1,000 億を超える初の国内クオンツ プライベート エクイティ会社となる。

単に成功しただけで、過去数年間傍観者として過ごしてきた会社のことを考えることはできません。しかし、量的商社の AI への変革と同様、これは予想外に見えるかもしれませんが、実際には当然のことです。なぜなら、これらの企業はすべてデータ駆動型のテクノロジー集約型産業だからです。

Huang Renxunは、ゲームをプレイするのが苦手な私たちにお金を稼ぐためにゲームグラフィックカードを販売したかっただけで、世界最大のAI兵器庫になることを期待していなかったということは、HuanfangがAI分野に参入したのと似ています。この種の進化は、現在多くの業界が機械的に適用している大規模な AI モデルよりも実現可能です。

Magic Square Quantitative は、定量的投資の過程でデータ処理とアルゴリズムの最適化において多くの経験を蓄積しており、AI モデルのトレーニングに強力なハードウェア サポートを提供する A100 チップも多数備えています。 2017 年以来、Magic Square は AI コンピューティング能力を大規模に展開し、「Yinghuo One」や「Yinghuo Two」などの高性能コンピューティング クラスターを構築して、AI モデルのトレーニングに強力なコンピューティング能力のサポートを提供してきました。

DeepSeekがApp Storeを独占、中国AIが海外テクノロジー界を巻き起こす

2023 年、Magic Square Quantification は大規模な AI モデルの開発に注力する DeepSeek を正式に設立しました。 DeepSeek は、Magic Quantitative の技術、人材、リソースの蓄積を継承し、AI の分野で急速に頭角を現しました。

「Undercurrent」の詳細なインタビューでは、DeepSeek 創設者の梁文峰氏も独自の戦略的ビジョンを示しました。

Llama アーキテクチャをコピーすることを選択したほとんどの中国企業とは異なり、DeepSeek は AGI という野心的な目標を目指すためだけに、モデル構造から直接開始します。

Liang Wenfeng 氏は、現在の中国の AI レベルと国際トップレベルとの間には大きな差があることを隠していません。モデルの構造、トレーニングのダイナミクス、データ効率における包括的な差により、同じ効果を達成するには 4 倍のコンピューティング能力が必要です。

DeepSeekがApp Storeを独占、中国AIが海外テクノロジー界を巻き起こす

 ▲写真はCCTVニュースのスクリーンショットより

課題に正面から立ち向かうこの姿勢は、梁文峰氏の環芳での長年の経験から生まれています。

同氏は、オープンソースはテクノロジーの共有であるだけでなく、文化の表現でもあると強調しました。本当の堀はチームの継続的なイノベーション能力にあります。 DeepSeek のユニークな組織文化は、ボトムアップのイノベーションを奨励し、階層を軽視し、人材の情熱と創造性を尊重します。

チームは主に一流大学の若者で構成されており、従業員が自主的に探索して共同作業できるよう自然な分業モデルを採用しています。採用の際、私たちは従来の意味での経験や経歴ではなく、従業員の情熱と好奇心を重視します。

業界の見通しについて、Liang Wenfeng 氏は、AI は応用の爆発的な時期ではなく、技術革新の爆発的な時期にあると考えています。同氏は、中国にはさらなる独自の技術革新が必要であり、いつまでも模倣の段階にとどまることはできず、人々が技術の最前線に立つ必要があると強調した。

現在、OpenAI のような企業がその道をリードしていますが、イノベーションの機会はまだ存在します。

DeepSeekがApp Storeを独占、中国AIが海外テクノロジー界を巻き起こす

シリコンバレーを覆すディープシークが海外の AI 界を不安にさせる

DeepSeek に関して業界にはさまざまな意見がありますが、業界関係者からのコメントもいくつか収集しました。

NVIDIA GEAR Lab プロジェクト リーダーの Jim Fan 氏は、DeepSeek-R1 を高く評価しました。

これは、米国以外の企業がOpenAI本来のオープンな使命を果たし、独自のアルゴリズムや学習曲線を公開することで影響力を獲得していることを表していると同氏は指摘した。 ちなみに、この中にはOpenAIの波も含まれている。

DeepSeek-R1 は一連のモデルをオープンソース化しただけでなく、トレーニングの秘密もすべて公開しました。これらは、RL フライホイールの大幅かつ継続的な成長を実証する最初のオープンソース プロジェクトになる可能性があります。

「ASI Internal Implementation」や「Strawberry Project」などの伝説的なプロジェクトを通じて、あるいは単にオリジナルのアルゴリズムと matplotlib の学習曲線を公開することによって、影響力を得ることができます。

ウォール街のトップベンチャーキャピタルである A16Z の創設者であるマーク・アンドリーセン氏は、DeepSeek R1 はオープンソースとして、これまで見た中で最も驚くべき、印象的な進歩の 1 つであり、世界への広範囲にわたる贈り物であると考えています。

DeepSeekがApp Storeを独占、中国AIが海外テクノロジー界を巻き起こす

テンセントの元上級研究員で北京大学人工知能博士研究員のルー・ジン氏は、技術蓄積の観点から分析した。同氏は、DeepSeekは前世代モデルの多くの革新性を継承しており、関連するモデルアーキテクチャとアルゴリズムの革新性が繰り返し検証されており、業界を揺るがすことは避けられないと指摘した。

チューリング賞受賞者であり、Meta のチーフ AI サイエンティストであるヤン・ルカン氏は、次のような新しい視点を提唱しました。

「DeepSeekのパフォーマンスを見て「中国はAIで米国を追い越している」と思っている人、あなたの解釈は間違っています。正しくは「オープンソースモデルがプロプライエタリモデルを超えつつある」と解釈すべきだろう。 」

DeepSeekがApp Storeを独占、中国AIが海外テクノロジー界を巻き起こす

ディープマインド CEO、デミス・ハサビスのコメントからは、不安の兆しが見えてきました。

「ディープシークが達成したことは非常に印象的であり、西側のフロンティアモデルのリーダーシップを維持する方法を考える必要があると思います。西側はまだ先を行っていると思いますが、確かに中国は非常に強力なエンジニアリング能力と拡張能力を持っています。」 」

Microsoft CEOのSatya Nadella氏は、スイスのダボスで開催された世界経済フォーラムで、DeepSeekは推論計算で優れた性能を発揮するだけでなく、スーパーコンピューティングにおいても非常に効率的なオープンソースモデルを効果的に開発したと述べた。

同氏は、マイクロソフトは中国におけるこうした画期的な発展に最優先で対応しなければならないと強調した。

Metaのザッカーバーグ最高経営責任者(CEO)の評価はさらに踏み込んだもので、DeepSeekが示した技術力とパフォーマンスは素晴らしいと信じており、中国と米国の間のAI格差はすでに最小限であり、中国の全力疾走により世界のトップに躍り出たと指摘した。競争がさらに激しくなる。

競合他社からの反応は、おそらく DeepSeek の最大の支持です。匿名の職場コミュニティである TeamBlind 上の Meta 従業員からの報告によると、DeepSeek-V3 と R1 の出現により、Meta の生成 AI チームはパニックに陥りました。

メタエンジニアは時間との闘いで DeepSeek のテクノロジーを分析し、そこから可能なテクノロジーをコピーしようとしています。

その理由は、DeepSeek-V3 のトレーニング費用がわずか 558 万米ドルであり、一部のメタ幹部の年収にも及ばないためです。このような産業投入と産出の比率の格差は、メタ経営陣がその巨額のAI研究開発予算を説明する際に大きなプレッシャーにさらされることになる。

DeepSeekがApp Storeを独占、中国AIが海外テクノロジー界を巻き起こす

海外の主流メディアも、DeepSeek の台頭に大きな注目を集めています。

フィナンシャル・タイムズ紙は、DeepSeekの成功は「AIの研究開発は巨額の投資に頼らなければならない」という従来の認識を覆し、正確な技術的ルートでも優れた研究成果を達成できることを証明したと指摘した。さらに重要なことは、DeepSeek チームの技術革新の無私無欲の共有により、研究価値により注意を払うこの会社が非常に強力な競争相手になったことです。

エコノミスト誌は、AI技術の費用対効果における中国の急速な進歩が米国の技術的優位性を揺るがし始めており、今後10年間の米国の生産性向上と経済成長の可能性に影響を与える可能性があると考えていると述べた。

DeepSeekがApp Storeを独占、中国AIが海外テクノロジー界を巻き起こす

New York Times は別の角度から切り込んでいます。DeepSeek-V3 は米国企業のハイエンド チャットボットと同等の性能を持ちながら、コストは大幅に削減されています。

これは、チップの輸出規制に直面しても、中国企業がイノベーションと資源の効率的な利用を通じて競争できることを示している。さらに、米国政府のチップ制限政策は逆効果で、むしろオープンソース AI 技術分野における中国の革新的な躍進を促進する可能性がある。

DeepSeekは「間違ったドアを報告」し、GPT-4であると主張した

賞賛の一方で、DeepSeek はいくつかの論争にも直面しています。

多くの部外者は、DeepSeek がトレーニング プロセス中に ChatGPT などのモデルの出力データをトレーニング素材として使用した可能性があると考えており、これらのデータの「知識」は、モデル蒸留技術を通じて DeepSeek 独自のモデルに移行されます。

AI分野ではこの行為は珍しいことではないが、懐疑論者はDeepSeekが完全な開示なしにOpenAIモデルの出力データを使用したかどうかを懸念している。これは DeepSeek-V3 の自己認識に反映されているようです。

以前のユーザーは、モデルの身元について尋ねられたときに、それが誤って GPT-4 であると認識していたことを発見しました。

DeepSeekがApp Storeを独占、中国AIが海外テクノロジー界を巻き起こす

高品質のデータは AI の開発において常に重要な要素であり、OpenAI でさえ、インターネットからの大規模なデータのクローリングの実施により、これまでに多くの著作権訴訟を引き起こしています。ニューヨーク・タイムズは第一審で判決を下し、訴訟が起きる前に新たな訴訟が追加された。

そのため、DeepSeek はサム アルトマンとジョン シュルマンからも公的意味合いを受け取っています。

「うまくいくとわかっているものをコピーするのは(比較的)簡単です。うまくいくかどうかわからないときに、新しくてリスクがあり、難しいことをするのは非常に困難です。」

DeepSeekがApp Storeを独占、中国AIが海外テクノロジー界を巻き起こす

しかし、DeepSeekチームはR1の技術レポートでOpenAIモデルの出力データを使用していないことを明らかにし、強化学習と独自のトレーニング戦略によって高いパフォーマンスが達成されたと述べています。

たとえば、基本モデルのトレーニング、強化学習 (RL) トレーニング、微調整などを含む多段階のトレーニング方法が採用されています。この多段階の循環トレーニング方法は、モデルがさまざまな段階でさまざまな知識と能力を吸収するのに役立ちます。

お金の節約も技術的な仕事であり、DeepSeek の背後にあるテクノロジーが最良のソリューションです

DeepSeek-R1 技術レポートでは、R1 ゼロ トレーニング プロセス中に発生した「なるほど」という注目すべき発見について言及しました。モデルのトレーニング中期では、DeepSeek-R1-Zero は初期の問題解決アイデアを積極的に再評価し始め、戦略の最適化にさらに多くの時間を割り当てます (さまざまな解決策を複数回試すなど)。

言い換えれば、RL フレームワークを通じて、AI は人間のような推論能力を自発的に開発し、あらかじめ設定されたルールの限界を超える可能性もあります。また、これは、複雑な意思決定 (医療診断、アルゴリズム設計) における戦略を動的に調整するなど、より自律的で適応的な AI モデルの開発の方向性を提供することも期待されます。

DeepSeekがApp Storeを独占、中国AIが海外テクノロジー界を巻き起こす

同時に、多くの業界関係者がDeepSeekの技術レポートを徹底的に分析しようとしている。 OpenAI の元共同創設者である Andrej Karpathy 氏は、DeepSeek V3 のリリース後に次のように述べています。

DeepSeek (中国の AI 企業) は今日、最先端の言語モデル (LLM) を公開し、非常に低予算 (2048 個の GPU、2 か月継続、600 万ドル) でトレーニングを完了しました。

参考までに、この機能をサポートするには通常 16K GPU のクラスターが必要で、今日の高度なシステムのほとんどは約 100K GPU を使用します。たとえば、Llama 3 (405B パラメーター) は 3,080 万 GPU 時間を使用しましたが、DeepSeek-V3 はより強力なモデルであるようで、わずか 280 万 GPU 時間 (Llama 3 の計算の約 1/11) しか使用しません。

このモデルが現実世界のテストでも良好なパフォーマンスを発揮する場合 (たとえば、LLM Arena のランキングが継続中であり、私の簡単なテストが良好なパフォーマンスを示した場合)、これはリソースの制約下で研究およびエンジニアリングの能力をどのように実証できるかを示す非常に良い例となるでしょう。印象的な結果。

ということは、最先端の LLM をトレーニングするために大規模な GPU クラスターはもう必要ないということなのでしょうか?実際にはそうではありませんが、使用するリソースが無駄にならないようにする必要があることを示しており、この事例は、データとアルゴリズムの最適化が依然として大きな進歩につながる可能性があることを示しています。また、テクニカルレポートも非常に興味深く詳細に書かれており、読み応えがあります。

DeepSeekがApp Storeを独占、中国AIが海外テクノロジー界を巻き起こす

DeepSeek V3 による ChatGPT データの使用に関する論争に直面して、カルパシー氏は、大規模な言語モデルは本質的に人間のような自己認識を持たず、モデルが自身のアイデンティティに正しく答えられるかどうかは、開発チームが特別に自己構築を行っているかどうかに完全に依存すると述べました。トレーニング セットは、特別にトレーニングされていない場合、トレーニング データ内の最も近い情報に基づいて応答します。

さらに、モデルが自身を ChatGPT として識別するという事実は問題ではありません。インターネット上の ChatGPT 関連データの遍在性を考慮すると、この答えは実際には自然な「近隣知識の出現」現象を反映しています。

Jim Fan は、DeepSeek-R1 の技術レポートを読んだ後、次のように指摘しました。

この論文の最も重要な点は、教師あり学習 (SFT) を一切使わず、完全に強化学習によって駆動されるということです。この手法は、囲碁や将棋を「コールド スタート」でゼロからマスターする、チェスを模倣することなく習得するという AlphaZero に似ています。人間のチェスプレイヤーのプレイ。

– 強化学習によって簡単に「ハッキング」できる学習済み報酬モデルではなく、ハードコーディングされたルールに基づいて計算された実際の報酬を使用します。

– モデルの思考時間はトレーニングが進むにつれて着実に増加します。これは事前にプログラムされたものではなく、自発的な機能です。

– 内省と探索行動の現象が現れる。

– PPO の代わりに GRPO を使用する: GRPO は PPO のコメンテーター ネットワークを削除し、代わりに複数のサンプルの平均報酬を使用します。これはメモリ使用量を削減する簡単な方法です。 GRPO が 2024 年 2 月に DeepSeek チームによって発明されたことは注目に値します。このチームは実際には非常に強力なチームです。

キミ氏も同じ日に同様の研究結果を発表したとき、ジム・ファン氏は、両社の研究結果が同じ目標に達していることを発見しました。

  • 彼らはいずれも、MCTS などの複雑なツリー検索手法を放棄し、従来の自己回帰予測手法を使用した、より単純な線形思考の軌道に目を向けました。
  • すべては、追加のモデルのコピーを必要とする値関数の使用を回避し、コンピューティング リソースの要件を削減し、トレーニングの効率を向上させます。
  • 彼らはすべて、トレーニングの安定性を確保するために、集中的な報酬モデリングを放棄し、ガイダンスとして実際の結果に可能な限り依存します。

DeepSeekがApp Storeを独占、中国AIが海外テクノロジー界を巻き起こす

しかし、この 2 つには次のような大きな違いもあります。

  • DeepSeek は AlphaZero スタイルの純粋な RL コールド スタート方式を採用し、Kimi k1.5 は AlphaGo-Master スタイルの予熱戦略を選択し、軽量の SFT を使用します。
  • DeepSeek は MIT ライセンスの下でオープンソースであり、Kimi はマルチモーダル ベンチマーク テストで優れたパフォーマンスを示しており、紙のシステム設計の詳細は、RL インフラストラクチャ、ハイブリッド クラスター、コード サンドボックス、および並列戦略をカバーしています。

しかし、この急速に繰り返される AI 市場では、リードは一時的なものであることがよくあります。他のモデリング会社は、DeepSeek の経験からすぐに学んで改善し、すぐに追いつくことができるかもしれません。

大型モデルの価格戦争の火付け役

DeepSeek に「AI Pinduoduo」というタイトルがあることは多くの人が知っていますが、その背後にある意味が実際には昨年始まった大型モデルの価格戦争に由来していることは知りません。

2024 年 5 月 6 日、DeepSeek は DeepSeek-V2 オープンソース MoE モデルをリリースしました。これは、MLA (マルチヘッド潜在注意メカニズム) や MoE (混合エキスパート モデル) などの革新的なアーキテクチャを通じて、パフォーマンスとコストの両面で画期的な進歩を達成しました。

推論コストはトークン 100 万個あたりわずか 1 元まで削減され、当時の Llama3 70B の約 7 分の 1、GPT-4 Turbo の約 70 分の 1 でした。この技術的進歩により、DeepSeek は料金を請求することなく、極めてコスト効率の高いサービスを提供できるようになり、また、他のメーカーに大きな競争圧力をもたらします。

DeepSeek-V2 のリリースは連鎖反応を引き起こし、ByteDance、Baidu、Alibaba、Tencent、Zhipu AI も同様に大型モデル製品の価格を大幅に引き下げました。この価格戦争の影響は太平洋にまで広がり、シリコンバレーに大きな懸念を引き起こしています。

したがって、DeepSeek は「AI の Pinduoduo」と呼ばれています。

DeepSeekがApp Storeを独占、中国AIが海外テクノロジー界を巻き起こす

外部からの疑念に直面して、DeepSeek 創設者の梁文峰氏は Undercurrent のインタビューで次のように答えました。

「ユーザーを掴むことが私たちの主な目的ではありません。次世代モデルの構造を模索しており、コストが先に下がったため価格を下げた一方で、APIとAPIの両方が重要であると感じています」 AI は誰もが利用できる包括的なものでなければなりません。」

実際、この価格戦争の重要性は競争そのものをはるかに超えており、参入障壁が低くなったことで、より多くの企業や開発者が最先端の AI にアクセスして応用できるようになり、業界全体が価格戦略の再考を迫られるようになりました。そのため、DeepSeek は世間の注目を集め始め、有名になりました。

馬の骨を買うのに数千ドルを費やして、レイ・ジュンはAIの天才少女を密猟する

数週間前、DeepSeekは注目を集める人事異動も行った。

中国ビジネスニュースによると、雷軍氏は数千万ドルの年収で羅富麗氏を引き抜くことに成功し、小米科技AI研究所の大規模モデルチームの責任者という重要な任務を彼女に託したという。

Luo Fuli は、2022 年に Magic Quantum の子会社である DeepSeek に入社しました。彼女は、DeepSeek-V2 や最新の R1 などの重要なレポートで見ることができます。

DeepSeekがApp Storeを独占、中国AIが海外テクノロジー界を巻き起こす

その後、かつては B サイドに重点を置いていた DeepSeek も C サイドをレイアウトし、モバイル アプリケーションを起動し始めました。本稿執筆時点で、DeepSeek のモバイル アプリケーションは Apple の App Store の無料版で 2 位にランクされており、強い競争力を示しています。

一連の小さなクライマックスが DeepSeek を有名にしましたが、同時により高いクライマックスもあります。1 月 20 日の夜、660B パラメータを備えた超大型モデル DeepSeek R1 が正式にリリースされました。

このモデルは、数学的タスクで優れたパフォーマンスを発揮します。たとえば、AIME 2024 では pass@1 スコアが 79.8% で、MATH-500 では OpenAI-o1 と同等の 97.3% という高いスコアを達成しました。 。

たとえば、プログラミング タスクに関しては、Codeforces で 2029 Elo 評価を取得し、人間の参加者の 96.3% を上回りました。 MMLU、MMLU-Pro、GPQA Diamond などのナレッジ ベンチマークでは、DeepSeek R1 のスコアはそれぞれ 90.8%、84.0%、71.5% でしたが、OpenAI-o1 よりは若干低いものの、他のクローズドソース モデルよりは優れています。

大型モデルアリーナ LM Arena の最新の総合リストでは、DeepSeek R1 が o1 と同点で 3 位にランクされました。

  • 「Hard Prompts」(難しいプロンプト単語)、「Coding」(コーディング能力)、「Math」(数学的能力)の分野では、DeepSeek R1 が第 1 位にランクされています。
  • 「スタイルコントロール」では、DeepSeek R1とo1が同率1位となった。
  • 「スタイル コントロールを使用したハード プロンプト」テストでも、DeepSeek R1 は o1 と同率で 1 位になりました。

DeepSeekがApp Storeを独占、中国AIが海外テクノロジー界を巻き起こす

オープンソース戦略の観点から、R1 は MIT ライセンスを採用しており、ユーザーに最大限の自由な使用を提供し、推論機能をより小さなモデル (複数の機能で o1-mini のベンチマークを達成した 32B モデルや 70B モデルなど) に抽出できるモデル抽出をサポートしています。オープンソースの効果は、以前から批判されていたメタをも上回ります。

DeepSeek R1 の登場により、国内ユーザーは初めて o1 レベルのモデルを無料で使用できるようになり、長年の情報の壁が打ち破られました。小紅書などのソーシャル プラットフォームで引き起こされた議論の盛り上がりは、リリース当時の GPT-4 に匹敵します。

海に出てインボリュートする

DeepSeek の開発の軌跡を振り返ると、その成功コードが基盤であることは明らかですが、ブランドの認知度が堀となっています。

「Later」との会話の中で、MiniMax CEOのYan Junjie氏はAI業界と同社の戦略的変化についての考えを詳しく語った。同氏は 2 つの重要な転換点を強調しました。1 つはテクノロジー ブランディングの重要性の認識であり、2 つ目はオープンソース戦略の価値の理解です。

Yan Junjie 氏は、AI の分野では現在の成果よりもテクノロジーの進化のスピードが重要であり、オープンソースはコミュニティからのフィードバックを通じてこのプロセスを加速できると考えています。次に、強力なテクノロジー ブランドが人材を惹きつけ、リソースを獲得するために不可欠です。

OpenAI を例に挙げると、後期には経営上の混乱に見舞われましたが、その革新的なイメージと初期に確立されたオープンソースの精神により、良い印象が蓄積されました。将来的にはクロードが技術的に互角になり、OpenAI の B サイド ユーザーを徐々に共食いしたにもかかわらず、ユーザーのパス依存性により、C サイド ユーザーでは OpenAI が依然としてはるかに先を行っています。

AI の分野では、本当の競争の舞台は常にグローバルです。海外に進出し、参加し、推進することも良い方法です。

DeepSeekがApp Storeを独占、中国AIが海外テクノロジー界を巻き起こす

この海外進出の波は、初期の Qwen、Wall-facing Smart、そして最近の DeepSeek R1、kimi v1.5、および Doubao v1.5 Pro がすでに業界に波紋を引き起こしています。

2025年はスマートボディ元年、AIグラス元年と言われているが、今年は中国のAI企業にとって世界市場に参入する重要な初年でもあり、グローバル化は避けては通れないキーワードとなるだろう。

さらに、オープンソース戦略も良い動きであり、多くの技術ブロガーや開発者が自発的に DeepSeek の「水道水」になるようになっています。「人類のための AI」というスローガンは単なるスローガンではありません。テクノロジーの包括性を重視して、DeepSeek は OpenAI よりも純粋な道を歩み始めました。

OpenAI が AI の力を理解させてくれるなら、DeepSeek は私たちに次のことを信じさせます。

この力は最終的にはすべての人に恩恵をもたらすでしょう。