著者: Yu Yan、The Paper記者
・大型モデル分野でハイエンド技術人材の発掘を担当するヘッドハンターは本紙に対し、ディープシークの雇用ロジックは大型モデル分野の他の企業の採用ロジックとそれほど変わらないと語った。 、つまり年齢は1998年前後生まれで職歴5年以内、「頭が良くて理工系、若い、経験が浅い」人です。
· 業界関係者の目には、DeepSeek は中国の他の大規模モデルの新興企業と比べて幸運であると考えられます。資金調達のプレッシャーがなく、投資家に証明する必要もなく、モデルの技術的な反復を考慮する必要もありません。製品アプリケーションの最適化。しかし営利企業として、巨額の資金を投資した後は、遅かれ早かれ、他のモデル企業が現在直面しているのと同じプレッシャーや課題に直面することになる。
2024年に中国の大手模型界で最も人気のある企業はどこになるだろうか?杭州 DeepSeek 人工知能基礎技術研究有限公司 (以下、DeepSeek) は強力な競争相手であるに違いありません。昨年半ばの大型モデルの価格戦争の開始者として、DeepSeek は最初に世間の注目を集め、次々とリリースされました。 DeepSeek-V3 と推論モデル DeepSeek-R1 の後、DeepSeek は大規模なモデル界の世論を完全に爆発させました。人々は、その費用対効果の高いトレーニング費用に驚く一方で (DeepSeek-V3 のトレーニング費用は 557 万 6000 米ドルのみだったと言われています)、他方で、そのオープンソースと公開技術レポートを称賛しています。モデル。 DeepSeek-R1 のリリースは多くの科学者、開発者、ユーザーを興奮させ、DeepSeek が OpenAI の o1 や他の推論モデルに対する強力な競争相手であるとさえ信じています。
この地味な会社は、どのようにして非常に低いトレーニング コストで優れたパフォーマンスを備えた大規模なモデルを構築できるのでしょうか?今日の人気の理由は何でしょうか?今後も「モデル界」の風と波に乗り続けたい場合、どのような課題に直面することになるのだろうか。
アルゴリズムの革新により、コンピューティング電力コストが大幅に削減されました
「DeepSeekは早期に投資し、多額の投資を蓄積し、アルゴリズムの点で独自の特徴を持っている。」とDeepSeekについて言及した際、同氏はDeepSeekの人気の中心的な利点は感謝の気持ちを持っていることであると信じていると語った。アルゴリズムの革新については、「中国企業はコンピューティング能力が不足しているため、OpenAIよりもコンピューティング能力コストの節約に注意を払うだろう。」
DeepSeekが公開したDeepSeek-R1の情報によると、トレーニング後の段階(Post-Training)で強化学習(Reinforcement learning)技術を大規模に活用し、ごくわずかなラベル付きデータだけでモデルの推論能力を大幅に向上させるという。 。数学、コーディング、自然言語推論などのタスクでは、OpenAI o1 の公式バージョンと同等のパフォーマンスを発揮します。
DeepSeek-R1 API 価格
DeepSeek の創設者である Liang Wenfeng 氏は、DeepSeek は OpenAI のモデルをコピーするのではなく、差別化されたテクノロジールートの開発に注力していると繰り返し強調しており、DeepSeek はモデルをトレーニングするためのより効果的な方法を考え出す必要があります。
「彼らは、モデル ハイブリッド手法の革新的な使用など、一連のエンジニアリング手法を使用してモデル アーキテクチャを最適化しました。本質的な目的は、エンジニアリングを通じてコストを削減し、テクノロジー業界に長く携わってきたベテランです。」年に本紙に語った。
DeepSeekが公開した情報によると、MLA(Multi-head Latent Attendance)マルチヘッド潜在注意メカニズムと自社開発のDeepSeekMOE(Mixture-of-Expertsハイブリッドエキスパートモデル)において大きな進歩を遂げていることがわかります。この 2 つのテクノロジーの設計により、DeepSeek モデルのコスト効率が向上し、トレーニング コンピューティング リソースが削減されてトレーニング効率が向上します。調査会社エポックAIのデータによると、ディープシークの最新モデルは非常に効率的だという。
データに関しては、OpenAI の「大量データ フィード」方式とは異なり、DeepSeek はアルゴリズムを使用してデータを要約し、選択的に処理した後、大規模なモデルにフィードします。これにより、トレーニング効率が向上し、DeepSeek のコストが削減されます。 DeepSeek-V3 の登場は、高性能と低コストのバランスを実現し、大規模モデルの開発に新たな可能性をもたらします。
「将来的には、超大規模な GPU クラスターは必要なくなるかもしれない。」と OpenAI の創設メンバーである Andrej Karpathy 氏は、DeepSeek の費用対効果の高いモデルのリリース後、述べました。
清華大学コンピューターサイエンス学部の常任准教授であるLiu Zhiyuan氏は、DeepSeekの業界への登場は、限られたリソースを極めて効率的に使用することで、より少ないリソースでより多くの勝利を収めることができることを証明していると本紙に語った。 R1のリリースは、米国との間のAI力の差が大幅に縮まったことを示しています。エコノミスト誌も最新のレポートで、「ディープシークは低コストのトレーニングとモデル設計の革新によってテクノロジー業界を同時に変えている」と述べた。
Google DeepMind の現在 CEO 兼共同創設者である Demis Hassabis 氏は、DeepSeek がデータとオープンソース モデルのトレーニングにどれだけ欧米のシステムに依存しているかは完全には明らかではないが、チームが達成したことは本当に素晴らしいことであることは認められるべきだと語った。同氏は一方で、中国が非常に強力なエンジニアリング能力と大規模な能力を持っていることを認識したが、その一方で、西側諸国が依然として先を行っており、西側の最先端技術の主導的地位を維持する方法を検討する必要があるとも指摘した。モデル。
長年のこだわりの積み重ね
DeepSeek がこれらのイノベーションを実現できるのは、1 日の成果ではなく、数年間にわたる「インキュベーション」と長期的な計画の結果です。 Liang Wenfeng は、大手クオンツプライベートエクイティ会社 Magic Square Quantitative の創設者でもあります。ディープシークは魔方陣が蓄積した資金、データ、カードをフル活用したとみられる。
Liang Wenfeng は、浙江大学を学部および大学院で卒業し、情報および電子工学の学部および修士号を取得しています。 2008 年以来、彼はチームを率いて、機械学習やその他のテクノロジーを使用して完全に自動化された定量取引を研究してきました。 2015 年に Magic Square Quantitative が設立され、翌年には最初の AI モデルが開始され、2018 年にはディープラーニングによって生成された最初の取引ポジションが主な開発方向として確立されました。 2020年には、累計投資額が1億元以上でバスケットボールコートに匹敵する面積を持つHuanfangのAIスーパーコンピューター「Yinghuo One」が正式に稼働し、個人の4万人分のスーパーコンピューティング能力に匹敵すると主張されている。コンピューター。 2021年、Huanfangは10億ドルを投資して「1万個のA100 GPUチップを搭載した」「Yinghuo 2」を開発した。当時、GPU が 10,000 個を超える企業は国内に 5 社しかなく、Magic Square Quantification を除く 4 社はすべて大手インターネット企業でした。
2023 年 7 月に DeepSeek は正式に設立され、一般的な人工知能の分野に参入しました。これまで外部から資金を調達したことはありませんでした。
「比較的豊富なカードを持っており、資金調達のプレッシャーもありません。ここ数年、同社はモデルを作っただけで製品は作っていません。他の大手国内モデル会社と比較すると、DeepSeek はよりシンプルで焦点を絞っているように見え、エンジニアリング技術とアルゴリズムでブレークスルーを起こすことができます」 」 以上、国内大手模型会社の幹部らは語った。
さらに、大型モデル業界の閉鎖化が進み、OpenAI が CloseAI と呼ばれるようになる中、DeepSeek のモデルのオープンソースと公開技術レポートも開発者から多くの賞賛を獲得し、その技術ブランドが国内の大型モデル市場ですぐに目立つようになりました。海外。 。
一部の科学研究者は本紙に対し、DeepSeekのオープン性は顕著であり、モデルV3とR1のオープンソースは市場のオープンソースモデルのベンチマークレベルを引き上げたと語った。
成功は若者の力を証明する
「DeekSeek の成功により、基本的に、この世代の人工知能の開発には若い頭脳が必要となります。」
以前、OpenAIの元ポリシーディレクターでAnthropicの共同創設者であるジャック・クラーク氏は、ディープシークが「予測不可能な魔術師のグループ」を雇用したと信じていたが、この点に関して、梁文峰氏はかつてセルフメディアのインタビューで、神秘的な魔術師など存在しないと述べた。彼らは国内の一流大学の卒業生、博士課程 4 号と博士号 5 号を取得したまだ卒業していないインターン、そして数年前に卒業したばかりの若者です。
現在の報道からもわかるように、DeepSeekチームの最大の特徴は、名門校であることと、チームリーダーレベルでも35歳以下がほとんどであることである。チームの人数は140人未満で、エンジニアや研究開発スタッフのほぼ全員が清華大学、北京大学、中山大学、北京郵電大学などの国内トップクラスの大学出身であり、労働時間は短いです。 。
大型モデルの分野でハイエンド技術人材の発掘を担当するヘッドハンターは本紙に対し、ディープシークの採用ロジックは大型モデル分野の他の企業の採用ロジックとそれほど変わらないと語った。 」、つまり1998年前後生まれの年齢以下の方で、職歴5年以内、「頭が良く、理工系、若手、経験が浅い」人がベストです。
ただし、前述のヘッドハンターらも、大規模スタートアップは本質的にはスタートアップであり、海外のトップAI人材を採用したくないわけではないとも述べているが、海外のトップAI人材が戻ってくることに意欲を持っている人は多くないのが現実である。 。
DeepSeekの匿名従業員が本紙に明かしたところによると、同社の経営は非常にフラットで、自由なコミュニケーションの雰囲気は比較的良好だという。平日は梁文峰さんの居場所が予測できず、ほとんどの場合、誰もがオンラインで連絡を取っている。
この社員は、これまで国内の大手工場で大型モデルの技術研究開発に携わっていましたが、自分は大工場のネジのような存在で価値を生み出すことができないと感じ、最終的にDeepSeekへの入社を選択しました。同氏の見解では、DeepSeek は現在、基礎となるモデル テクノロジにより重点を置いています。
DeepSeek の作業環境は完全にボトムアップであり、自然な分業が行われています。全員が自分のアイデアを持ち寄って、無理強いする必要はありません。問題に遭遇したら、自分で人材を採用するつもりだ」と梁文峰氏はインタビューで語った。
「中国のAIが米国を超えたと考えるのは時期尚早だ」
アメリカのビジネスメディア Business Insider の分析では、新たにリリースされた R1 は、中国が業界トップクラスの人工知能モデルのいくつかと競合し、米国のシリコンバレーの最先端の開発に追いつくことができることを示していると考えています。ソースのような高度な人工知能は、莫大な利益を得るためにテクノロジーを販売する企業を追い抜こうとする人々にとっても課題となる可能性があります。
しかし、「中国のAIが米国を超えた」と叫ぶのは時期尚早かもしれない。劉志遠氏は、世論が極度の悲観主義から極度の楽観主義に転じることに警戒する必要があると公に述べ、われわれは完全にそれを超え、「はるかに先を行っている」と感じている。 Liu Zhiyuan氏は、現在のAGI新技術はまだ進化を加速しており、今後の発展の道筋はまだ不透明であり、もはや手の届くところにはいないが、はるかに遅れているとしか言えない。他の人が探索した道を速いペースで進みましょう。「走るのは比較的簡単ですが、霧の中で新しい道をどう切り開くかがより大きな課題です。」
「今は忙しすぎて、誰もが不安になりすぎています。そして、ディープシークがついに枯渇したことに彼らは気づいていませんでした。ディープシークに近い人々は、業界の変化が速すぎて、何ができるかを予測することは不可能であるとザ・ペーパーに嘆いています。」次にできることは、第 3 四半期の変化を確認することだけです。
デミス・ハサビス氏は、中国が非常に強力なエンジニアリング能力と大規模な能力を持っていることを認識する一方で、西側諸国がまだ先を行っており、西側の切断分野で主導的な地位を維持する方法を検討する必要があるとも指摘した。エッジモデル。
Liang Wenfeng は以前、DeepSeek はモデルのみを作成し、製品は作成しないと述べました。しかし、営利企業として、製品を作らずにモデルだけを作ることはほぼ不可能です。 1月15日、DeepSeek公式アプリが正式リリースされました。 DeepSeek に近い関係者は本紙に対し、商業化が DeepSeek の議題に上っていると語った。
業界関係者によると、DeepSeekは中国の他の大規模モデル新興企業と比べて幸運であり、資金調達のプレッシャーがなく、投資家に証明する必要がなく、モデルの技術的な反復や製品の最適化を考慮する必要もない。アプリケーション。しかし営利企業として、巨額の資金を投資した後は、遅かれ早かれ、他のモデル企業が現在直面しているのと同じプレッシャーや課題に直面することになる。 「今回のサークルアウトは、DeepSeek の商用化前夜のマーケティングとしては成功したことになります。しかし、今後実際に商用化された後は、市場でテストされる必要があります。それが継続的にブレークできるかどうかを判断するのはまだ困難です」波です」と前述のモデル会社関係者は語る。
確かなことは、DeepSeek が将来、さらなるプレッシャーと課題に直面することになるということです。誰が勝てるかは、資金と技術の反復にかかっています。しかし、業界関係者は「国内模型業界にとって、ディープシークのような本物の技術力を持つ企業が参入するのは良いことだ」とも考えている。