AI 2025 に対するシリコンバレーの答え: 60 の重要な洞察

出典:石材研究ノート

編集者注:

2024年末には国内の大手モデル企業グループが新製品を発売し、AIがまだまだ熱いことを人々に知らしめることになる。シリコンバレーでは、熱心な議論を経て、AI実務者らが2025年のAI業界に関する一定の合意と、多くの「非合意」をまとめた。たとえば、シリコンバレーの投資家は、AI企業は「新種」であり、2025年にはAIアプリケーションが投資のホットスポットになると信じている。

1月11日から15日まで、Jinqiu Fundはシリコンバレーで「Scale with AI」イベントを開催し、A16Z、Pear VC、Soma Capital、Leonis Capital、Old Friendship Capital、OpenAI、xAI、Anthropic、Google、Meta、Microsoft、Apple、を招待しました。テスラ、Nvidia、ScaleAI、Perplexity、Character.ai 、Midjourney、Augment、Replit、Codiuem、Limitless、Luma、Runway などの企業。

意見交換の後、私たちはこれらの専門家の意見をまとめて、これらの 60 の洞察を形成しました。

01モデル

1. LLM の事前トレーニング段階がボトルネックに近い

しかし、トレーニング後のチャンスはまだたくさんあります

事前トレーニング段階では、スケーリングが遅くなり、飽和するまでにはまだ時間がかかります。

速度低下の理由: 構造 > 計算能力 > データ (単一モデル)。

しかし、マルチモデルでは、データ = 計算能力 > 構造になります。

MultiModelの場合、複数のモダリティの組み合わせを選択する必要がありますが、既存のアーキテクチャでは事前学習は終了していると考えられますが、新たなアーキテクチャに変更することも可能です。

現在、トレーニング前への投資が少ない理由は、主にリソースが限られているためであり、トレーニング後の限界利益が大きくなるからです。

2.事前トレーニングとRLの関係

事前トレーニングではデータの品質はあまり気にされません。

トレーニング後のデータ品質にはより高い要件がありますが、コンピューティング能力の制限により、高品質のデータは最後の数部分で提供されます。

事前トレーニングは模倣であり、模倣することしかできません。

RL は創造物であり、さまざまなことができます

最初に事前トレーニングがあり、次に事後トレーニングで RL が行われます。RL をターゲットにできるように、モデルには基本的な機能が必要です。

RL はモデルのインテリジェンスを変更するのではなく、思考モードを変更します。たとえば、RL を使用して C.AI のエンゲージメントを最適化すると、非常にうまく機能します。

3. 大規模モデルの最適化は製品の機能に影響します

一般に、これは主にトレーニング後の部分であり、子供の自殺の問題の解決など、多くの安全対策に役立ちます。C.AI はさまざまなグループとその年齢にサービスを提供するためにさまざまなモデルを使用します。

次にマルチエージェントフレームワークです。モデルは、この問題を解決するために何をすべきかを考え、各エージェントがタスクを完了した後、そのタスクを実行し、最終的な結果が最適化されます。

4. 一部の合意に至らなかったものの一部は来年合意に達する可能性がある

全てを大型モデルにする必要はありますか? これまでにも優れた小型モデルはたくさんありましたので、別のモデルを作る必要はないかもしれません。

今は大型モデルでも、1年後には小型モデルになるでしょう。

モデルのアーキテクチャは変更される可能性があります。サックリング法が到来し、今後議論されるべき問題である知識モデルのデカップリングがより迅速になる可能性があります。

5. LLM 分野でスケーリングの法則が終焉を迎えるにつれて、クローズド ソースとオープン ソースの間のギャップは狭まりつつあります。

6.ビデオ生成はまだ GPT1 および 2 の時点です。

現在のビデオ レベルは SD1.4 バージョンに近く、将来的には商用製品と同様のパフォーマンスを備えたオープン ソース バージョンのビデオが登場する予定です。

現時点での問題は、画像が誰でもクリーンアップできる LIAON データセットに依存していることです。ビデオについては、これほど大規模な公開データセットがどのように入手、処理されているかがわかりません。データのクリーンアップには多くの違いがあり、それによってモデルの機能が異なり、オープンソースバージョンの難易度も異なります。

DiT 計画の次に難しい点は、統計的な確率だけでなく、物理法則への準拠をどのように改善するかです。

ビデオ生成の効率が行き詰まっています。現状では、ハイエンドのグラフィックスカードでは動作に時間がかかり、製品化の障害となっており、学術界でも議論の方向となっている。

LLM と同様に、モデルの反復速度は低下していますが、アプリケーションの速度は低下していません。プロダクトの観点から見ると、文生ビデオを作成するだけでは良い方向とは言えません。関連する編集やクリエイティブなプロダクトが無限に登場するため、短期的にはボトルネックはなくなります。

7. さまざまなシナリオに応じてさまざまなテクノロジー スタックを選択することがトレンドになるでしょう。

Sora が登場したとき、誰もが DiT に収束すると考えていましたが、実際には、GAN に基づくパスや、最近人気のあるプロジェクト Oasis などの AutoRegressive のリアルタイム生成など、多くの技術的なパスがまだ開発中です。 CG と CV の組み合わせにより優れた一貫性と制御を実現するために、各企業はさまざまなシナリオに応じてさまざまなテクノロジー スタックを選択することになるでしょう。

8. ビデオのスケーリング則は LLM レベルからは程遠いです。

ビデオのスケーリング則は一定の範囲内に存在しますが、llm のレベルには程遠いです。現在のモデルパラメータの最大レベルは 30b であり、30b 以内では有効であることが証明されていますが、300b のレベルでは成功した例はありません。

現在、技術的な解決策は収束しており、手法はそれほど変わりません。主な違いは、データ率を含むデータです。

DiTテクノロジー路線が飽和するまでには1~2年かかるだろう。 DiT ルートには改善できる点がたくさんあります。より効率的なモデル アーキテクチャは非常に重要です。 LLM を例に挙げると、当初は全員がより大きなモデルに取り組んでいましたが、その後、MOE を追加してデータ分散を最適化した後、そのような大規模なモデルがなくても実行できることがわかりました。

より多くの研究に投資する必要があり、やみくもに DiT をスケールアップするのは非常に非効率的です。 YouTubeやTikTokも含めると動画データの量は非常に多く、そのすべてをモデルの学習に使用することは不可能です。

現段階では、特にデータの準備におけるオープンソースの作業は比較的少なく、データの準備プロセスは最終的な効果に大きな影響を与えるため、いくつかは最適化することができます。ポイントの。

9. ビデオ生成速度を向上させる方法

最も単純なのは、低解像度、低フレームレートの画像を生成することです。最も一般的に使用される方法はステップ蒸留です。拡散推論には少なくとも 2 つのステップが必要です。これを 1 ステップの推論に蒸留できれば、さらに高速になります。最近ではワンステップで動画を生成する論文もありますが、まだPOCに過ぎませんが注目に値します。

10. ビデオモデル反復の優先順位

実際、明瞭さ、一貫性、制御性などはまだ飽和に達しておらず、ある部分を犠牲にしてある部分を改善するという点にはまだ達していません。現在は、事前トレーニング段階で同時に改善を行っている段階です。

11. 長いビデオの生成を高速化する技術的ソリューション

DiT の機能の限界がどこにあるのかがわかります。モデルが大きくなるほど、データの品質が向上し、解像度が高くなり、時間が長くなり、成功率が高くなります。

DiT モデルをどのくらいの大きさに拡張できるかについては、現時点では答えがありません。一定の規模でボトルネックが発生すると、新しいモデル アーキテクチャが出現する可能性があります。アルゴリズムの観点から、DiT は高速推論をサポートする新しい推論アルゴリズムを開発しました。さらに難しいのは、トレーニング中にこれらを追加する方法です。

現在のモデルの物理法則の理解は統計的な意味であり、データセットに見られる現象はある程度シミュレートできますが、物理学を実際には理解していません。学術界では、ビデオを生成するためにいくつかの物理的ルールを使用するなどの議論がいくつかあります。

12. ビデオモデルと他のモダリティの統合

統合には 2 つの側面があります。1 つはマルチモダリティの統合であり、もう 1 つは生成と理解の統合です。前者については、まず表現を統一する必要がある。後者の場合、テキストと音声の両方を統合することができ、VLM と拡散の統合の効果は現在 1+1<2 であると考えられています。この作業は、必ずしもモデルが十分にスマートではないためではなく、2 つのタスク自体が矛盾しており、微妙なバランスをどのように達成するかが複雑な問題であるため、より困難になります。

最も単純なアイデアは、それらをすべてトークン化してトランスフォーマー モデルに入れ、最終的に入力と出力を統合することです。しかし、私の個人的な経験では、すべてを統合するよりも、単一の特定のモダリティを実行する方が良いです。

産業の実践では、全員が一緒にやることはありません。 MIT の最新の論文は、複数のモダリティを統合すると効果が向上する可能性があることを示しています。

13. ビデオ モダリティには実際に多くのトレーニング データがあります。

実際には動画データが大量に存在するため、いかに効率的に高品質なデータを選択するかが重要となります。

金額は著作権の理解に依存します。しかし、非常に多くのデータがあっても、特に高解像度のデータを処理するのに十分なコンピューティング能力がない可能性もあります。場合によっては、手持ちのコンピューティング能力に基づいて、必要な高品質のデータ セットを推測することが必要になることがあります。

質の高いデータは常に不足していましたが、たとえデータがあったとしても、どのような画像説明が正しいのか、画像説明にどのようなキーワードを含めるべきなのかが誰もが分からないのが大きな問題です。

14. 長いビデオ生成の未来はストーリーテリングにあります

現在のビデオ生成は素材に基づいています。未来はストーリーであり、ビデオ生成には目的があります。長いビデオは、その長さが重要ではなく、ストーリーテリングが重要です。タスクの形式で。

動画編集の場合はさらに高速になります。現状の行き詰まり点は速度が遅すぎることだからです。今ではそれらはすべて分単位で表示されます (秒単位で生成されます)。たとえ優れたアルゴリズムがあったとしても、それは機能しません。 (エディットとは編集ではなく、人物や動作を変えるなどの画像編集のことを指します。そのような技術は存在しますが、遅くて使い物にならないという問題があります。)

15. ビデオ生成の美しさの改善は主にトレーニング後のものに依存します

これは主に、大量の映画やテレビのデータを使用する Conch などのトレーニング後の段階に依存します。リアルさという点ではプロトタイプの実力です

16. ビデオを理解する際の 2 つの問題は、長いコンテキストと遅延です。

17. 視覚的モダリティは、AGI につながる最良のモダリティではない可能性があります。

テキストモダリティ - テキストを画像に変更してからビデオに変更することもできます

テキストは知性への近道、ビデオとテキストの効率の差は数百倍

18.エンドツーエンドの音声モデルは大きな進歩です。

データを手作業でラベル付けして判断する必要がなく、正確な感情理解と出力が可能です。

19. マルチモーダルモデルはまだ初期段階にある

マルチモーダル モデルはまだ初期段階にあり、ビデオの最初の 1 秒とその後の 5 秒を予測することはさらに困難になる可能性があります。

理論的には、ビデオとテキストを組み合わせてトレーニングするのが最善ですが、それを全体として実行するのは困難です。

マルチモダリティは現時点ではインテリジェンスを向上させることはできませんが、将来的には、圧縮アルゴリズムがデータセット間の関係を学習し、純粋なテキストと純粋な画像データのみを必要とし、リリース後にはビデオとテキストをそれぞれ理解できるようになる可能性があります。他の。

20. マルチモーダル技術パスはまだ完全には収束していません。

Diffsion モデルの品質は良好で、現在のモデル構造はまだ修正中です。

オルター納得のロジックが良い。

21. さまざまなモダリティの調整についてはまだ合意がありません。

ビデオが離散トークンであるか連続トークンであるかは決定されていません。

高品質のアライメントはまだ多くありません。

現時点では、それが科学的な問題なのか工学的な問題なのかはわかりません。

22. 大規模なモデルでデータを生成してから小規模なモデルをトレーニングすることは可能ですが、その逆はより困難です。

合成データと実際のデータの違いは主に品質の問題です。

さまざまなデータをつなぎ合わせて合成することもでき、その効果も非常に優れています。データ品質の要件が高くないため、事前トレーニング段階が利用可能です。

23. LLM にとって、事前トレーニングの時代は基本的に終わりました。

今、誰もが高いデータ品質を必要とするポストトレーニングについて話しています。

24. トレーニング後のチーム構築

理論上のチームの規模: 5 人で十分です (フルタイムである必要はありません)。

パイプライン(インフラ)は1人で構築します。

1 人がデータを管理します (データ効果)。

1 人がモデル自体の SFT (科学者/論文リーダー) を担当します。

1 人の担当者が製品のモデル配置の判断とユーザー データの収集を行います。

AI 時代では、製品と UI には、トレーニング後の製品と UI の理解、豊かな開発を補完し、AI によるバイアスを回避できるという利点があります。

25. データパイプライン構築

データの循環: データがパイプラインに入り、新しいデータが生成されて返されます。

効率的な反復: データ アノテーションとパイプラインおよび AB テスト、構造化されたデータ ウェアハウスを組み合わせます。

データ入力: ユーザーのフィードバックに効率的に注釈を付けて充実させ、堀を構築します。

初期ステージ: SFT (このステージまで継続的に再ループ)。

後続段階:RL(より重いRLFHに分化)、スコアリングガイドRL、DPO法が崩れやすい、RLのSFT簡易版。

02実施形態

1.身体化ロボットは、ChatGPT のような「重大な瞬間」をまだ迎えていない

その主な理由は、ロボットは仮想言語を通じてテキストを生成するだけでなく、物理世界でタスクを完了する必要があるということです。

ロボット知能のブレークスルーには、「身体化知能」の中核問題、つまり動的で複雑な物理環境でタスクを完了する方法を解決する必要があります。

ロボットの「危機的瞬間」は、次の条件を満たす必要があります。 汎用性: さまざまなタスクや環境に適応できる。信頼性: 現実世界では高い成功率。スケーラビリティ: データとタスクを継続的に反復および最適化する機能。

2.この世代の機械学習によって解決される中心的な問題は一般化です。

一般化とは、トレーニング データからパターンを学習し、それを目に見えないデータに適用する AI システムの機能です。

一般化には 2 つのモードがあります。

  • 補間: テスト データはトレーニング データの分布範囲内にあります。

  • 外挿の難しさは、テストデータの分布範囲やコストだけでなく、トレーニングデータがテストデータを十分にカバーできるかどうかにもあります。ここでの重要な概念は「カバー」または「カバレッジ」であり、トレーニング データがテスト データの多様性を効果的にカバーできるかどうかを指します。

3.視覚タスク (顔認識や物体検出など) はほとんどが補間問題です。

マシンビジョンの仕事は主に、環境を理解して知覚する生き物の知覚能力を模倣することです。

マシン ビジョン モデルは、それらをサポートする大量の関連データがあるため、特定のタスク (猫や犬の認識など) に関してはすでに非常に成熟しています。ただし、より複雑なタスクや動的なタスクの場合、データの多様性とカバレッジが依然としてボトルネックとなります。

視覚タスク (顔認識、物体検出など) はほとんどが補間問題であり、モデルはトレーニング データを通じてほとんどのテスト シナリオをカバーします。

ただし、新しい角度や照明条件などの外挿問題に関しては、モデルの機能はまだ制限されています。

4. この世代のロボットの一般化の難しさ: ほとんどの状況は外挿状況に属します

環境の複雑さ: 家庭環境および産業環境の多様性とダイナミクス。

物理的相互作用の問題: ドアの重量、角度の違い、摩耗などの物理的特性。

人間とコンピューターの相互作用における不確実性: 人間の行動は予測不可能であるため、ロボットにはより高い要求が課せられます。

5. 完全に人間のような汎用化機能を備えたロボットは、現世代または将来の世代では実現できない可能性があります。

ロボットが現実世界の複雑さと多様性に対処することは非常に困難です。家庭内の実際の環境 (ペット、子供、家具の配置など) が動的に変化するため、ロボットを完全に一般化することが困難になります。

人間自体は全能の個人ではなく、分業と協力によって社会の複雑な任務を遂行します。また、ロボットは必ずしも「人間レベル」の汎用化能力を追求するわけではありませんが、特定の特定のタスクにより重点を置き、「超人的な」パフォーマンス(工業生産における効率や精度など)を達成することさえあります。

一見単純なタスク (床の掃除や料理など) であっても、環境の複雑さとダイナミクスにより、非常に高度な一般化要件が必要になります。たとえば、掃除ロボットは、数千世帯のさまざまな間取り、障害物、地面の材質などに対処する必要があるため、一般化の難しさが増します。

では、ロボットはあなたのタスクを選択する必要があるのでしょうか?たとえば、ロボットは人間の能力をすべて追求するのではなく、特定のタスクに集中する必要があります。

6. スタンフォード研究所の選択: 家族の場面に焦点を当てる

スタンフォード大学のロボティクス研究室は、家庭向けのシナリオ、特に高齢化社会に関連する家庭用ロボットのタスクに焦点を当てています。たとえば、ロボットは、キルトを折りたたむ、アイテムを拾う、ボトルのキャップを開けるなどの日常作業を完了するのを支援できます。

懸念の理由: 米国、西ヨーロッパ、中国などの国々はいずれも深刻な高齢化問題に直面しています。加齢に伴う主な課題は次のとおりです。 認知機能の低下:アルツハイマー病は広範囲にわたる問題であり、95 歳以上の人の約半数が罹患しています。運動機能の低下: パーキンソン病や ALS などの病気により、高齢者は基本的な日常生活を行うことが困難になります。

7. 特定のシナリオに基づいて一般化条件を定義する

家庭、レストラン、老人ホームなど、ロボットが処理する必要がある環境とシナリオを特定します。

シナリオが明確になると、タスクの範囲をより適切に定義し、起こり得るアイテムの状態変化や環境の動態がこれらのシナリオに確実に含まれるようにすることができます。

シナリオ デバッグの重要性: ロボット製品のデバッグは、技術的な問題を解決するだけでなく、考えられるすべての状況をカバーする必要があります。たとえば、介護施設では、ロボットはさまざまな複雑な状況 (高齢者の動きが遅い、物の配置が不安定であるなど) に対処する必要があります。分野の専門家 (老人ホーム管理者、看護スタッフなど) と協力することで、タスク要件をより適切に定義し、関連データを収集できます。

現実世界の環境は、産業の組み立てラインのように完全に制御できるわけではありませんが、デバッグを通じて「知る」ことができます。たとえば、ホーム環境で一般的なオブジェクトのタイプ、配置、動的変更などを定義し、シミュレーションと実環境の重要なポイントをカバーします。

8. 一般化と専門化の矛盾

一般的なモデルとタスク固有のモデルの間の競合: モデルを使用するには、強力な一般化機能と、さまざまなタスクや環境に適応する機能が必要ですが、これには通常、大量のデータとコンピューティング リソースが必要です。

タスク固有のモデルは商品化が容易ですが、その機能は限られており、他の分野に拡張するのは困難です。

将来のロボット知能は、汎用性と専門性の間のバランスを見つける必要があります。たとえば、モジュール設計を通じて、共通のモデルが基礎となり、特定のタスクに合わせて微調整することで迅速な適応が達成されます。

9. 具現化されたマルチモーダルモデルの可能性

マルチモーダル データの統合: マルチモーダル モデルは、視覚、触覚、言語などの複数の入力を同時に処理できるため、複雑なシーンにおけるロボットの理解力と意思決定能力が向上します。たとえば、把握タスクでは、視覚データはロボットが物体の位置と形状を識別するのに役立ち、触覚データは把握の安定性を確保するための追加のフィードバックを提供できます。

問題は、マルチモーダル データをモデルに効率的に統合する方法にあります。マルチモーダルデータを通じて動的環境におけるロボットの適応性を向上させる方法。

触覚データの重要性: 触覚データは、ロボットが複雑な環境でタスクを完了するのに役立つ追加情報を提供します。たとえば、柔軟な物体をつかむ場合、触覚データはロボットが物体の変形や力を感知するのに役立ちます。

10. ロボットデータの閉ループの実現は困難

現在、ロボット工学の分野には ImageNet のような象徴的なデータセットが不足しており、研究において統一された評価基準を形成することが困難になっています。

データ収集は、特に現実世界のインタラクション データの場合、費用がかかります。たとえば、触覚データ、視覚データ、動的データなどのマルチモーダル データを収集するには、複雑なハードウェアと環境サポートが必要です。

シミュレータはデータの閉ループ問題を解決するための重要なツールであると考えられていますが、シミュレーションと現実世界との間の「シムとリアルのギャップ」は依然として大きいです。

11. シミュレーションと現実のギャップへの挑戦

シミュレータと現実世界の間には、ビジュアル レンダリングや物理モデリング (摩擦、材料特性など) などの側面でギャップがあります。ロボットはシミュレーション環境では良好に動作しますが、実際の環境では失敗する可能性があります。このギャップにより、シミュレーション データの直接適用が制限されます。

12. リアルデータの利点と課題

実際のデータは物理世界の複雑さをより正確に反映していますが、収集には費用がかかります。データの注釈は、特にマルチモーダル データ (触覚、視覚、動的など) の場合にボトルネックになります。

産業環境はより標準化されており、ミッションの目的もより明確になっており、ロボット技術の早期展開に適しています。たとえば、太陽光発電所の建設では、パネルを積み上げ、設置し、ネジを締めるなどの反復的な作業をロボットが実行できます。産業用ロボットは、特定のタスクに関するデータ収集を通じてモデルの機能を徐々に向上させ、データの閉ループを形成できます。

13. ロボットの操作では、触覚データと力データが重要なフィードバック情報を提供します

ロボットの操作では、特に掴んだり配置したりするような連続作業中に、触覚データと力データが重要なフィードバック情報を提供します。

触覚データの形式: 触覚データは通常、ロボットが物体と接触したときの機械的変化を反映できる時系列データです。

最新の研究作業は、大型モデルにタッチを追加することです。

14. シミュレーションデータのメリット

シミュレーターは大規模なデータを迅速に生成でき、初期のモデルのトレーニングと検証に適しています。シミュレーション データは生成コストが低く、さまざまなシナリオやタスクを短時間でカバーできます。産業用ロボットの分野では、物をつかむ・扱うといった作業を訓練するためにシミュレータが広く使われています。

シミュレーション データの制限: シミュレーターの物理モデリングの精度には制限があります。たとえば、オブジェクトの材質、摩擦、柔軟性、その他の特性を正確にシミュレートすることはできません。シミュレーション環境の視覚的なレンダリング品質は不十分であることが多く、実際の環境ではモデルのパフォーマンスが低下する可能性があります。

15. データシミュレーション: スタンフォード大学が行動シミュレーションプラットフォームを開始

Behavior は、家庭シナリオを中心としたシミュレーション プラットフォームで、1,000 のタスクと 50 の異なるシナリオをサポートし、一般的なアパートから 5 つ星ホテルまでのさまざまな環境をカバーします。

プラットフォームには 10,000 を超えるオブジェクトが含まれており、高精度 3D モデルとインタラクティブな注釈を通じて、オブジェクトの物理的および意味的特性 (キャビネットのドアが開けられる、服が折りたためる、メガネが壊れるなど) がわかります。再現されました。

シミュレーション環境の信頼性を確保するために、チームは多くの人的資源 (博士課程の学生によるデータの注釈など) を投資して、物理的特性 (質量、摩擦、質感など) とインタラクティブな特性 (たとえば、ラベルが変形するかどうかは取り外し可能です)。別の例としては、衣服をたたむ作業をサポートするために衣服の柔軟な特性をマークしたり、水やり後の植物の湿潤効果をマークしたりすることが挙げられます。

Behavior プロジェクトは、固定シミュレーション環境を提供するだけでなく、ユーザーが独自のシーンやオブジェクトをアップロードし、注釈パイプラインを通じてそれらに注釈を付け、構成することもできます。

現時点では、シミュレーションの 80% は事前トレーニングで済み、残りの 20% は実環境でのデータ収集とデバッグによって補う必要があります。

16. ハイブリッドモデルの適用

シミュレーション データを使用して事前トレーニングを実行し、実際のデータを使用して微調整と最適化を実行します。実際のシーンをスキャンしてシミュレータに取り込む試みが行われ、ロボットがシミュレーション環境で対話して学習できるようになり、シミュレーションと現実のギャップが減少します。

17. ロボットデータ共有の課題

データは企業の中核資産であるため、企業はデータを簡単に共有することに消極的です。統一されたデータ共有メカニズムとインセンティブ メカニズムが欠如しています。

考えられる解決策:

データ交換: ミッション固有の企業は、共通モデルを使用する能力と引き換えにデータを提供します。

データ仲介者: プライバシーを保護しながらデータを収集、統合、配布するためのサードパーティ プラットフォームを確立します。

モデル共有: API またはモデルの微調整を通じて、元のデータへの依存を軽減します。

すでにこれら 3 つの方法を試している企業がいくつかあります

18. 器用なハンドとグリッパーの選択

器用な手の利点: 自由度が高く、より複雑なタスクを完了できる。器用な手であれば、複数の自由度で調整することでモデル予測の不正確さを補うことができます。

グリッパーの利点: 低コストで、産業シナリオの特定のタスクに適しています。組立ラインのマテリアルハンドリングタスクではうまく機能しますが、汎用化能力が欠けています。

19. 身体化ロボットのソフトウェアとハ​​ードウェアの共進化

ハードウェア プラットフォームとソフトウェア モデルは同時に反復する必要があります。たとえば、ハードウェアのセンサー精度が向上すると、より高品質のデータをモデルに提供できます。企業ごとに、ソフトウェアとハ​​ードウェアのコラボレーションに対する戦略も異なります。

03 AIアプリケーションへの投資

1. シリコンバレーのVCは、2025年がAIアプリケーションへの投資にとって大きな年になると信じている。

シリコンバレーのVCは、2025年がアプリケーション投資の大きなチャンスになると考える傾向にある。米国には基本的に、すべての人にとってキラーアプリは存在しません。誰もがさまざまなシナリオでさまざまな機能を持つアプリを使用することに慣れています。重要なのは、ユーザー エクスペリエンスを可能な限りバリアフリーにすることです。

昨年は、アプリケーション企業にはほとんど注目が払われませんでした。誰もが LLM モデルと Foundation モデルに注目していました。

アプリケーションに投資する場合、VC は「堀は何ですか?」と尋ねるでしょう。

シリコンバレーの投資家が AI 製品に投資する際の基準の 1 つは、競合する製品が模倣するのを困難にするために、一方向のみに進むことが最善であり、模倣が困難なネットワーク効果が必要です。またはコピーが困難な技術的優位性など。そうでなければ、それを起業家精神と呼ぶのは難しく、むしろビジネスに似ています。

2. シリコンバレーのVCはAI製品企業は新種だと信じている

新しい種の AI 企業は、これまでの SaaS とは大きく異なり、PMF を見つけた後、その収益は非常に急速に拡大し、誇大宣伝の前に真の価値創造が行われます。

3. VCの間のニッチな見解は、条件が許せば中国の起業家への投資を検討できるというものである。

その理由は、新世代の中国人創業者は非常に精力的で、優れたビジネスモデルを開発する能力があるからです。

ただし、基地は米国にあるという前提がある。

中国と中国の起業家たちは多くの新たな試みを行っているが、海外の投資家は恐れを抱いており、それを理解していない。それが価値あるポイントだと考える人は少数派です。

4. シリコンバレーのVCは独自の投資戦略を確立する方法を模索している

Soma Capital: 最高の人々とのつながりを築き、最高の人々に友達を紹介してもらい、生涯にわたる友情を築きましょう。その過程で、市場セグメンテーションやプロジェクト マッピングを含むパノラマ マップを構築し、データ主導型の投資を行いたいと考えている人々を鼓舞し、サポートし、結びつけます。シードからシリーズ C まで投資し、成功/失敗のサンプルを観察します。

Leonis Capital: 研究主導のベンチャー キャピタル ファンド、主に First Check。

OldFriendship Capital: 最初に仕事をし、後で投資します。コンサルティング業務と同様に、最初に創業者と協力し、顧客インタビューを実施し、いくつかのインタビューガイドラインを決定し、製品の問題を一緒に解決します。中国のプロジェクトに投資すれば、中国人の創業者が仕事で米国の顧客と仕事をする機会があるかどうかを判断できる。

Storm Venture: 私は「Unlocking Growth」が好きで、シリーズ A の PMF を持つ企業を好みます。通常、これらの企業は 100 万から 200 万の収益を得ており、その後、2,000 万までの上昇をサポートする「Unlocking Growth」があるかどうかを判断します。 B2B SaaS の中核は賃金ですが、これは人件費が非常に高いシナリオにのみ適用されます。エンタープライズ レベルでの最大のチャンスは自動化作業だと思います。

Inference Venture: 障壁は対人関係とドメイン知識に基づいて構築されると考える 5,000 万ドルのファンド。

5. シリコンバレーのVCは、AI時代におけるMVPの要件が高まっていると考えています。

エンジニア、フィンテック、人事などは、よりお金がかかるAI製品の方向性です。

ホワイトカラーの仕事は時給 40 ドルと高く、労働時間の 25% しか費やされず、将来的には中間管理職がいなくなり、淘汰される可能性があります。

人件費が最も高い企業は、一般的にAIが浸透しやすい分野にあり、病院経営者は基本的に米国人ではないため、時給が2ドル未満である可能性があり、AIと競争することは困難です。

Service as a software から AI Agent に変更されます。

6. OpenAI 研究者によって設立されたレオニス キャピタルによる 2025 年の AI の 5 つの予測

AIプログラミングアプリケーションが普及するでしょう。

モデルプロバイダーはコストを管理し始めます。起業家は独自の製品を作成するためにモデル/エージェントを選択する必要があります。

アクションごとのコストの価格設定方法が表示されます。

データセンターは停電を引き起こす可能性があり、新しいアーキテクチャが必要になる場合があります。新しいフレームワークでは、モデルがより小さくなります。マルチエージェントはより主流になるだろう。

7. AIネイティブスタートアップ企業の基準

大企業との競合と比較すると、誰もお金を持っておらず、従来の SaaS 企業とは組織構造が異なります。Notion と Canva は AI を使用する際にさらに苦労しており、Notion はコア機能にダメージを負いたくないのです。

AI ネイティブ データの顧客獲得コストは比較的低く、AI 製品によってもたらされる ROI は比較的明確です。AI スケーリング プロセスでは、5,000 万人の場合、20 人しかいない可能性があります。

Moat に関して言えば、それはモデルのアーキテクチャとカスタマイズにあります。

8. 大規模なモデルは事前トレーニングを非常に重視し、アプリケーション企業は推論により注意を払います。

各業界には問題の見方が固定されており、各業界には独自の認知アーキテクチャがあり、新たに登場した AI エージェントは LLM に基づいて認知アーキテクチャを追加します。

9. AIを日常生活に応用する理由と報酬の与え方

生活分野におけるAI応用の推論は意図通りに行うことができます。

報酬を読むのは非常に難しいですが、数学とコーディングは簡単です。

トピックの有効性と地理的位置を考慮してください。

動的報酬を実行できるのは、同様のグループに対してのみ実行できることです。

10. AIによって生成されたコンテンツはあまり現実的ではなく、新しい形のコンテンツになる可能性があります。

例えば猫の散歩と料理

04 AIコーディング編

1. AIコーディング企業モデルトレーニングの考えられるアイデア

考えられるアイデアの 1 つは、最初はコストが高くても、より良い結果を達成するためにモデル会社の API を使用し、顧客の使用状況データを蓄積した後、小規模なシーンで独自の小さなモデルをトレーニングし続けることで、継続的に置き換えることです。一部の部分では、低コストでより良い結果を達成するための API シナリオを使用します。

2. コパイロット モードとエージェント モードの違い

間の主な違いは非同期です。主な違いは、AI アシスタントがタスクを実行する際にどの程度非同期であるかです。副操縦士は多くの場合、即時のユーザー操作とフィードバックを必要としますが、エージェントはユーザーの入力を求める前に、より長時間独立して作業できます。たとえば、コード補完ツールやコード チャット ツールでは、ユーザーがリアルタイムで監視して応答する必要があります。一方、エージェントはタスクを非同期で実行でき、必要なフィードバックが少ないため、より多くのことを達成できます。

当初、エージェントは結果を提供するまで長時間 (10 ~ 20 分) 独立して動作するように設計されていました。ただし、ユーザーのフィードバックによると、ユーザーはより多くの制御と頻繁な対話を好むことがわかっています。したがって、エージェントはフィードバックを求める前に短時間 (数分間) 動作するように調整されており、自律性とユーザー エンゲージメントのバランスが保たれています。

完全自律型エージェントの開発における課題: 完全自律型コーディング エージェントの開発を妨げる 2 つの大きな障害があります。このテクノロジーは、複雑で長期にわたるタスクを失敗することなく処理できるほどまだ進んでいないため、ユーザーの不満につながっています。ユーザーは、AI アシスタントが複数のファイルまたはリポジトリに重大な変更を加えるという概念にまだ慣れてきています。

3. コーディングエージェントの主な課題と改善点

さらなる開発が必要な主な領域は次のとおりです。 1. イベント モデリング 2. メモリとワールド モデリング 3. 将来に向けた正確な計画 4. 特に長いコンテキストのコンテキスト利用率の向上 (コンテキスト利用率は 10,000 トークンを超えると大幅に低下します)、拡張されたコンテキストの推論を強化するためメモリの長さ (例: 100,000 トークン以上) については、より長いコンテキストに対する記憶と推論を改善することを目的とした進行中の研究が行われています。

ワールド モデリングはコーディング エージェントとは無関係に見えるかもしれませんが、不正確な計画などの一般的な問題を解決する上で重要な役割を果たします。ワールド モデリングの課題を解決すると、コーディング エージェントの能力が向上し、より効率的かつ正確な計画を立てることができます。

4. AI コーディングにおける重要な傾向は、O3 または O1 手法と同様の推論強化テクノロジーの使用です。

これらのメソッドにより、コード エージェントの全体的な効率を大幅に向上させることができます。現時点では高いコスト (10 ~ 100 倍) がかかりますが、エラー率を半分、あるいは 4 分の 1 に減らすことができる可能性があります。言語モデルが進歩するにつれて、これらのコストは急速に低下すると予想されており、そのため、このアプローチがテクノロジーの一般的なルートになる可能性があります。

O3 は、Total Force テストを含むベンチマーク テストで他のモデルよりも大幅に優れたパフォーマンスを示しました。現在の業界のスコアは一般的に50点前後ですが、O3のスコアは70~75点です。

SMV スコアは、過去数か月間で急速に向上しました。数ヶ月前までは30点台でしたが、今は50点台です

モデルのパフォーマンス向上テクノロジー: 高度なテクノロジーを適用することで、社内テストによると、スコアをさらに約 62 ポイントまで向上させることができます。 O3 を活用すると、スコアを 74 ~ 75 点まで押し上げることができます。これらの機能強化によりコストが大幅に増加する可能性がありますが、全体的なパフォーマンスは大幅に向上します。

ユーザー エクスペリエンスと遅延のしきい値: パフォーマンスとユーザー エクスペリエンスの最適なバランスを決定するのは困難な場合があります。オートコンプリート機能の場合、応答時間が 215 ~ 500 ミリ秒を超えると、ユーザーが機能を無効にする可能性があります。チャット アプリケーションでは、通常、数秒の応答時間は許容されますが、50 ~ 75 分間待つのは現実的ではありません。許容可能な遅延のしきい値は、アプリケーションとユーザーの期待によって異なります。

モデルの品質を最大化する上での 2 つの大きな障壁は、計算能力要件と関連コストです。

5. GitHub Copilot は主要な競合他社と考えられています。

6. AI コーディング ツールの導入には、顧客の成功が不可欠です。

アフターセールスサポート、トレーニング、発売、導入が重要な差別化要因となります。あるスタートアップには、カスタマーサクセスに専念する 60 ~ 70 人の従業員がおり、これは全従業員の約半分に相当します。これは多額の投資ですが、顧客満足度の確保に役立ちます。