原文:「 AIエージェントの「GPTモーメント」、マヌスがAI界全体を目覚めさせた!」 》
著者: 張 永義
編集者:ジンユ
2025年はAIエージェント元年です。この発言は北京時間3月6日の早朝に実現しました。
「DeepSeek の後、テクノロジー コミュニティにとってまた眠れない夜がやってきました。」
多くのユーザーがソーシャルメディア上で同様のコメントを投稿した。
招待コードを入手するために、全員が徹夜で参加しました。その製品は、Monica.im が開発した世界初の AI エージェント製品「Manus」でした。
チームによれば、「Manus」はさまざまな複雑で変化するタスクを解決できる、真に自律的な AI エージェントです。従来の AI アシスタントとは異なり、Manus は提案や回答を提供するだけでなく、完全なタスク結果を直接提供します。
マヌスの紹介ビデオはたった4分ですが、非常に迫力があります。画像提供: Monica.im
「Manus」という名前が示すように、ラテン語で「手」を意味します。言い換えれば、知識は脳の中にあるだけでなく、手で実行できるものでなければなりません。これはエージェントおよび AI ボット (チャットボット) 製品の本質的な進歩です。
マヌス 牛はどこですか?最も直感的な方法は、公式サイトに表示されているユースケースや、ユーザーが自発的に表示しているユースケースを見ることです。Geek Park セクションは次のようにまとめられています。
- 旅行計画: 旅行情報を統合するだけでなく、ユーザー向けにカスタマイズされた旅行ガイドも作成します。例えば、4月に日本旅行を計画しているユーザー向けに、パーソナライズされた旅行アドバイスや詳細なマニュアルを提供します。
- 株式分析: 詳細な株式分析を実施し、視覚的に魅力的なダッシュボードを設計して、包括的な株式の洞察を紹介します。たとえば、テスラ株の詳細な分析を実施し、視覚的なダッシュボードを作成します。
- 教育コンテンツの作成: 運動量定理などの複雑な概念を説明する中等学校の教師向けのビデオ プレゼンテーションを作成し、教師がより効果的に指導できるようにします。
- 保険契約の比較: 明確な保険契約の比較表を作成し、ユーザーが最も適切な保険商品を選択できるように最善の決定提案を提供します。
- サプライヤーの調達: ネットワーク全体にわたって徹底的な調査を実施し、お客様のニーズに最も適したサプライヤーを見つけ、真に公平なエージェントとしてサービスを提供します。
- 財務レポート分析: 調査とデータ分析を通じて特定の企業 (Amazon など) に対する市場感情の変化を捉え、過去 4 四半期の市場感情分析を提供します。
- スタートアップ企業リストの作成: 関連 Web サイトにアクセスして、対象となる企業を特定し、表にまとめます。たとえば、YC W25 バッチからすべての B2B 企業のリストをまとめます。
- オンラインストア運営分析: Amazon ストアの販売データを分析して、実用的な洞察、詳細な視覚化、カスタマイズされた戦略を提供し、販売パフォーマンスの向上に役立ちます。
- エージェントが長い一連の思考とツール呼び出しを経て、最終的に非常に完全でプロフェッショナルな結果を出力すると、ユーザーは「これは本当に人間の作業に役立つ」と感嘆し始めます。
公式サイトによると、Manusは、汎用AIアシスタントが現実世界の問題を解決する能力を評価するGAIAベンチマークの3つの難易度レベルすべてで、新たな最先端(SOTA)パフォーマンスを達成した。
一言でまとめると、Manus がやりたいことは、文字通りデジタル世界における「エージェント」になることです。そしてそれは起こりました。
ご想像のとおり、早朝のマヌスの打ち上げは AI 界の全員を目覚めさせました。
01. デジタルエージェント、Manus
まず、経験の面でマヌスと以前のLLMとの最大の違いは次のとおりです。
単純な「答え」を与えるのではなく、最終結果を直接提供する能力を重視します。
Manus は現在、マルチエージェント アーキテクチャを使用しており、Anthropic が以前にリリースした Computer Use と同様に動作し、完全に独立した仮想マシンで実行されます。同時に、仮想環境でさまざまなツールを呼び出し、コードの記述と実行、Web の閲覧、アプリケーションの操作などを行い、完全な結果を直接提供できます。
公式ビデオでは、実際の使用シナリオで Manus が完了する 3 つの作業事例が紹介されています。
最初のタスクは履歴書を審査することです。
15 件の履歴書から強化学習アルゴリズム エンジニアのポジションに適した候補者を推薦し、強化学習の専門知識に基づいて候補者をランク付けします。
このデモでは、圧縮ファイルを解凍して履歴書ファイルを 1 つずつ手動でアップロードする必要もありません。この時点で、マヌスはすでに人間の「インターン」としての側面を見せており、手動でファイルを解凍し、履歴書をページごとに閲覧しながら重要な情報を記録しています。
マヌスは、まるでインターンのように、「上司から投げられたパッケージ ファイルを解凍する」という隠された指示を自動的に理解しました | 画像ソース: Geek Park
Manus が提供する結果には、自動的に生成されたランキング提案が含まれるだけでなく、職務経験などの重要な側面に基づいて候補者をさまざまなレベルに分類します。ユーザーがコンテンツを Excel テーブルの形式で表示することを好むという情報を受け取った後、Manus はその場で Python スクリプトを記述して対応するテーブルを自動的に生成することもできます。
マヌスは、この練習中に「ユーザーは結果を表で受け取ることを好む」といった情報を記憶に残すこともできます。次回、同様のタスクの結果を扱うときは、表で提示することを優先します。
Manus はコンテンツ生成プロセスでユーザーの好みを記憶できます | 画像ソース: Geek Park
2番目のケースは、より中国人向けにカスタマイズされた不動産の選択です。
この場合、ユーザーはニューヨークで不動産を購入したいと考えており、入力する要件は、安全なコミュニティ環境、低い犯罪率、質の高い初等中等教育リソース、そしてもちろん、毎月の固定収入で購入できる十分な予算です。
この需要に応えるため、Manus AI は、安全な地域の調査、良い学校の特定、予算の計算、物件の検索など、複雑なタスクを ToDo リストに分解します。そして、インターネットで検索し、ニューヨークで最も安全な地域に関する記事を注意深く読んで、関連情報を収集します。
次に、Manus 氏は、ユーザーの収入に基づいて手頃な不動産予算を計算する Python プログラムを作成しました。不動産ウェブサイト上の関連住宅価格情報と組み合わせて、予算の範囲に応じて物件リストをフィルタリングします。
Manus は、ユーザーの要件を満たさない物件を自動的に検索して除外することができます | 画像提供: Geek Park
最後に、Manus は収集したすべての情報を、地域の安全性分析、学校の質の評価、予算分析、推奨物件のリスト、関連リソースへのリンクを含む詳細なレポートに統合します。プロの不動産業者とまったく同じです。また、Manus は「ユーザーの興味に完全に基づく」という特性があるため、使用体験はさらに優れています。
最後のケースでは、マヌス氏は株価を分析する能力を発揮しました。
このケースで与えられた課題は、過去 3 年間の NVIDIA、Marvell Technology、TSMC の株価の相関関係を分析することです。これら 3 つの株の間には密接な相関関係があることはよく知られていますが、初心者ユーザーにとって、因果関係をすぐに整理することは困難です。
Manus のオペレーションは実際の株式ブローカーと非常に似ています。まず API を通じて Yahoo Finance などの情報サイトにアクセスし、過去の株式データを取得します。また、単一の情報源によって誤解されることがないように、データの正確性を相互検証し、最終結果に大きな影響を与えないようにします。
この場合、Manus 氏は Python コードの記述、データ分析と視覚化の能力も活用し、分析用の専門的な金融ツールも導入しました。最終的には、データ視覚化チャートと詳細な総合分析レポートを通じて、ユーザーに因果関係に関するフィードバックを提供しました。これはまさに金融分野の「インターン」の日常業務のようです。
それだけでなく、Manus の公式 Web サイトには、Manus を使用できる 12 以上のシナリオも表示されています。Manus を直接使用して、旅程の計画、パーソナライズされた旅行ルートの提案、さまざまな複雑なツールの使用方法を学習させて、日常業務を効率的に完了することができます。
このプロセスにおいて、Manus がこれまでのツールと大きく異なるのは、タスクを確実に実行するために自律的に計画する機能です。
自律学習の能力により、Manus の作業能力向上ロジックは実際の人間のそれに近づきます。現段階では特定の分野で専門家レベルの熟練度を達成できないかもしれませんが、すでに大きな可能性を感じています。
自律学習機能の追加により、AIエージェントの汎用性が大幅に向上しました。Manusの実際のユーザーテストでは、ビデオ画面で関連コンテンツを直接説明することもできます。Manusは最終的に、対応情報に基づいて特定のDouyinショートビデオへのリンクを直接見つけることができ、検索エンジンのプラットフォームコンテンツの制限を超えています。
現在のバージョンの Manus はクラウド内で完全に非同期で実行されるため、Manus の機能は、端末プラットフォームの形式や使用するコンピューティング能力などの要因によって実際に制限されることはありません。ユーザーは Manus に指示を与えた後、コンピューターを一時的にオフにすることもできます。また、Manus がアクティビティの結果を完了すると、自動的に結果が通知されます。
この操作のロジックも非常によく知られています。ちょうど、仕事が終わった後に WeChat でインターンに「書類が準備できたら送って」と呼びかける人のようなものです。しかし、今ではこのインターンは24時間365日対応してくれるので、「職場の再編」を心配する必要がありません。
02. 複数のエージェント+セルフチェックによるAIエージェントフローの実行
上記の事例から、Manus の本当のキラー フィーチャーは、Computer Use に登場した「AI エージェント」という概念ではなく、「人間の働き方をシミュレートする」機能であることが容易にわかります。
Manus の動作ロジックは、「計算を実行する」というよりも、「コマンドを考えて実行する」というようなものです。現時点で人間ができないことは何もできません。そのため、現在のバージョンの Manus を体験したユーザーの中には、それを「インターン」と表現する人もいます。
Manus の公式 Web サイトには、B2B ビジネスで Manus を使用する方法を示すケース スタディなど、Manus で実行できる多くのタスクが表示されます。お客様の注文ニーズを世界中のサプライヤーと迅速かつ正確にマッチングします。
同様のニーズを持つ従来の製品では、プラットフォーム内にグローバルサプライチェーンの企業情報を統合し、ユーザーがサプライヤーと需要のマッチングを完了できるようにすることが業界の一般的なロジックです。しかし、Manus の場合、それを実装するまったく異なる方法が見られます。
Manus AI は「マルチエージェント」と呼ばれるアーキテクチャを使用し、独立した仮想マシンで実行されます。企画エージェント、実行エージェント、検証エージェントの分業・連携メカニズムを通じて。並列コンピューティングにより、複雑なタスクの処理効率を大幅に向上し、応答時間を短縮します。
このアーキテクチャでは、各エージェントは独立した言語モデルまたは強化学習モデルに基づいており、API またはメッセージ キューを介して相互に通信します。同時に、各タスクはサンドボックス内で実行されるため、他のタスクへの干渉を回避しながら、クラウド拡張をサポートします。それぞれの独立したモデルは、最初に考え、計画を立て、複雑な指示を理解して実行可能なステップに分解し、適切なツールを呼び出すなど、人間のタスク処理のプロセスを模倣できます。
言い換えれば、Manus のマルチエージェント アーキテクチャは、リソースの取得、接続、情報の有効性の検証などのタスクの完了を支援し、ワークフロー全体を完了するのに役立つ複数のアシスタントのようなものです。これは、実際には「インターン」を雇用しただけでなく、「部門長」のミニチュア版に直接なったようなものです。
B2B ビジネスの場合、Manus は Web クローラーとコード作成および実行機能を使用して、インターネットの広大な海を自動的に検索し、製品の品質、価格、配送能力などの点で潜在的なサプライヤーを含む、お客様独自のニーズに基づいて最も適切な商品のソースをマッチングします。結論はチャートの形で直感的に提示されるだけではありません。また、これらのデータに基づいて、より詳細な運用上の提案を提供することもできます。
Manus は B2B シナリオのニーズを満たし、単一プラットフォームの組み込みツールよりも優れている可能性があります | 画像ソース: Geek Park
モニカのチームがビデオ効果を実現するためにどのような技術をどのように使用したかについては、報道によると、チームは北京時間3月6日にそれを公開する可能性があるとのことだ。
03.「縫い」の究極は爆発
Manus の背後にある会社、Monica.im とはどのような会社ですか?
MonicaはオールインワンのAIアシスタントです。製品形態はブラウザプラグインからアプリ、ウェブページへと徐々に拡大しています。主流の使用シナリオは、ユーザーがブラウザで小さなアイコンをクリックすると、アクセスする主要な主流モデルを直接使用できるというものです。セグメント化されたシナリオにおけるユーザーのニーズを正確に理解することで、モニカは大きなモデルの「簡単に達成できる成果」を選択しました。
創業者のシャオ・ホン(愛称はシャオホン、英語名はレッド)は、1992年生まれの若き連続起業家で、華中科技大学を卒業した。 2015年、彼は卒業後に自分のビジネスを立ち上げましたが、初期の起業は順調ではありませんでした(キャンパスソーシャルネットワーキングや中古品市場など)。 2016年にWeChatパブリックアカウント運営者向けに編集・データ分析ツールを提供する事業を開始し、数百万人のユーザーを獲得し、収益化を達成。最終製品は2020年にユニコーン企業に売却された。
2022年の大きなモデルの波の後、彼は正式にモニカを設立し、海外市場に注力し、Google向けの独立開発者向け製品ChatGPTを通じて製品のコールドスタートを迅速に完了しました。
2024年に、モニカはGPT-4o、Claude 3.5、OpenAI o1シリーズが発売され次第、ユーザーが最新のSOTAモデルを入手できるようにします。アクセスモデルの新たな進歩により、モニカの専門検索、DIYボット、アーティファクトミニプログラムの作成、メモリなどの機能もユーザーに人気があります。 Monica は、YouTube、Twitter、Gmail、The Information など、さまざまな機能を備えた Web ページでさまざまなインタラクティブなフォームと機能を提示し、特定のシナリオでのユーザーのニーズに適応し、数百の Web ページのパーソナライズされた AI エクスペリエンスを更新しました。
2024年までに、モニカのユーザー数は倍増して1,000万人になります。同時に、かなりの収益性を維持しており、海外の類似製品の中でもトップクラスに位置しています。
モニカの力強いパフォーマンスは一つのことを証明しています。
シェルを極限まで追求すると、TPF と PMF の両方となり、最終的にはユーザー価値につながります。
モニカホーム | 画像提供: モニカ
マヌスはモニカのチームのアイデアを引き継いだのかもしれません。シャオ・ホンはメディア関係者のチャン・シャオジュンにインタビューされたとき、製品はチャットボットだけではいけないと述べました。エージェントは新しい製品が引き継ぐ新しい形式になります。
彼は AI プログラミング製品の cursor と Devin からインスピレーションを得ました。 Geek Parkによれば、前者は主に副操縦士モード、後者は自動操縦モードであり、後者の方が人間のニーズに沿ったものとなっている。エージェントもデビンのように一般大衆と向き合い、実行に関しては AI によって真に主導されるべきです。しかし、これまでの問題は、モデルが十分にスマートではなかったことです。
しかし、モデルに基づいてシーンベースのパッケージング サービスを提供できる能力は、モニカのチームの強みかもしれません。 Xiao Hong 氏は、現在 Agent 製品チームはそれほど多くないと述べました。これは、多くの複雑な機能が必要になるためです。たとえば、チームはチャットボット、AI プログラミング、ブラウザ関連 (すべてがブラウザ上で実行されるため) の経験を持ち、モデルの境界 (現在どのレベルまで開発されているか、次にどのレベルまで開発されるかなど) をよく理解している必要があります。
「これらすべての機能を同時に備えている企業は多くありません。そうした企業は、非常に特殊なビジネスに取り組んでいるかもしれませんが、私たちには、これを成し遂げるために一緒に働く時間のある同級生がたまたまいるのです」と彼は語った。
モニカはなぜこのアイデアを思いついたのでしょうか。彼は次のように結論づけました。「まず、私たちは幸運だと思います。次に、ある程度、今日誰もが推論を行っているのであれば、スタートアップのための時間が増えるかもしれません。このモデルは、能力の波及効果をどの程度予測できるでしょうか。」
彼は、エージェントはまだ初期段階にあると考えています。まず、エージェントはまだ計画段階にあり、物理世界ではまだ実行されていません。次に、大規模モデルの機能はまだ開発中であり、すべてが予測不可能です。
「エージェントがこのような方法で排除されるかどうかは、まったくわかりません。未知のことです」と彼は語った。
興味深いのは、「エージェントになる方法を知らなかった」モニカが、今では AI コミュニティ全体に衝撃を与える製品を作成したことです。
Manus は必ずしも最終的な AI エージェントではないかもしれませんが、DeepSeek の人気を受けて、人々の AI に対する期待を桁違いに高めたことは間違いありません。
*ヘッダー画像出典: Monica.im