원문: " AI 에이전트의 "GPT 모멘트", 마누스가 AI 서클 전체를 깨웠다! 》
저자: Shiyun Zhang Yongyi
편집자: Jingyu
2025년은 AI Agent의 원년입니다. 이 말은 베이징 시간으로 3월 6일 이른 아침에 실현되었습니다.
"DeepSeek 이후, 기술 커뮤니티는 또 다시 잠 못 이루는 밤을 보냈습니다."
많은 사용자가 소셜 미디어에 이런 댓글을 남겼습니다.
모두가 밤새도록 제품을 사용할 수 있는 초대 코드를 기다리며 기다렸습니다. 바로 Monica.im이 개발한 세계 최초의 AI 에이전트 제품인 "Manus"였습니다.
팀에 따르면, "마누스"는 다양하고 복잡하고 변화하는 작업을 해결할 수 있는 진정한 자율 AI 에이전트입니다. 기존 AI 비서와는 달리 Manus는 제안이나 답변을 제공하는 데 그치지 않고, 완전한 작업 결과를 직접 전달합니다.
Manus의 소개 영상은 4분 길이에 불과하지만, 정말 강력합니다. 이미지 출처: Monica.im
"마누스"라는 이름에서 알 수 있듯이 라틴어로 "손"을 상징합니다. 다시 말해, 지식은 뇌에만 있는 것이 아니라 손으로도 실행 가능해야 합니다. 이는 에이전트와 AI 봇(챗봇) 제품의 필수적인 발전입니다.
마누스 소는 어디에 있나요? 가장 직관적인 방법은 공식 웹사이트에 표시되고 사용자가 자발적으로 표시하는 사용 사례를 보는 것입니다. Geek Park 섹션은 다음과 같이 요약됩니다.
- 여행 계획: 여행 정보를 통합할 뿐만 아니라, 사용자를 위한 맞춤형 여행 가이드를 작성합니다. 예를 들어, 4월에 일본 여행을 계획하는 사용자에게는 개인화된 여행 조언과 자세한 매뉴얼을 제공합니다.
- 주식 분석: 심층적인 주식 분석을 실시하고 시각적으로 매력적인 대시보드를 디자인하여 포괄적인 주식 통찰력을 보여줍니다. 예를 들어, 테슬라 주식에 대한 심층 분석을 수행하고 시각적 대시보드를 만듭니다.
- 교육 콘텐츠 제작: 운동량 정리와 같은 복잡한 개념을 설명하는 중등학교 교사용 비디오 프레젠테이션을 제작하여 교사가 더욱 효과적으로 가르칠 수 있도록 돕습니다.
- 보험 정책 비교: 명확한 보험 정책 비교 표를 만들고 사용자가 가장 적합한 보험 상품을 선택할 수 있도록 최상의 결정 제안을 제공합니다.
- 공급업체 소싱: 전체 네트워크에 걸쳐 심층 조사를 수행하여 귀하의 요구 사항에 가장 적합한 공급업체를 찾고 진정으로 공정한 대리인으로서 귀하에게 서비스를 제공합니다.
- 재무 보고서 분석: 연구 및 데이터 분석을 통해 특정 회사(예: Amazon)에 대한 시장 감정의 변화를 파악하고 지난 4분기에 대한 시장 감정 분석을 제공합니다.
- 스타트업 기업 목록 작성: 관련 웹사이트를 방문하여 적격 기업을 찾아 표로 정리합니다. 예를 들어, YC W25 배치의 모든 B2B 회사 목록을 정리합니다.
- 온라인 매장 운영 분석: Amazon 매장 판매 데이터를 분석하여 실행 가능한 통찰력, 자세한 시각화 및 맞춤형 전략을 제공하여 판매 실적을 개선하는 데 도움이 됩니다.
- 에이전트가 긴 사고와 도구 호출을 거쳐 마침내 매우 완전하고 전문적인 결과를 출력하면, 사용자들은 "이게 정말 사람이 일을 하는 데 도움이 될 수 있구나"라고 외치기 시작합니다.
공식 웹사이트에 따르면, Manus는 일반 AI 보조자가 현실 세계의 문제를 해결하는 능력을 평가하는 GAIA 벤치마크에서 세 가지 난이도 수준 모두에서 새로운 최첨단(SOTA) 성능을 달성했습니다.
한 문장으로 요약하자면, 마누스가 원하는 것은 문자 그대로 디지털 세계에서 여러분의 "에이전트"가 되는 것입니다. 그리고 그렇게 되었습니다.
여러분이 상상할 수 있듯이, 이른 아침에 마누스가 발사되자 AI계의 모든 사람들이 깨어났습니다!
01. 디지털 에이전트, 마누스
우선, 경험 측면에서 마누스와 이전 LLM의 가장 큰 차이점은 다음과 같습니다.
단순한 '대답'을 하는 것보다는 최종 결과를 직접 전달하는 능력을 강조합니다.
Manus는 현재 Multiple Agent 아키텍처를 사용하고 있으며 Anthropic이 이전에 출시한 Computer Use와 비슷한 방식으로 작동하며 완전히 독립적인 가상 머신에서 실행됩니다. 동시에, 가상 환경에서 다양한 도구를 호출하여 코드를 작성하고 실행하고, 웹을 탐색하고, 애플리케이션을 작동하는 등 완전한 결과를 직접 제공할 수 있습니다.
공식 영상에서는 Manus가 실제 사용 시나리오에서 완료한 세 가지 작업 사례가 소개됩니다.
첫 번째 작업은 이력서를 검토하는 것입니다.
15개 이력서에서 강화 학습 알고리즘 엔지니어 직책에 적합한 후보자를 추천하고 강화 학습 전문성을 기준으로 후보자의 순위를 매겨보세요.
이 데모에서는 압축 파일을 압축 해제하거나 이력서 파일을 하나하나 수동으로 업로드할 필요조차 없습니다. 이 시점에서 마누스는 이미 인간 "인턴"의 모습을 보여줬습니다. 그는 파일을 수동으로 압축 해제하고 각 이력서 페이지를 하나하나 훑어보며 중요한 정보를 기록했습니다.
인턴처럼 마누스는 "사장이 던진 패키지 파일을 압축 해제하세요"라는 숨겨진 지시를 자동적으로 이해했다 | 이미지 출처: Geek Park
마누스가 제공한 결과에는 자동 생성된 순위 제안이 포함될 뿐만 아니라, 업무 경험과 같은 중요한 측면을 기반으로 후보자를 다양한 레벨로 나눕니다. 사용자가 콘텐츠를 Excel 표 형식으로 제시하는 것을 선호한다는 정보를 받은 후, Manus는 그 자리에서 Python 스크립트를 작성하여 자동으로 해당 표를 생성할 수도 있습니다.
마누스는 이 연습 중에 "사용자는 표로 결과를 받는 것을 선호한다"와 같은 정보를 기록하기 위해 자신의 기억을 사용할 수도 있습니다. 다음에 비슷한 작업 결과를 다룰 때 그는 표로 결과를 제시하는 것을 우선시할 것입니다.
마누스는 콘텐츠 생성 과정에서 사용자 선호도를 기억할 수 있다 | 이미지 출처: Geek Park
두 번째 사례는 중국인에게 더 적합한 부동산 선택입니다.
이 경우, 사용자는 뉴욕에서 부동산을 구매하고자 하며, 그가 입력하는 요구 사항은 안전한 지역 사회 환경, 낮은 범죄율, 고품질 초등 및 중등 교육 자원을 원한다는 것입니다. 물론 가장 중요한 것은 이를 감당할 수 있는 충분한 예산인데, 이는 고정된 월 수입으로 충당할 수 있어야 합니다.
이러한 요구에 따라 Manus AI는 안전한 동네 조사, 좋은 학교 찾기, 예산 계산, 부동산 검색 등 복잡한 작업을 할 일 목록으로 나눕니다. 그리고 인터넷을 검색하고 뉴욕에서 가장 안전한 동네에 대한 기사를 주의 깊게 읽어 관련 정보를 수집하세요.
두 번째로, 마누스는 사용자의 소득에 따라 저렴한 부동산 예산을 계산하는 Python 프로그램을 작성했습니다. 부동산 웹사이트의 관련 주택 가격 정보와 결합하여 예산 범위에 따라 매물 목록을 필터링하세요.
Manus는 사용자 요구 사항을 충족하지 않는 속성을 자동으로 검색하고 필터링할 수 있습니다. | 이미지 출처: Geek Park
마지막으로, Manus는 수집된 모든 정보를 동네 안전 분석, 학교 품질 평가, 예산 분석, 추천 부동산 목록, 관련 리소스에 대한 링크 등이 포함된 자세한 보고서에 통합합니다. 이는 전문 부동산 중개인이 하는 일과 똑같습니다. 그리고 마누스는 '완전히 사용자 관심사에 기반'이라는 속성을 가지고 있기 때문에 사용 경험이 더욱 뛰어납니다.
마지막 사례에서, 마누스는 주가 분석 능력을 보여주었습니다.
이 사례에서 주어진 과제는 지난 3년 동안 NVIDIA, Marvell Technology, TSMC의 주가 간의 상관관계를 분석하는 것입니다. 이 3개 주식 간에 밀접한 상관관계가 있다는 것은 잘 알려진 사실이지만, 초보자에게는 인과관계를 빠르게 파악하기 어렵습니다.
Manus의 운영은 실제 주식 중개인의 운영과 매우 유사합니다. 먼저 API를 통해 Yahoo Finance와 같은 정보 웹사이트에 액세스하여 과거 주식 데이터를 얻습니다. 또한 최종 결과에 상당한 영향을 미칠 단일 정보 출처에 의해 오도되는 것을 피하기 위해 데이터의 정확성을 교차 검증합니다.
이 경우, Manus는 또한 Python 코드를 작성하고, 데이터 분석 및 시각화를 수행하고, 분석을 위한 전문적인 금융 도구를 도입하는 능력을 사용했습니다. 궁극적으로 그는 데이터 시각화 차트와 자세한 포괄적 분석 보고서를 통해 사용자에게 인과 관계에 대한 피드백을 제공했습니다. 금융 분야의 "인턴"의 일상 업무와 매우 흡사합니다.
그뿐만 아니라, Manus 공식 웹사이트는 Manus를 사용할 수 있는 12가지 이상의 시나리오를 표시합니다. Manus를 직접 사용하여 여행 일정을 구성하고, 개인화된 여행 경로를 추천하고, 다양하고 복잡한 도구를 사용하는 방법을 학습시켜 일상 업무를 간소화된 방식으로 완료할 수 있습니다.
이 과정에서 Manus를 이전 도구와 정말로 차별화하는 점은 작업 실행을 보장하기 위해 자율적으로 계획을 세울 수 있는 능력입니다.
자율학습 능력은 마누스의 작업 능력 향상 논리를 실제 인간과 더욱 유사하게 만들어줍니다. 아직 특정 분야에서 전문가 수준의 능숙도를 달성할 수는 없더라도, 이미 엄청난 잠재력을 확인할 수 있습니다.
자율 학습 기능이 추가되어 AI Agent의 다양성이 크게 향상되었습니다. Manus에서 실제 사용자 테스트를 진행하면 비디오 화면에서 관련 콘텐츠를 직접 설명할 수도 있습니다. Manus는 결국 해당 정보를 기반으로 특정 Douyin 단편 비디오에 대한 링크를 직접 찾을 수 있으며, 검색 엔진의 플랫폼 콘텐츠 제한을 초월합니다.
현재 버전의 Manus는 클라우드에서 완전히 비동기적으로 실행되므로 Manus의 기능은 실제로 터미널 플랫폼 형태나 사용하는 컴퓨팅 성능과 같은 요소에 의해 제한되지 않습니다. 사용자는 Manus에 지시를 내린 후 일시적으로 컴퓨터를 끌 수도 있고, Manus가 활동 결과를 완료하면 자동으로 결과를 알려줍니다.
이러한 작업의 논리도 매우 친숙합니다. 마치 퇴근 후 위챗에서 인턴에게 전화해 "문서가 준비되면 보내줘"라고 하는 사람과 같습니다. 하지만 지금은 이 인턴이 정말 24시간 내내 당신에게 대응할 수 있고, 당신은 그가 "직장을 재정비"하는 것에 대해 걱정할 필요가 없습니다.
02. 다중 에이전트 + AI Agent 흐름을 실행하기 위한 자체 검사
위의 사례에서 볼 때, Manus의 진짜 킬러 기능은 Computer Use에 등장한 'AI Agent'라는 개념이 아니라 '인간이 일하는 방식을 시뮬레이션하는' 능력이라는 것을 알아내는 것은 어렵지 않습니다.
마누스의 작업 논리는 '계산을 실행하는 것'이라기보다는 '명령을 생각하고 실행하는 것'에 더 가깝습니다. 현재 인간이 할 수 없는 일은 아무것도 하지 않습니다. 그래서 현재 버전의 Manus를 경험한 일부 사용자는 이를 "인턴"이라고 설명합니다.
Manus 공식 웹사이트에는 Manus가 수행할 수 있는 다양한 작업이 표시되어 있으며, 여기에는 Manus를 B2B 비즈니스에서 사용하는 방법을 보여주는 사례 연구도 포함되어 있습니다. 전 세계 공급업체와 귀하의 주문 요구 사항을 빠르고 정확하게 일치시켜 드립니다.
유사한 요구 사항을 가진 기존 제품에서는 사용자가 공급자/수요 매칭을 완료할 수 있도록 플랫폼에 글로벌 공급망 기업 정보를 통합하는 것이 업계의 공통적인 논리입니다. 하지만 마누스의 경우에는 완전히 다른 방식으로 구현이 가능합니다.
Manus AI는 "Multiple Agent"라는 아키텍처를 사용하고 독립적인 가상 머신에서 실행됩니다. 기획대행자, 집행대행자, 검증대행자의 업무분담과 협력 메커니즘을 통하여. 병렬 컴퓨팅을 통해 복잡한 작업의 처리 효율성을 크게 향상시키고 응답 시간을 단축합니다.
이 아키텍처에서 각 에이전트는 독립적인 언어 모델이나 강화 학습 모델을 기반으로 하며, API 또는 메시지 큐를 통해 서로 통신할 수 있습니다. 동시에 각 작업은 다른 작업을 방해하지 않기 위해 샌드박스에서 실행되며, 동시에 클라우드 확장을 지원합니다. 각 독립적인 모델은 먼저 생각하고 계획을 세우고, 복잡한 지침을 이해하고 실행 가능한 단계로 분해한 다음 적절한 도구를 호출하는 것과 같은 인간의 업무 처리 과정을 모방할 수 있습니다.
다시 말해, Manus의 다중 에이전트 아키텍처를 통해 리소스 검색, 연결, 정보 유효성 확인 등의 작업을 완료하는 데 도움을 주는 여러 명의 보조자와 같으며 전체 워크플로를 완료하는 데 도움을 줍니다. 이는 실제로 "인턴"을 고용한 것과 같을 뿐만 아니라 "부서장"의 소형 버전이 되는 것과 같습니다.
B2B 사업의 경우, Manus는 웹 크롤러와 코드 작성 및 실행 기능을 사용하여 광활한 인터넷에서 자동으로 검색하고 제품 품질, 가격, 배송 능력 등 측면의 잠재적 공급업체를 포함하여 귀하의 요구 사항을 기반으로 가장 적합한 상품 공급원과 매치시킵니다. 결론은 차트 형태로 직관적으로 제시될 수 있을 뿐만 아니라, 또한 이러한 데이터를 기반으로 더욱 자세한 운영 제안을 제공할 수도 있습니다.
Manus는 B2B 시나리오의 요구 사항을 충족하며 단일 플랫폼의 내장 도구보다 더 나을 수 있습니다. | 이미지 출처: Geek Park
모니카 팀이 비디오 효과를 얻기 위해 어떤 기술을 사용했는지에 대한 보도에 따르면, 팀은 베이징 시간으로 3월 6일에 모든 사람에게 이를 공개할 가능성이 있다고 합니다.
03. '스티칭'의 궁극은 폭발이다
마누스를 만든 회사인 Monica.im은 어떤 회사인가요?
모니카는 올인원 AI 어시스턴트입니다. 제품 형태는 브라우저 플러그인에서 앱과 웹 페이지로 점차 확장되었습니다. 일반적인 사용 시나리오는 사용자가 브라우저에서 작은 아이콘을 클릭하면 해당 아이콘이 접근하는 주요 주류 모델을 직접 사용할 수 있다는 것입니다. 모니카는 세분화된 시나리오에서 사용자의 요구 사항을 정확하게 이해함으로써 큰 모델에서 "쉽게 따먹을 수 있는 목표"를 선택했습니다.
창립자 샤오홍(애칭 샤오홍, 영어 이름 레드)은 1992년 태어난 젊은 연쇄 창업가로, 화중과학기술대학교를 졸업했습니다. 그는 졸업 후 2015년에 자신의 사업을 시작했지만, 그의 초기 사업적 모험은 순탄치 않았습니다(캠퍼스 소셜 네트워킹과 중고 시장 등). 2016년 그는 WeChat 공개 계정 운영자에게 편집 및 데이터 분석 도구를 제공하는 사업을 시작하여 수백만 명의 사용자를 확보하고 수익성을 달성했습니다. 최종 제품은 2020년 유니콘 회사에 매각되었습니다.
2022년 큰 모델 붐 이후 그는 해외 시장을 중심으로 Monica를 정식으로 설립했고, 구글의 독립 개발자 제품인 ChatGPT를 통해 제품의 콜드 스타트를 빠르게 완료했습니다.
2024년에는 Monica에서 GPT-4o, Claude 3.5, OpenAI o1 시리즈가 출시되는 즉시 사용자들이 최신 SOTA 모델을 구매할 수 있도록 할 예정입니다. 접속 모델의 새로운 진전과 함께 모니카의 전문가 검색, DIY 봇, 아티팩트 미니 프로그램 작성, 메모리 및 기타 기능도 사용자들에게 인기를 얻고 있습니다. 모니카는 YouTube, Twitter, Gmail, The Information과 같이 다양한 기능을 갖춘 웹 페이지에서 다양한 대화형 양식과 기능을 제공하여 특정 시나리오에서 사용자 요구 사항에 맞게 조정하고 수백 개의 웹 페이지에서 개인화된 AI 경험을 업데이트했습니다.
2024년이 되면 모니카 사용자 수는 두 배로 늘어나 1,000만 명이 될 것입니다. 동시에 상당한 수익성을 유지하고 있으며, 해외 유사 제품들 중에서는 상위권에 속합니다.
모니카의 강력한 성과는 한 가지 사실을 증명합니다.
셸을 극단적으로 활용하면 TPF와 PMF가 모두 발생하고 궁극적으로 사용자 가치로 이어집니다.
Monica Home | 이미지 출처: Monica
마누스는 모니카 팀의 아이디어를 이어받았을 수도 있다. 샤오홍이 미디어인 장샤오쥔과 인터뷰를 했을 때, 그는 제품이 챗봇일 뿐만 아니라 에이전트는 새로운 제품이 인수해야 하는 새로운 형태가 될 것이라고 말했다.
그는 AI 프로그래밍 제품인 커서와 데빈으로부터 영감을 얻었습니다. 긱 파크에 따르면, 전자는 주로 부조종 모드이고 후자는 자동 조종 모드이며, 후자는 인간의 요구에 더 부합합니다. 에이전트도 데빈처럼 일반 대중을 상대해야 하며 실행은 AI의 지휘를 받아야 합니다. 하지만 과거의 문제는 모델이 충분히 똑똑하지 못했다는 것이었습니다.
하지만 모니카 팀의 장점은 모델에 기초한 장면 기반 패키징 서비스를 제공하는 능력일 수 있습니다. 샤오 홍은 현재 Agent 제품 팀이 많지 않은 이유는 복잡한 역량이 많이 필요하기 때문이라고 말했습니다. 예를 들어, 팀은 챗봇, AI 프로그래밍, 브라우저 관련(모든 것이 브라우저에서 실행되기 때문)에 대한 경험이 있어야 하며 모델의 경계에 대한 좋은 감각이 있어야 합니다. 즉, 현재 어느 수준까지 발전했는지, 앞으로 어느 수준까지 발전할지 등을 알아야 합니다.
"이 모든 역량을 동시에 갖춘 회사는 많지 않고, 그런 역량을 갖춘 회사라도 매우 구체적인 사업을 담당하고 있을 수 있지만, 우연히도 이를 함께 해낼 수 있는 시간이 있는 동창들이 있습니다."라고 그는 말했다.
모니카가 왜 이런 생각을 했을까요? 그는 "첫째, 우리는 운이 좋다고 생각합니다. 둘째, 어느 정도 오늘날 모든 사람이 추론을 한다면, 아마도 스타트업을 위한 시간이 더 많아질 것입니다. 이 모델은 역량의 스필오버를 얼마나 예측할 수 있을까요?"라고 결론지었습니다.
그는 Agent가 아직 초기 단계에 있다고 믿고 있습니다. 첫째, 에이전트는 아직 계획 단계에 있으며 물리적 세계에서 아직 실행되지 않았습니다. 둘째, 대규모 모델의 기능은 아직 개발 중이며 모든 것이 예측 불가능합니다.
"에이전트가 이런 식으로 꺼질 수 있다는 건 확실히 모르겠어요. 알려지지 않은 일이에요."라고 그는 말했다.
흥미로운 점은 "에이전트가 되는 법을 몰랐던" 모니카가 이제 AI 커뮤니티 전체를 충격에 빠뜨린 제품을 만들어냈다는 것입니다.
마누스가 반드시 최종적인 AI 에이전트는 아닐지 몰라도, DeepSeek의 인기 이후 사람들의 AI에 대한 기대치를 한 단계 높인 것은 의심할 여지가 없습니다.
*헤더 이미지 출처: Monica.im