저자: YBB 캐피탈 연구원 Zeke
1. 관심에서 시작되는 새로운 것에 대한 선호와 오래된 것에 대한 혐오
지난 1년 동안 암호화 분야는 인프라 폭발 속도에 맞춰 애플리케이션 레이어 내러티브를 맞추지 못하면서 점차 관심을 끌기 위한 게임으로 바뀌었습니다. Silly Dragon에서 Goat까지, Pump.fun에서 Clanker까지, 관심을 끌기 위한 싸움은 점점 더 복잡해지고 있습니다. 가장 진부한 눈길을 끄는 구현에서 시작하여 관심 수요자와 공급자가 통합된 플랫폼 모델로 빠르게 변화했으며, 실리콘 기반 유기체가 새로운 콘텐츠 제공자가 되었습니다. Meme Coin의 다양한 이상한 통신사 중에서 마침내 소매 투자자와 VC가 합의에 도달할 수 있는 존재가 있습니다. 바로 AI Agent입니다.
관심은 궁극적으로 제로섬 게임이지만 추측은 실제로 일을 격렬하게 만들 수 있습니다. UNI에 대한 기사에서 우리는 블록체인의 마지막 황금 시대의 시작을 검토했습니다. DeFi의 급속한 성장 이유는 수천, 심지어 수십 개의 다양한 채굴 풀에서 수행되었던 컴파운드 파이낸스(Compound Finance)가 시작한 LP 채굴 시대에서 비롯되었습니다. 수천 개의 Apy를 들어오고 나가는 것은 그 기간 동안 체인에서 게임을 하는 가장 원시적인 방법이었지만 최종 상황은 다양한 채굴 풀이 무너져 깃털로 뒤덮였습니다. 그러나 금 채굴자들의 미친 유입은 실제로 블록체인에 전례 없는 유동성을 남겼습니다. DeFi는 마침내 순수한 투기에서 벗어나 결제, 거래, 차익거래, 스테이킹 등 모든 측면에서 사용자의 요구를 충족하는 성숙한 트랙을 형성했습니다. 재정적 필요. AI 에이전트도 이 단계에서 이 야만적인 단계를 겪고 있습니다. 우리가 탐구하고 있는 것은 어떻게 Crypto가 AI를 더 잘 통합하고 궁극적으로 애플리케이션 계층을 새로운 차원으로 끌어올릴 수 있는지입니다.
2. 지능형 에이전트는 어떻게 자율화되나요?
이전 글에서는 AI Meme: Truth Terminal의 유래에 대해 간략하게 소개하였고, AI Agent의 미래 전망에 대해 이번 글에서는 먼저 AI Agent 자체에 초점을 맞췄다.
AI 에이전트의 정의부터 살펴보겠습니다. 에이전트는 AI 분야에서 오래되었지만 정의가 불분명한 용어입니다. 주요 강조점은 자율성입니다. 즉, 환경을 인식하고 반사할 수 있는 모든 AI를 에이전트라고 부를 수 있습니다. 오늘날의 정의에서 AI Agent는 지능형 에이전트, 즉 인간의 의사결정을 모방하기 위한 대규모 모델 시스템을 구축하는 것에 더 가깝습니다. 학계에서는 이 시스템을 AGI(Artificial General Intelligence)를 달성하는 가장 유망한 방법으로 간주합니다. ).
초기 GPT 버전에서는 대형 모델이 매우 인간과 유사하다는 것을 분명히 인식할 수 있었지만, 많은 복잡한 질문에 답할 때 대형 모델은 일부 그럴듯한 답변만 제공할 수 있었습니다. 본질적인 이유는 당시의 대형 모델이 인과관계보다는 확률에 기반을 두었기 때문입니다. 둘째, 인간이 이러한 단점을 보완할 수 있는 도구, 기억, 계획 및 기타 능력이 부족했습니다. 그래서 공식으로 정리하자면 AI Agent(지능형 에이전트) = LLM(대형 모델) + Planning(계획) + Memory(메모리) + Tools(도구)입니다.
프롬프트 단어(Prompt)를 기반으로 한 대형 모델은 입력할 때 더욱 정적인 사람에 가깝고, 지능형 에이전트의 대상은 더욱 실제 사람입니다. 현재 서클에 있는 지능형 에이전트는 주로 Meta의 오픈 소스 Llama 70b 또는 405b 버전을 기반으로 미세 조정된 모델입니다(둘은 서로 다른 매개변수를 가짐). API 액세스 도구를 기억하고 사용할 수 있지만 사람의 도움이나 입력이 필요할 수 있습니다. 다른 측면(다른 에이전트와의 상호 작용 및 협업 포함)을 통해 오늘날 서클의 주요 에이전트가 여전히 KOL의 형태로 소셜 네트워크에 존재한다는 것을 알 수 있습니다. 지능형 에이전트를 더욱 인간과 비슷하게 만들려면 계획 및 작업 기능에 대한 액세스가 필요하며 계획의 하위 사고 체인은 특히 중요합니다.
3. 생각의 사슬(CoT)
CoT(사고 사슬)의 개념은 Google이 2022년에 출판한 "Chain-of-Thought Prompting Elicits Reasoning in Large Language Models"라는 논문에서 처음 등장했습니다. 이 논문에서는 일련의 중간 언어 모델을 생성하여 모델을 향상할 수 있다고 지적했습니다. 추론 기능은 모델이 복잡한 문제를 더 잘 이해하고 해결하는 데 도움이 됩니다.
일반적인 CoT 프롬프트는 명확한 지침, 작업 설명, 이론적 근거 또는 작업 솔루션의 원리 예를 뒷받침하는 논리적 근거, 구체적인 솔루션 시연의 세 부분으로 구성됩니다. 이 구조화된 접근 방식은 모델이 작업 요구 사항을 이해하고 논리적 추론을 통해 점진적으로 접근하는 데 도움이 됩니다. . 답변을 제공하여 문제 해결의 효율성과 정확성을 향상시킵니다. CoT는 수학적 문제 해결, 프로젝트 보고서 작성 및 기타 간단한 작업과 같이 심층 분석과 다단계 추론이 필요한 작업에 특히 적합합니다. CoT는 뚜렷한 이점을 제공하지 않을 수 있지만 복잡한 작업의 경우 성능을 크게 향상시킬 수 있습니다. 모델의 단계별 해결 전략을 통해 오류율을 줄이고 작업 완료 품질을 향상시킵니다.
AI Agent를 구축할 때 CoT는 AI가 핵심적인 역할을 합니다. Agent는 수신된 정보를 이해하고 이를 기반으로 합리적인 결정을 내려야 합니다. CoT는 Agent가 질서 있는 사고 방식을 제공하여 입력된 정보를 효과적으로 처리하고 분석할 수 있도록 돕고, 분석 결과를 구체적인 행동 지침으로 변환하는 데 그치지 않습니다. 에이전트의 의사결정 능력의 신뢰성과 효율성을 높이고 의사결정 과정의 투명성도 높입니다. CoT는 에이전트의 행동을 보다 예측 가능하고 추적 가능하게 만들어 에이전트가 각 결정 지점을 신중하게 고려하고 정보 과부하로 인해 발생하는 잘못된 결정을 줄이는 데 도움이 됩니다. , 사용자가 에이전트의 의사 결정의 기초를 이해하는 것이 더 쉽습니다. CoT를 통해 환경과 상호작용하면서 에이전트는 지속적으로 새로운 정보를 학습하고 행동 전략을 조정할 수 있습니다.
효과적인 전략인 CoT는 대규모 언어 모델의 추론 기능을 향상시킬 뿐만 아니라 보다 지능적이고 안정적인 AI 에이전트를 구축하는 데 중요한 역할을 합니다. 연구원과 개발자는 CoT를 활용하여 복잡한 환경에 더 잘 적응하고 높은 수준의 자율성을 갖춘 지능형 시스템을 만들 수 있습니다. CoT는 특히 복잡한 작업을 처리할 때 작업을 일련의 작은 단계로 분해함으로써 작업 해결의 정확성을 향상시킬 뿐만 아니라 모델의 해석 가능성과 제어 가능성도 향상시킵니다. . 문제 해결을 위한 이러한 단계별 접근 방식은 복잡한 작업에 직면할 때 너무 많거나 너무 복잡한 정보로 인해 발생하는 잘못된 결정을 크게 줄일 수 있습니다. 동시에 이 접근 방식은 전체 솔루션의 추적성과 검증 가능성도 향상시킵니다.
CoT의 핵심 기능은 계획, 행동, 관찰을 결합하여 추론과 행동 사이의 격차를 줄이는 것입니다. 이 사고 모드를 통해 AI 에이전트는 발생할 수 있는 이상 상황을 예측할 때 효과적인 대응책을 수립하고, 외부 환경과 상호 작용하면서 새로운 정보를 축적하고, 미리 설정된 예측을 검증하고, 새로운 추론 기반을 제공할 수 있습니다. CoT는 AI 에이전트가 복잡한 환경에서 효율적인 작업 효율성을 유지할 수 있도록 돕는 강력한 정확성과 안정성 엔진과 같습니다.
4. 의사 요구 사항 수정
Crypto는 AI 기술 스택의 어떤 측면과 통합됩니까? 작년 기사에서는 컴퓨팅 성능과 데이터의 분산화가 중소기업과 개인 개발자의 비용 절감에 도움이 되는 핵심 단계라고 믿었습니다. Coinbase가 편집한 올해 Crypto x AI 세그먼트 트랙에서는 다음과 같은 세부적인 구분을 보았습니다.
(1) 컴퓨팅 계층(AI 개발자에게 그래픽 처리 장치(GPU) 리소스를 제공하는 데 중점을 둔 네트워크를 의미)
(2) 데이터 계층(AI 데이터 파이프라인의 분산 액세스, 조정 및 검증을 지원하는 네트워크를 의미)
(3) 미들웨어 계층(AI 모델 또는 에이전트의 개발, 배포 및 호스팅을 지원하는 플랫폼 또는 네트워크를 의미)
(4) 애플리케이션 계층(B2B이든 B2C이든 온체인 AI 메커니즘을 활용하는 사용자 중심 제품을 말합니다).
이들 4개의 부서 계층 각각은 원대한 비전을 갖고 있으며, 그 목표는 모두 인터넷을 지배하는 차세대 실리콘 밸리 거대 기업에 맞서 싸우는 것입니다. 작년에 제가 말했듯이, 우리는 실리콘밸리 거대 기업들의 컴퓨팅 파워와 데이터에 대한 독점적인 통제권을 정말로 받아들여야 합니까? 그들의 독점하에 있는 비공개 소스 대형 모델은 내부의 블랙박스입니다. 과학은 오늘날 인류의 가장 대중적인 종교입니다. 미래에는 대형 모델이 대답하는 모든 문장이 많은 사람들에게 진실로 간주될 것입니다. 진실은 어떻게 확인해야 할까요? 실리콘밸리 거대 기업의 비전에 따르면, 지능형 에이전트는 결국 지갑 결제 권한, 단말기 사용 권한 등 상상을 초월하는 권한을 갖게 될 것입니다.
탈중앙화가 유일한 답이지만 때로는 이러한 원대한 비전을 위해 얼마나 많은 구매자가 있는지 종합적으로 합리적으로 고려해야 할 필요가 있습니까? 과거에는 상용 폐쇄 루프를 고려하지 않고 이상화로 인해 발생하는 오류를 보완하기 위해 토큰을 사용할 수 있었습니다. 오늘날의 상황은 매우 심각하며, Crypto x AI는 실제 상황을 기반으로 설계해야 합니다. 예를 들어 성능이 저하되고 불안정할 때 컴퓨팅 파워 레이어의 양쪽 끝 공급 균형을 어떻게 맞출 수 있을까요? 중앙 집중식 클라우드의 경쟁력에 부응합니다. 데이터 레이어 프로젝트에는 얼마나 많은 실제 사용자가 있을 것인가? 제공된 데이터의 실제 유효성을 어떻게 검증할 것인가? 이 데이터가 필요한 고객은 누구인가? 다른 두 수준에도 동일하게 적용됩니다. 이 시대에는 겉보기에 정확해 보이는 의사 욕구가 그렇게 많이 필요하지 않습니다.
5. Meme의 SocialFi가 부족해졌습니다.
첫 번째 단락에서 말했듯이 Meme은 Web3와 일치하는 SocialFi 형식을 초고속 방식으로 개발했습니다. Friend.tech는 이번 라운드의 소셜 애플리케이션을 출시한 최초의 Dapp이었지만 열정적인 토큰 디자인에 의해 패배했습니다. Pump.fun은 토큰이나 규칙이 없는 순수 플랫폼의 타당성을 검증했습니다. 관심의 수요자와 공급자가 통합되어 있습니다. 플랫폼에서 밈을 게시하고, 라이브 방송을 하고, 메시지를 남기고, 거래할 수 있습니다. 모든 것이 무료입니다. 이는 충전 대상이 다르고 Pupm.fun의 게임 플레이가 Web3에 가깝다는 점을 제외하면 오늘날 YouTube 및 Instagram과 같은 소셜 미디어의 관심 경제 모델과 기본적으로 일치합니다.
Base의 Clanker는 모든 것의 마스터입니다. 생태계가 개인적으로 관리하는 통합 생태계 덕분에 Base는 완전한 내부 폐쇄 루프를 형성하는 데 도움이 되는 자체 소셜 Dapp을 보유하고 있습니다. 지능형 에이전트인 Meme은 Meme Coin의 2.0 형태입니다. 사람들은 항상 새로운 아이디어를 찾고 있으며, 이제 Pump.fun이 트렌드의 선두에 서게 되었습니다. 실리콘 기반 유기체에 대한 무작위 아이디어가 탄소 기반 유기체의 저속한 밈을 대체합니다.
Base를 여러번 언급했지만, 언급되는 내용은 매번 다릅니다. 타임라인을 보면 Base는 First Mover가 아닌 항상 승리자입니다.
6. 지능형 에이전트는 또 무엇이 될 수 있나요?
실용적인 관점에서 볼 때, 에이전트의 탈중앙화는 앞으로도 오랫동안 불가능할 것이며, 전통적인 AI 분야의 에이전트 구성으로 볼 때 단순히 추론 과정과 오픈 소스를 탈중앙화하는 것만으로는 해결할 수 없는 문제입니다. Web2 콘텐츠에 액세스하려면 다양한 API에 액세스해야 하고, 운영 비용이 매우 비싸다는 점입니다. 사고 체인의 설계와 다중 에이전트의 협업은 일반적으로 여전히 인간을 매개체로 합니다. UNI처럼 적절한 통합 형태가 나타날 때까지 우리는 긴 전환기를 겪게 될 것입니다. 하지만 이전 글처럼, 우리 업계에 Cex의 존재가 부정확하지만 중요한 것처럼, 지능형 에이전트가 우리 업계에 큰 영향을 미칠 것이라고 여전히 생각합니다.
지난달 Stanford & Microsoft가 발표한 기사 "AI 에이전트 개요"에서는 의료 산업, 지능형 기계 및 가상 세계에서 에이전트의 응용 프로그램을 광범위하게 설명합니다. 이 기사의 부록에는 많은 GPT-4V가 에이전트로 참여했습니다. 상위 3A 게임 개발 사례.
탈중앙화와의 결합 속도를 고집할 필요는 없습니다. 지능형 에이전트가 완성할 수 있는 첫 번째 퍼즐 조각은 밑바닥에서부터의 능력과 속도여야 합니다. 적절한 단계에서는 이를 차세대 UNI로 만드는 방법을 고려할 것입니다.
참고자료
대형모델의 '출현' 사고체인은 어떤 능력인가? 저자: 뇌극체
대형 모델의 다음 단계인 하나의 기사로 에이전트를 이해합니다. 저자: LinguaMind