소개: 2월 27일, Messari는 "분산형 물리적 AI 구축"이라는 주제로 팟캐스트를 진행했으며 FrodoBot Lab의 공동 창립자인 Michael Cho를 초대했습니다. 그들은 로봇 분야에서 분산형 물리적 인프라 네트워크(DePIN)의 과제와 기회에 대해 이야기했습니다. 이 분야는 아직 초기 단계이기는 하지만 엄청난 잠재력을 지니고 있으며 실제 세계에서 AI 로봇이 작동하는 방식을 완전히 바꿀 수 있습니다. 그러나 방대한 양의 인터넷 데이터에 의존하는 기존 AI와 달리 DePIN 로봇 AI 기술은 데이터 수집, 하드웨어 제한, 평가 병목 현상, 경제 모델의 지속 가능성 등 더 복잡한 문제에 직면합니다.
오늘의 게시물에서는 이 토론의 핵심 요점을 분석하고 DePIN 로봇이 직면한 문제, 분산형 로봇 확장의 주요 장벽, DePIN이 중앙 집중형 접근 방식보다 유리한 이유를 살펴보겠습니다. 마지막으로, DePIN 로봇공학의 미래를 살펴보고 DePIN 로봇공학에 대한 "ChatGPT 모멘트"가 있는지 알아보겠습니다.
DePIN 지능형 로봇의 병목 현상은 어디에 있을까?
마이클 조가 처음 프로도봇 개발을 시작했을 때, 가장 큰 고민은 로봇 기술의 비용이었습니다. 시중에 판매되는 상업용 로봇의 터무니없이 높은 가격 때문에 현실 세계에서 AI를 적용하는 것을 홍보하는 데 어려움이 있습니다. 그의 초기 해결책은 가격이 500달러에 불과한 저비용 자율 로봇을 만드는 것이었으며, 이를 통해 기존 프로젝트 대부분보다 가격을 낮추는 것을 목표로 했습니다.
하지만 그와 그의 팀이 연구 개발에 더욱 심도 있게 뛰어들면서 마이클은 비용이 진짜 병목이 아니라는 걸 깨달았습니다. 로봇공학에서 분산형 물리적 인프라 네트워크(DePIN)의 과제는 "비용이 많이 들까?"라는 단순한 문제보다 훨씬 더 복잡합니다. FrodoBotLab이 계속 발전함에 따라 DePIN 로봇 기술의 여러 가지 병목 현상이 점차 표면화되었습니다. 대규모 배포를 달성하려면 다음과 같은 병목 현상을 극복해야 합니다.
병목 현상 1: 데이터
방대한 양의 인터넷 데이터를 통해 훈련된 대규모 '온라인' AI 모델과 달리, 구체화된 AI는 지능을 개발하기 위해 실제 세계와 상호 작용해야 합니다. 문제는 현재 세계에는 이러한 대규모 인프라가 없으며, 이 데이터를 수집하는 방법에 대한 합의가 없다는 것입니다. 구현된 AI를 위한 데이터 수집은 세 가지 주요 범주로 분류할 수 있습니다.
▎첫 번째 범주는 인간의 조작 데이터로, 인간이 로봇을 수동으로 제어할 때 생성되는 데이터입니다. 이 데이터는 고품질이며 비디오 스트림과 액션 라벨(사람이 보는 것과 그들이 반응하는 것)을 포착합니다. 이는 AI가 인간의 행동을 모방하도록 훈련시키는 가장 효과적인 방법이지만, 비용이 많이 들고 노동 집약적이라는 단점이 있습니다.
▎두 번째 범주는 합성 데이터(시뮬레이션 데이터)로, 로봇이 복잡한 지형에서 움직이도록 훈련하는 데 유용하며, 험난한 지형에서 걷는 법을 로봇에게 훈련하는 것과 같은 용도로 사용되며 일부 특수 분야에 매우 유용합니다. 하지만 요리처럼 상황이 크게 달라지는 작업의 경우 시뮬레이션 환경은 잘 작동하지 않습니다. 로봇에게 계란을 튀기는 일을 훈련하는 것을 상상해보세요. 팬 유형, 기름 온도, 실내 조건이 조금만 바뀌어도 결과에 영향을 미치고, 가상 환경에서는 모든 시나리오를 포괄하기 어려울 겁니다.
▎세 번째 범주는 비디오 학습입니다. 이는 AI 모델이 실제 세계의 비디오를 관찰하여 학습하도록 하는 것입니다. 이러한 접근 방식은 잠재력이 있지만, 정보를 얻는 데 필요한 실제적이고 직접적인 상호작용 피드백이 부족합니다.
병목 현상 2: 자율성 수준
마이클은 프로도봇을 실제로 처음 테스트했을 때 주로 마지막 단계 배송에 로봇을 사용했다고 언급했습니다. 데이터로 판단해 보면, 실제로 결과는 매우 좋습니다. 로봇은 배송 작업의 90%를 성공적으로 완료했습니다. 하지만 현실적으로 10%의 실패율은 용납할 수 없습니다. 10건 중 1건이라도 배달에 실패하는 로봇은 상용화될 수 없습니다. 자동 주행 기술과 마찬가지로, 무인 자동차는 10,000번의 성공적인 주행 시도 기록을 가질 수 있지만, 단 한 번의 실패만으로도 상업 소비자들의 신뢰를 잃기에 충분합니다.
따라서 로봇이 정말로 유용하려면 성공률이 99.99%에 가까워야 하거나 그 이상이어야 합니다. 하지만 문제는 정확도가 0.001% 향상되려면 기하급수적으로 시간과 노력이 필요하다는 것입니다. 많은 사람들이 이 마지막 단계의 어려움을 과소평가합니다.
마이클은 2015년 구글의 자율주행차 프로토타입에 앉았을 때 완전 자율주행이 바로 코앞에 다가왔다고 느꼈다고 회상합니다. 10년이 지난 지금도 우리는 언제 레벨 5 완전 자율 주행을 달성할 것인지에 대해 논의하고 있습니다. 로봇공학의 진보는 선형적이지 않고 기하급수적으로 진행됩니다. 즉, 한 단계씩 나아갈수록 난이도는 극적으로 증가합니다. 이 마지막 1%의 정확도를 달성하려면 수년 또는 수십 년이 걸릴 수도 있습니다.
병목 현상 3: 하드웨어: AI만으로는 로봇 문제를 해결할 수 없다
다시 말해, AI 모델이 강력하더라도 기존 로봇 하드웨어는 아직 진정한 자율성을 달성할 준비가 되어 있지 않습니다. 예를 들어, 하드웨어에서 가장 쉽게 간과되는 문제는 촉각 센서가 부족하다는 것입니다. Meta AI의 연구와 같은 현재 최고의 기술도 여전히 인간 손가락의 민감도에는 미치지 못합니다. 인간은 시각과 촉각을 이용해 세상과 소통하지만, 로봇은 질감, 그립, 압력 피드백에 대한 지식이 거의 없습니다.
또한 폐쇄 문제도 있습니다. 물체가 부분적으로 차단되면 로봇이 물체를 인식하고 상호 작용하기 어렵습니다. 인간은 사물의 전체상을 볼 수 없더라도 직관적으로 이해할 수 있다.
인식 문제 외에도 로봇 액추에이터 자체에도 결함이 있습니다. 대부분의 인간형 로봇은 관절에 직접 액추에이터를 배치하여 부피가 크고 잠재적으로 위험합니다. 이와 대조적으로, 인간의 힘줄 구조는 더 부드럽고 안전한 움직임을 가능하게 합니다. 이것이 기존의 인간형 로봇이 딱딱하고 융통성이 없어 보이는 이유입니다. Apptronik과 같은 회사는 더욱 생물학적으로 영감을 받은 액추에이터 설계를 개발하고 있지만, 이러한 혁신이 성숙되기까지는 시간이 걸릴 것입니다.
병목 현상 4: 하드웨어 확장이 왜 그렇게 어려운가요?
컴퓨팅 능력에만 의존하는 기존 AI 모델과 달리, 지능형 로봇 기술을 구현하려면 실제 세계에 물리적 장치를 배치해야 합니다. 이는 엄청난 자본 문제를 야기합니다. 로봇을 만드는 데는 비용이 많이 들기 때문에, 가장 부유한 기업만이 대규모 실험을 감당할 수 있습니다. 가장 효율적인 인간형 로봇조차도 현재 수만 달러에 달하기 때문에 대규모 도입은 사실상 비현실적입니다.
병목 현상 5: 평가 효과
이는 "보이지 않는" 병목 현상입니다. 생각해보세요. ChatGPT와 같은 대규모 온라인 AI 모델은 새로운 언어 모델이 출시되면 거의 즉시 기능을 테스트할 수 있습니다. 전 세계의 연구자나 일반 사용자는 몇 시간 내에 해당 모델의 성능에 대한 결론을 도출할 수 있습니다. 그러나 물리적 AI를 평가하려면 실제 세계에 배포해야 하므로 시간이 걸립니다.
테슬라의 완전자율주행(FSD) 소프트웨어가 좋은 예입니다. 테슬라가 사고 없이 100만 마일을 달린다면, 그것은 정말로 레벨 5 자율주행을 달성했다는 걸 의미할까? 1,000만 마일은 어떻습니까? 로봇 지능의 문제점은 궁극적으로 어디에서 실패하는지 보는 것이 이를 검증하는 유일한 방법이라는 점인데, 이는 대규모의 장기 실시간 배포를 의미합니다.
병목 6: 인적 자원
과소평가된 또 다른 과제는 로봇 AI 개발에 있어 인간 노동이 여전히 없어서는 안 될 요소라는 것입니다. AI만으로는 충분하지 않습니다. 로봇을 작동시키려면 인간 작업자가 필요하고, 로봇을 계속 작동시키려면 유지 보수 팀이 필요하며, AI 모델을 지속적으로 최적화하려면 필수적인 연구자/개발자가 필요합니다. 클라우드에서 훈련할 수 있는 AI 모델과 달리 로봇은 인간의 지속적인 개입이 필요합니다. 이는 DePIN이 해결해야 했던 주요 과제였습니다.
미래: 로봇공학에 있어서 ChatGPT의 순간은 언제 올까?
일부 사람들은 봇의 ChatGPT 시대가 곧 올 것이라고 믿습니다. 마이클은 다소 회의적이었습니다. 그는 하드웨어, 데이터, 평가의 과제를 감안할 때 일반 로봇 AI가 대중화되기까지는 아직 먼 길이라고 생각합니다. 그럼에도 불구하고 DePIN의 로봇 기술의 발전은 희망을 제공합니다. 로봇 기술의 개발은 분산되어야 하며 몇몇 대기업에 의해 통제되어서는 안 됩니다. 분산형 네트워크의 규모와 조정을 통해 자본 부담을 분산할 수 있습니다. 대기업이 수천 대의 로봇에 대한 비용을 지불하도록 의존하는 대신, 기여할 수 있는 개인을 공유 네트워크에 배치하는 것이 가능합니다.
예를 들어, 첫째, DePIN은 데이터 수집 및 평가 속도를 높입니다. 단일 회사가 제한된 수의 로봇을 배치하여 데이터를 수집할 때까지 기다리는 대신, 분산형 네트워크는 병렬로 실행되어 훨씬 더 큰 규모로 데이터를 수집할 수 있습니다. 예를 들어, 최근 아부다비에서 열린 AI 대 인간 로봇 경연 대회에서 DeepMind와 UT Austin 등의 연구 기관의 연구자들은 AI 모델을 인간 플레이어와 비교 테스트했습니다. 인간이 아직 우위를 점하고 있지만, 연구자들은 실제 로봇 상호작용에서 수집한 독특한 데이터 세트에 대해 기대감을 갖고 있습니다. 이는 로봇의 다양한 구성 요소를 연결하는 하위 네트워크의 필요성을 강조합니다. 연구 커뮤니티의 열정은 완전한 자율성이 장기적인 목표로 남아 있더라도 DePIN 로봇공학이 데이터 수집 및 훈련부터 실제 배치 및 검증까지 실질적인 가치를 입증했다는 것을 보여줍니다.
반면, AI를 활용해 칩과 소재 엔지니어링을 최적화하는 등 AI 기반 하드웨어 설계 개선을 통해 타임라인을 크게 단축할 수도 있습니다. 구체적인 사례 중 하나는 FrodoBot Lab이 다른 기관과 협력하여 NVIDIA H100 GPU 상자 두 개를 확보했다는 것입니다. 각 상자에는 H100 칩이 8개 들어 있습니다. 이를 통해 연구자들은 로봇 배치에서 수집된 실제 데이터를 기반으로 AI 모델을 처리하고 최적화하는 데 필요한 컴퓨팅 능력을 확보할 수 있습니다. 이러한 컴퓨팅 리소스가 없다면 아무리 귀중한 데이터 세트라도 충분히 활용할 수 없습니다. DePIN 분산 컴퓨팅 인프라에 접근함으로써 로보틱스 네트워크는 전 세계 연구자들이 자본 집약적인 GPU 소유권에 구애받지 않고 모델을 훈련하고 평가할 수 있게 해줍니다. DePIN이 성공적으로 크라우드소싱을 통해 데이터를 수집하고 하드웨어를 발전시킬 수 있다면 로봇공학의 미래가 예상보다 빨리 도래할 수도 있습니다.
또한, 밈 토큰을 보유한 여행형 인플루언서 봇인 샘과 같은 AI 에이전트는 분산형 로봇 네트워크를 위한 새로운 수익 창출 모델을 보여줍니다. 샘은 자율적으로 운영되고, 여러 도시에서 24시간 내내 생중계하며, 밈 토큰의 가치가 증가하고 있습니다. 이 모델은 DEPIN 기반의 스마트 로봇이 분산된 소유권과 토큰 인센티브를 통해 어떻게 자체 재정을 유지할 수 있는지 보여줍니다. 미래에는 이러한 AI 에이전트가 토큰을 사용하여 인간 운영자에게 지원에 대한 비용을 지불하고, 추가 로봇 자산을 임대하거나, 실제 작업에 입찰할 수도 있을 것입니다. 이를 통해 AI 개발과 DePIN 참여자 모두에게 이익이 되는 경제적 순환이 형성될 것입니다.
최종 요약
로봇 AI의 개발은 알고리즘에만 의존하는 것이 아니라 하드웨어 업그레이드, 데이터 축적, 재정 지원, 인간의 참여 등도 포함합니다. 과거 로봇 산업의 발전은 높은 비용과 대기업의 독점으로 인해 제한을 받았으며, 이로 인해 혁신의 속도가 느려졌습니다. DePIN 로봇 네트워크의 구축은 분산형 네트워크의 힘으로 로봇 데이터 수집, 컴퓨팅 리소스 및 자본 투자를 글로벌 규모로 조정할 수 있음을 의미합니다. 이를 통해 AI 훈련 및 하드웨어 최적화가 가속화될 뿐만 아니라 개발 임계값이 낮아지고 더 많은 연구자, 기업가 및 개별 사용자가 참여할 수 있습니다. 또한 우리는 로봇 산업이 더 이상 몇몇 기술 거대 기업에 의존하지 않고, 글로벌 커뮤니티의 주도로 진정으로 개방적이고 지속 가능한 기술 생태계로 나아가기를 바랍니다.