출처: 석재 연구 노트
편집자 주:
2024년 말에는 국내 대형 모델사 그룹이 신제품을 출시해 AI가 여전히 뜨겁다는 사실을 실감케 할 예정이다. 실리콘밸리에서는 열띤 논의 끝에 AI 실무자들이 2025년 AI 산업에 대한 일부 합의와 다수의 '비합의'를 정리했다. 예를 들어 실리콘 밸리의 투자자들은 AI 기업이 '신종'이며 AI 애플리케이션이 2025년 투자 핫스팟이 될 것이라고 믿고 있습니다.
진추펀드는 지난 1월 11일부터 15일까지 실리콘밸리에서 A16Z, Pear VC, Soma Capital, Leonis Capital, Old Friendship Capital, OpenAI, xAI, Anthropic, Google, Meta, Microsoft, Apple, Tesla, Nvidia, ScaleAI, Perplexity, Character.ai , Midjourney, Augment, Replit, Codiuem, Limitless, Luma, Runway 및 기타 회사.
교환 후에는 이러한 전문가들의 의견을 요약하여 60가지 통찰력을 구성했습니다.
01 모델
1. LLM의 사전 훈련 단계는 병목 현상에 가깝습니다.
하지만 아직 사후 훈련의 기회가 많이 남아 있습니다.
사전 훈련 단계에서는 스케일링 속도가 느려지고 포화되기까지는 아직 시간이 걸립니다.
속도 저하 이유: 구조 > 컴퓨팅 성능 > 데이터(단일 모델).
하지만 다중 모델에서는 데이터 = 컴퓨팅 성능 > 구조입니다.
MultiModel의 경우 여러 양식의 조합을 선택해야 합니다. 기존 아키텍처에서는 사전 학습이 끝난 것으로 간주할 수 있지만 새로운 아키텍처로 수정될 수 있습니다.
현재 사전 훈련에 대한 투자가 적은 이유는 주로 제한된 자원 때문이며 사후 훈련의 한계 이익은 더 높을 것입니다.
2. Pre-training과 RL의 관계
사전 훈련은 데이터 품질에 크게 신경 쓰지 않습니다.
Post-training은 데이터 품질에 대한 요구사항이 높지만 컴퓨팅 파워의 한계로 인해 마지막 몇 부분에서는 고품질 데이터가 필요합니다.
사전 훈련은 모방이며 모방만 할 수 있습니다.
RL은 창조이며 다양한 일을 할 수 있습니다
먼저 Pre-training이 있고 그 다음 Post-training에 RL이 있습니다. 모델은 RL을 타겟팅할 수 있도록 기본 기능을 갖추고 있어야 합니다.
RL은 모델의 지능을 변경하는 것이 아니라 사고 모드를 변경합니다. 예를 들어, RL을 사용하여 C.AI에서 참여를 최적화하는 것은 매우 효과적입니다.
3. 대형 모델 최적화는 제품 성능에 영향을 미칩니다
일반적으로 C.AI는 다양한 모델을 사용하여 다양한 그룹과 연령대에 서비스를 제공하는 사후 교육 부분에 있습니다.
다음은 멀티에이전트 프레임워크입니다. 모델은 이 문제를 해결하기 위해 무엇을 해야 할지 생각한 다음 이를 다른 에이전트에 할당합니다. 각 에이전트가 작업을 완료한 후 해당 작업을 수행하고 최종 결과가 최적화됩니다.
4. 일부 비합의가 내년에 합의에 도달할 수도 있음
이전에도 좋은 소형 모델이 많았기 때문에 굳이 다른 모델을 만들 필요가 없을 수도 있습니다.
지금은 큰 모델이 1년 뒤에는 작은 모델이 됩니다.
모델 아키텍처가 변경될 수 있습니다. 새클링 법칙이 도래했고 앞으로 논의할 문제인 지식 모델 디커플링이 더 빨라질 수도 있습니다.
5. LLM 분야에서 스케일링 법칙이 끝나게 되면서 클로즈드 소스와 오픈 소스 간의 격차가 줄어들고 있습니다.
6. 영상 생성은 아직 GPT1, 2 시점에 있습니다.
현재 영상 수준은 SD1.4 버전에 가깝다. 앞으로는 상용 제품과 비슷한 성능을 갖춘 영상 오픈소스 버전도 나올 예정이다.
현재 문제는 데이터 세트입니다. 이미지는 누구나 정리할 수 있는 LIAON 데이터 세트에 의존합니다. 저작권 문제 및 기타 문제로 인해 각 회사가 비디오를 획득하고 처리하는 방법이 그렇게 크지 않습니다. 데이터 정리에는 많은 차이가 있으며 이는 모델 기능으로 이어지며 오픈 소스 버전의 난이도도 다릅니다.
DiT 계획의 다음으로 어려운 점은 통계적 확률뿐만 아니라 물리적 법칙의 준수를 어떻게 향상시킬 것인가입니다.
비디오 생성의 효율성이 정체됩니다. 현재 고사양 그래픽카드에서 실행하는데 시간이 오래 걸리는 것이 상용화의 걸림돌이자 학계에서도 논의되는 방향이다.
LLM과 유사하게 모델 반복 속도가 느려지더라도 애플리케이션은 느려지지 않습니다. 제품 측면에서 볼 때, Wensheng 영상을 만드는 것만으로는 좋은 방향이 아닙니다. 관련 편집 및 창의적인 제품이 끝없이 나올 것이며 단기적으로 병목 현상이 발생하지 않을 것입니다.
7. 다양한 시나리오에 대해 다양한 기술 스택을 선택하는 추세가 될 것입니다.
Sora가 나왔을 때 모두가 DiT로 수렴할 것이라고 생각했지만 실제로는 GAN 기반 경로, 최근 인기 있는 프로젝트 Oasis와 같은 AutoRegressive의 실시간 생성 등 여전히 많은 기술적인 경로가 연구되고 있으며, CG와 CV의 결합 더 나은 일관성과 제어를 달성하기 위해 각 회사는 다양한 시나리오에 대해 서로 다른 기술 스택을 선택하는 추세가 될 것입니다.
8. 영상의 스케일링 법칙은 LLM 수준과는 거리가 멀다.
영상의 스케일링 법칙은 일정 범위 내에서 존재하지만, LLM 수준과는 거리가 멀다. 현재 모델 매개변수의 최대 수준은 30b이며, 30b 내에서는 효과가 입증되었지만 300b 수준에서는 성공한 사례가 없습니다.
이제 기술 솔루션이 수렴되고 있으며 방법도 크게 다르지 않습니다. 주요 차이점은 데이터 비율을 포함한 데이터에 있습니다.
DiT 기술 경로가 포화되기까지는 1~2년이 걸릴 것입니다. DiT 경로에는 개선할 수 있는 부분이 많이 있습니다. 보다 효율적인 모델 아키텍처가 매우 중요합니다. LLM을 예로 들면 처음에는 모두가 더 큰 모델을 작업하고 있었지만 나중에는 MOE를 추가하고 데이터 분포를 최적화한 후에는 그렇게 큰 모델 없이도 작업을 수행할 수 있다는 것을 알게 되었습니다.
더 많은 연구에 투자해야 하며, DiT를 맹목적으로 확장하는 것은 매우 비효율적입니다. 유튜브, 틱톡 등을 포함하면 영상 데이터의 양이 매우 많아 모델 학습에 모두 활용하는 것은 불가능하다.
이 단계에서는 특히 데이터 준비에 있어서 오픈소스 작업이 상대적으로 적습니다. 각 회사의 정리 방법이 매우 다르며, 데이터 준비 프로세스가 최종 효과에 큰 영향을 미치기 때문에 일부는 최적화될 수 있습니다. 포인트.
9. 동영상 생성 속도를 향상시키는 방법
가장 간단한 방법은 저해상도, 낮은 프레임 속도의 이미지를 생성하는 것입니다. 가장 일반적으로 사용되는 방법은 단계 증류입니다. 현재 이미지 생성에는 최소 2단계가 필요합니다. 1단계 추론이 가능하면 훨씬 빠릅니다. 최근에는 한 단계로 동영상을 생성하는 논문도 있습니다. 비록 지금은 POC에 불과하지만 주목할 만합니다.
10. 비디오 모델 반복의 우선순위
실제로 명확성, 일관성, 제어 가능성 등은 포화 상태에 도달하지 않았으며 아직 다른 부분을 희생하여 한 부분을 개선하는 지점에 도달하지 않았습니다. 현재 Pre-training 단계에서 동시 개선 단계입니다.
11. 장편 영상 생성 속도를 높이는 기술 솔루션
DiT의 기능의 한계가 어디인지 알 수 있습니다. 모델이 클수록 데이터가 좋아지고 해상도가 높아질수록 시간이 길어지고 성공률도 높아집니다.
현재 DiT 모델을 얼마나 크게 확장할 수 있는지에 대한 답은 없습니다. 특정 크기에서 병목 현상이 발생하면 새로운 모델 아키텍처가 나타날 수 있습니다. 알고리즘 관점에서 DiT는 빠른 추론을 지원하는 새로운 추론 알고리즘을 개발했습니다. 더 어려운 것은 훈련 중에 이를 추가하는 방법입니다.
현재 모델의 물리 법칙에 대한 이해는 통계적 의미에서 데이터 세트에 나타나는 현상을 어느 정도 시뮬레이션할 수 있지만 실제로 물리학을 이해하지는 않습니다. 학계에서는 몇 가지 물리적인 법칙을 이용해 영상을 제작하는 등 논의가 이뤄지고 있습니다.
12. 비디오 모델과 기타 양식의 통합
통일에는 두 가지 측면이 있는데, 하나는 복합적 통일이고, 다른 하나는 생성과 이해의 통일이다. 전자의 경우 대표성이 먼저 통일되어야 한다. 후자의 경우 텍스트와 음성이 모두 통합될 수 있으며, VLM 통합과 확산의 효과는 현재 1+1<2로 간주된다. 이 작업은 더 어려울 것입니다. 반드시 모델이 충분히 똑똑하지 않아서가 아니라 두 작업 자체가 모순되고 섬세한 균형을 달성하는 방법이 복잡한 문제이기 때문입니다.
가장 간단한 아이디어는 이를 모두 토큰화하여 변환기 모델에 넣은 다음 최종적으로 입력과 출력을 통합하는 것입니다. 하지만 제 개인적인 경험으로는 여러 가지를 모두 융합하는 것보다 특정한 하나의 양식을 수행하는 것이 더 낫다는 것입니다.
산업 현장에서는 모두가 함께 할 수는 없습니다. MIT의 최신 논문은 잠재적으로 여러 양식이 통합되면 효과가 더 좋을 수 있음을 보여줍니다.
13. 실제로 비디오 모달리티에 대한 훈련 데이터가 많이 있습니다.
실제로 영상 데이터의 양이 많기 때문에 고품질의 데이터를 효율적으로 선택하는 방법이 더 중요합니다.
금액은 저작권에 대한 이해에 따라 달라집니다. 하지만 컴퓨팅 파워도 병목 현상입니다. 데이터가 너무 많아도 이를 수행할 만큼 컴퓨팅 파워가 부족할 수 있습니다. 특히 고화질 데이터는 더욱 그렇습니다. 때로는 보유하고 있는 컴퓨팅 성능을 기반으로 필요한 고품질 데이터 세트를 추론해야 하는 경우도 있습니다.
항상 고품질의 데이터가 부족했지만, 데이터가 있더라도 어떤 이미지 설명이 맞는지, 이미지 설명에 어떤 키워드를 포함해야 하는지 다들 알지 못한다는 것이 큰 문제입니다.
14. 장편영상 세대의 미래는 스토리텔링에 있다
현재의 영상세대는 소재를 기반으로 하고 있습니다. 미래는 스토리에 관한 것이며 비디오 생성에는 목적이 있습니다. 긴 동영상은 길이가 아니라 스토리텔링에 관한 것입니다. 작업의 형태로.
비디오 편집의 경우 속도가 더 빨라집니다. 왜냐하면 현재의 막힌 점은 속도가 너무 느리다는 것이기 때문입니다. 이제는 모두 몇 분 안에 완료됩니다(초 단위로 생성됨). 좋은 알고리즘이 있어도 작동하지 않습니다. (편집이란 편집을 뜻하는 것이 아니라 사람과 행동을 바꾸는 등의 이미지 편집을 의미합니다. 그런 기술도 있지만 느리고 사용할 수 없다는 것이 문제입니다.)
15. 비디오 생성의 미적 개선은 주로 사후 훈련에 달려 있습니다.
이는 주로 영화 및 TV 데이터를 많이 사용하는 Conch와 같은 사후 훈련 단계에 의존합니다. 현실성 측면에서는 프로토타입의 능력이다.
16. 비디오 이해의 두 가지 어려움은 긴 컨텍스트와 지연 시간입니다.
17. 시각적 양식은 AGI로 이어지는 최선의 양식이 아닐 수도 있습니다.
텍스트 양식 - 텍스트를 사진으로 변경한 다음 비디오로 변경할 수도 있습니다.
텍스트는 지능의 지름길, 비디오와 텍스트의 효율성 격차는 수백배
18. 엔드투엔드 음성 모델은 큰 진전입니다.
데이터에 수동으로 라벨을 붙이고 판단할 필요가 없으며 정확한 감정적 이해와 출력이 가능합니다.
19. 다중 모드 모델은 아직 초기 단계에 있습니다.
멀티모달 모델은 아직 초기 단계이기 때문에 영상의 처음 1초와 다음 5초를 예측하는 것은 이미 어렵습니다. 나중에 텍스트를 추가하는 것은 더욱 어려울 수 있습니다.
이론상으로는 영상과 텍스트를 함께 활용하는 것이 가장 좋지만, 전체적으로 구현하기는 어렵습니다.
다중 양식은 현재 지능을 향상시킬 수 없지만 미래에는 가능할 수 있습니다. 압축 알고리즘은 데이터 세트 간의 관계를 학습할 수 있으며, 공개된 후에는 비디오와 텍스트를 각각 이해할 수 있습니다. 다른.
20. 다중 모드 기술 경로는 아직 완전히 통합되지 않았습니다.
Diffsion 모델의 품질은 좋으며 현재 모델 구조는 여전히 수정 중입니다.
기분 좋은 변경 논리가 좋습니다.
21. 다양한 양식의 조정에 대해서는 아직 합의가 이루어지지 않았습니다.
비디오가 개별 토큰인지 연속 토큰인지는 결정되지 않았습니다.
아직은 고품질 얼라인먼트가 많지 않습니다.
현재로서는 그것이 과학적 문제인지 공학적 문제인지 알 수 없습니다.
22. 대규모 모델의 경우 데이터를 생성한 후 소규모 모델을 학습시키는 것이 가능하지만 그 반대는 더 어렵습니다.
합성 데이터와 실제 데이터의 차이는 주로 품질의 문제입니다.
또한 다양한 유형의 데이터를 사용하여 종합하여 합성할 수 있으며 효과도 매우 좋습니다. 데이터 품질 요구 사항이 높지 않기 때문에 사전 학습 단계를 사용할 수 있습니다.
23. LLM의 경우 사전 교육 시대는 기본적으로 끝났습니다.
이제 모두가 높은 데이터 품질을 요구하는 Post training에 대해 이야기하고 있습니다.
24. 훈련 후 팀 빌딩
이론적 팀 규모: 5명이면 충분합니다(반드시 정규직일 필요는 없음).
한 사람이 파이프라인(인프라)을 구축합니다.
한 사람이 데이터를 관리합니다(데이터 효과).
한 사람이 모델 자체 SFT(과학자/논문 독자)를 담당합니다.
한 사람이 제품의 모델 배열에 대한 판단과 사용자 데이터 수집을 담당합니다.
AI 시대에는 제품과 UI가 사후 교육이라는 장점이 있습니다. AI는 제품과 UI에 대한 이해, 풍부한 개발을 보완하고 AI에 의한 편향을 방지합니다.
25. 데이터 파이프라인 구축
데이터 순환: 데이터가 파이프라인에 들어가고 새로운 데이터가 생성되어 반환됩니다.
효율적인 반복: 파이프라인 및 AB 테스트, 구조화된 데이터 웨어하우스와 결합된 데이터 주석.
데이터 입력: 효율적으로 주석을 달고 사용자 피드백을 강화하여 해자를 구축합니다.
초기 단계: SFT(이 단계로 지속적으로 재루프).
후속 단계: RL(더 무거운 RLFH로 구분), 채점 가이드 RL, DPO 방법은 붕괴하기 쉽고 SFT 단순화된 RL 버전입니다.
02 구현
1. 구체화된 로봇은 아직 ChatGPT와 유사한 "중요한 순간"을 맞이하지 않았습니다.
핵심 이유는 로봇이 단지 가상 언어를 통해 텍스트를 생성하는 것이 아니라 실제 세계에서 작업을 완료해야 한다는 것입니다.
로봇 지능의 혁신을 위해서는 '체화된 지능'의 핵심 문제, 즉 역동적이고 복잡한 물리적 환경에서 작업을 완료하는 방법을 해결해야 합니다.
로봇의 "중요한 순간"은 다음 조건을 충족해야 합니다. 다양성: 다양한 작업과 환경에 적응할 수 있습니다. 신뢰성: 현실 세계에서 높은 성공률. 확장성: 데이터와 작업을 지속적으로 반복하고 최적화하는 능력입니다.
2. 이번 세대의 머신러닝이 해결하는 핵심 문제는 일반화입니다.
일반화는 훈련 데이터로부터 패턴을 학습하고 이를 보이지 않는 데이터에 적용하는 AI 시스템의 능력입니다.
일반화에는 두 가지 모드가 있습니다.
보간: 테스트 데이터가 훈련 데이터의 분포 범위 내에 있습니다.
외삽의 어려움은 학습 데이터가 테스트 데이터를 잘 포괄할 수 있는지 여부와 테스트 데이터의 분포 범위 및 비용에 있습니다. 여기서 "커버" 또는 "커버리지"는 핵심 개념으로, 훈련 데이터가 테스트 데이터의 다양성을 효과적으로 포괄할 수 있는지 여부를 나타냅니다.
3. 얼굴 인식, 물체 감지 등의 비전 작업은 대부분 보간 문제입니다.
머신 비전의 작업은 주로 환경을 이해하고 인식하는 생명체의 인식 능력을 모방하는 것입니다.
머신 비전 모델은 이를 지원하는 관련 데이터가 많기 때문에 특정 작업(예: 고양이 및 개 인식)에 대해 이미 매우 성숙해 있습니다. 그러나 보다 복잡하거나 동적인 작업의 경우 데이터 다양성과 적용 범위가 병목 현상으로 남아 있습니다.
얼굴 인식, 객체 감지 등의 비전 작업은 대부분 보간 문제이며, 모델은 훈련 데이터를 통해 대부분의 테스트 시나리오를 다룹니다.
그러나 새로운 각도나 조명 조건과 같은 외삽 문제에 관해서는 모델의 기능이 여전히 제한되어 있습니다.
4. 이번 세대 로봇 일반화의 어려움: 대부분의 상황은 외삽 상황에 속함
환경 복잡성: 국내 및 산업 환경의 다양성과 역동성.
물리적 상호작용 문제: 도어 무게, 각도 차이, 마모 등과 같은 물리적 특성
인간-컴퓨터 상호작용의 불확실성: 인간 행동의 예측 불가능성으로 인해 로봇에 대한 요구가 높아집니다.
5. 완전히 인간과 유사한 일반화 능력을 갖춘 로봇은 현재 또는 미래 세대에서는 달성하지 못할 수도 있습니다.
로봇이 현실 세계의 복잡성과 다양성에 대처하는 것은 극히 어렵습니다. 가정 내 실제 환경(예: 애완동물, 어린이, 가구 배치 등)의 동적 변화로 인해 로봇이 완전히 일반화하기가 어렵습니다.
인간 자체는 전능한 개인이 아니라, 분업과 협력을 통해 사회의 복잡한 과업을 완수하는 존재이다. 또한 로봇은 반드시 "인간 수준" 일반화 기능을 추구하는 것은 아니지만 특정 특정 작업에 더 집중하고 심지어 "초인적" 성능(예: 산업 생산의 효율성 및 정밀도)을 달성합니다.
겉으로는 단순해 보이는 작업(예: 바닥 청소 또는 요리)이라도 환경의 복잡성과 역동성으로 인해 일반화 요구 사항이 매우 높습니다. 예를 들어, 청소 로봇은 수천 가구의 다양한 레이아웃, 장애물, 지상 재료 등을 처리해야 하므로 일반화의 어려움이 가중됩니다.
그렇다면 로봇이 작업을 선택해야 합니까? 예를 들어 로봇은 인간의 완전한 능력을 추구하기보다는 특정 작업에 집중해야 합니다.
6. Stanford Lab의 선택: 가족 장면에 초점
스탠포드 로봇공학 연구소는 국내 시나리오, 특히 고령화 사회와 관련된 가정용 로봇 작업에 중점을 두고 있습니다. 예를 들어, 로봇은 이불 접기, 물건 집기, 병뚜껑 열기 등 일상적인 작업을 완료하는 데 도움을 줄 수 있습니다.
우려 이유: 미국, 서유럽, 중국 등의 국가는 모두 심각한 고령화 문제에 직면해 있습니다. 노화와 관련된 주요 문제는 다음과 같습니다. 인지 저하: 알츠하이머병은 널리 퍼진 문제로 95세 이상 인구의 약 절반에 영향을 미칩니다. 운동 기능 저하: 파킨슨병, ALS 등의 질병으로 인해 노인이 기본적인 일상 활동을 수행하기가 어려워집니다.
7. 특정 시나리오를 기반으로 일반화 조건 정의
집, 식당, 요양원 등 로봇이 처리해야 하는 환경과 시나리오를 식별합니다.
시나리오가 명확해지면 작업 범위를 더 잘 정의하고 가능한 항목 상태 변경 및 환경 역학이 이러한 시나리오에서 다루어지도록 할 수 있습니다.
시나리오 디버깅의 중요성: 로봇 제품 디버깅은 기술적인 문제를 해결하는 것뿐만 아니라 가능한 모든 상황을 다루는 것입니다. 예를 들어, 요양원에서 로봇은 다양하고 복잡한 상황(노인의 느린 움직임, 불안정한 물품 배치 등)을 처리해야 합니다. 영역 전문가(예: 요양원 관리자, 간호 직원)와 협력하면 작업 요구 사항을 더 잘 정의하고 관련 데이터를 수집할 수 있습니다.
현실 세계의 환경은 산업 조립 라인처럼 완전히 제어할 수는 없지만 디버깅을 통해 "알려"질 수 있습니다. 예를 들어 가정 환경에서 흔히 볼 수 있는 사물의 유형, 배치, 동적 변화 등을 정의하고 시뮬레이션 및 실제 환경의 핵심 사항을 다룹니다.
8. 일반화와 전문화의 모순
일반 모델과 작업별 모델 간의 충돌: 모델을 사용하려면 강력한 일반화 기능과 다양한 작업 및 환경에 적응하는 능력이 필요하지만 일반적으로 많은 양의 데이터와 컴퓨팅 리소스가 필요합니다.
업무별 모델은 상용화는 쉽지만, 그 역량이 제한적이고 다른 분야로의 확장이 어렵습니다.
미래의 로봇 지능은 일반성과 전문화 사이의 균형을 찾아야 합니다. 예를 들어, 모듈식 설계를 통해 공통 모델이 기반이 되고, 특정 작업에 대한 미세 조정을 통해 빠른 적응이 이루어집니다.
9. 구체화된 다중 모드 모델의 잠재력
다중 모드 데이터 통합: 다중 모드 모델은 시각, 촉각, 언어 등 여러 입력을 동시에 처리할 수 있어 복잡한 장면에서 로봇의 이해와 의사 결정 능력이 향상됩니다. 예를 들어, 잡는 작업에서 시각적 데이터는 로봇이 물체의 위치와 모양을 식별하는 데 도움이 될 수 있으며, 촉각 데이터는 잡는 안정성을 보장하기 위한 추가 피드백을 제공할 수 있습니다.
문제는 다중 모드 데이터를 모델에 효율적으로 통합하는 방법에 있습니다. 다중 모드 데이터를 통해 동적 환경에서 로봇의 적응성을 향상시키는 방법.
촉각 데이터의 중요성: 촉각 데이터는 로봇이 복잡한 환경에서 작업을 완료하는 데 도움이 되는 추가 정보를 제공할 수 있습니다. 예를 들어, 유연한 물체를 잡을 때 촉각 데이터는 로봇이 물체의 변형과 힘을 감지하는 데 도움이 될 수 있습니다.
10. 로봇 데이터 폐쇄 루프는 달성하기 어렵습니다.
현재 로봇공학 분야에는 ImageNet과 같은 상징적인 데이터 세트가 부족하여 연구에서 통일된 평가 표준을 형성하기가 어렵습니다.
특히 실제 상호 작용 데이터의 경우 데이터 수집 비용이 많이 듭니다. 예를 들어, 촉각, 시각, 동적 데이터와 같은 다중 모드 데이터를 수집하려면 복잡한 하드웨어와 환경 지원이 필요합니다.
시뮬레이터는 데이터 폐쇄 루프 문제를 해결하는 중요한 도구로 간주되지만 시뮬레이션과 실제 세계 사이의 "Sim-to-Real Gap"은 여전히 중요합니다.
11. Sim-to-Real Gap에 대한 도전
시각적 렌더링 및 물리적 모델링(마찰, 재료 특성 등)과 같은 측면에서 시뮬레이터와 실제 세계 사이에는 차이가 있습니다. 로봇은 시뮬레이션 환경에서는 잘 작동하지만 실제 환경에서는 실패할 수 있습니다. 이러한 격차는 시뮬레이션 데이터의 직접적인 적용을 제한합니다.
12. 실제 데이터의 장점과 과제
실제 데이터는 물리적 세계의 복잡성을 더 정확하게 반영하지만 수집하는 데 비용이 많이 듭니다. 데이터 주석은 특히 다중 모드 데이터(예: 촉각, 시각적, 동적)의 경우 병목 현상이 발생합니다.
산업 환경은 더욱 표준화되고 임무 목표는 더욱 명확해지며, 이는 로봇 기술의 조기 배포에 적합합니다. 예를 들어, 태양광 발전소 건설에서 로봇은 파일 쌓기, 패널 설치, 나사 조이기 등 반복적인 작업을 완료할 수 있습니다. 산업용 로봇은 특정 작업에 대한 데이터 수집을 통해 점차적으로 모델 기능을 향상시키고 데이터의 폐쇄 루프를 형성할 수 있습니다.
13. 로봇 작동 시 촉각 및 힘 데이터는 주요 피드백 정보를 제공할 수 있습니다.
로봇 작동에서 촉각 및 힘 데이터는 특히 잡기 및 배치와 같은 연속 작업 중에 중요한 피드백 정보를 제공할 수 있습니다.
촉각 데이터의 형태: 촉각 데이터는 일반적으로 로봇이 물체와 접촉할 때 기계적 변화를 반영할 수 있는 시계열 데이터입니다.
최신 연구 작업은 대형 모델에 터치를 추가하는 것입니다.
14. 시뮬레이션 데이터의 장점
시뮬레이터는 대규모 데이터를 빠르게 생성할 수 있으며 초기 모델 교육 및 검증에 적합합니다. 시뮬레이션 데이터는 생성 비용이 저렴하고 짧은 시간에 다양한 시나리오와 작업을 처리할 수 있습니다. 산업용 로봇 분야에서 시뮬레이터는 쥐기, 핸들링 등의 작업을 훈련하는 데 널리 사용되어 왔습니다.
시뮬레이션 데이터의 한계: 시뮬레이터의 물리적 모델링 정확도는 제한되어 있습니다. 예를 들어 물체의 재료, 마찰, 유연성 및 기타 특성을 정확하게 시뮬레이션할 수 없습니다. 시뮬레이션 환경의 시각적 렌더링 품질이 부족한 경우가 많아 실제 환경에서 모델의 성능이 저하될 수 있습니다.
15. 데이터 시뮬레이션: 스탠포드는 행동 시뮬레이션 플랫폼을 출시했습니다.
Behavior는 가정 시나리오 중심의 시뮬레이션 플랫폼으로 일반 아파트부터 5성급 호텔까지 다양한 환경을 포괄하는 1,000가지 작업, 50가지 시나리오를 지원합니다.
플랫폼에는 10,000개 이상의 객체가 포함되어 있으며, 고정밀 3D 모델과 대화형 주석을 통해 객체의 물리적, 의미적 속성(캐비닛 문을 열 수 있음, 옷을 접을 수 있음, 안경이 깨질 수 있음 등)을 파악합니다. 재현.
시뮬레이션 환경의 신뢰성을 보장하기 위해 팀은 많은 인력(예: 박사 과정 학생의 데이터 주석)을 투자하여 물리적 특성(질량, 마찰, 질감 등)과 대화형 특성(예: 라벨이 변형되는지 여부는 분리 가능합니다. 또 다른 예는 옷을 개는 작업을 지원하기 위해 옷의 유연한 특성을 표시하거나 물을 준 후 식물의 보습 효과를 표시하는 것입니다.
Behavior 프로젝트는 고정된 시뮬레이션 환경을 제공할 뿐만 아니라 사용자가 자신의 장면과 개체를 업로드하고 주석 파이프라인을 통해 주석을 달고 구성할 수 있도록 합니다.
현재 시뮬레이션은 80% 사전 훈련이 가능하며 나머지 20%는 실제 환경에서 데이터 수집 및 디버깅을 통해 보완되어야 합니다.
16. 하이브리드 모델 적용
시뮬레이션 데이터를 통해 사전 훈련을 수행한 후, 실제 데이터를 통해 미세 조정 및 최적화를 수행합니다. 실제 장면을 시뮬레이터로 스캔하여 로봇이 시뮬레이션 환경에서 상호 작용하고 학습할 수 있도록 하여 Sim-to-Real Gap을 줄이려는 시도가 있었습니다.
17. 로봇 데이터 공유의 과제
데이터는 기업의 핵심 자산이므로 기업은 데이터를 쉽게 공유하는 것을 꺼립니다. 통일된 데이터 공유 메커니즘과 인센티브 메커니즘이 부족합니다.
가능한 해결 방법:
데이터 교환: 특정 임무를 수행하는 기업은 공통 모델을 사용할 수 있는 능력을 대가로 데이터를 제공합니다.
데이터 중개자: 개인 정보를 보호하면서 데이터를 수집, 통합 및 배포할 수 있는 제3자 플랫폼을 구축합니다.
모델 공유: API 또는 모델 미세 조정을 통해 원본 데이터에 대한 의존도를 줄입니다.
이미 이 세 가지 방법을 시도하는 기업이 있습니다.
18. 능숙한 손과 그리퍼 선택
능숙한 손의 장점: 높은 수준의 자유도와 더 복잡한 작업을 완료할 수 있는 능력. 능숙한 손은 다양한 자유도로 조정하여 모델 예측의 부정확성을 보완할 수 있습니다.
그리퍼의 장점: 저렴한 비용, 산업 시나리오의 특정 작업에 적합합니다. 조립 라인 자재 취급 작업을 잘 수행하지만 일반화 기능이 부족합니다.
19. 구현형 로봇 소프트웨어와 하드웨어의 공진화
하드웨어 플랫폼과 소프트웨어 모델을 동시에 반복해야 합니다. 예를 들어, 하드웨어의 향상된 센서 정확도는 모델에 더 높은 품질의 데이터를 제공할 수 있습니다. 회사마다 소프트웨어 및 하드웨어 협업에 대한 전략이 다릅니다.
03 AI 응용 투자
1. 실리콘 밸리 VC들은 2025년이 AI 애플리케이션 투자에 있어서 중요한 해가 될 것이라고 믿습니다.
실리콘밸리의 VC들은 2025년이 애플리케이션 투자에 큰 기회가 될 것이라고 믿는 경향이 있다. 기본적으로 미국의 모든 사람을 위한 킬러 앱은 없습니다. 모든 사람은 다양한 시나리오에서 다양한 기능을 가진 앱을 사용하는 데 익숙합니다. 핵심은 사용자 경험을 최대한 장벽 없이 만드는 것입니다.
작년에는 응용회사에 대한 관심이 거의 없었습니다. LLM과 Foundation 모델은 모두가 주목하고 있었습니다.
애플리케이션에 투자할 때 VC는 묻습니다. 귀하의 해자는 무엇입니까?
실리콘 밸리 투자자들이 AI 제품에 투자하는 기준 중 하나는 다음과 같습니다. 한 방향으로만 진행하는 것이 가장 좋기 때문에 경쟁 제품이 따라하기 어렵습니다. 네트워크 효과가 있어야 합니다. 또는 복제하기 어려운 기술적 우위 또는 기타 독점 자본. 그렇지 않으면 기업가 정신이라고 부르기가 어렵고 오히려 사업에 가깝습니다.
2. 실리콘밸리 VC들은 AI 제품 기업이 새로운 종(種)이라고 믿는다
새로운 종으로서 AI 회사는 이전 SaaS와 매우 다릅니다. PMF를 발견한 후, 과대 광고 이전의 실제 가치 창출은 시드 단계에 있습니다.
3. VC들 사이의 틈새 견해는 조건이 허락한다면 중국 기업가에 대한 투자를 고려할 수 있다는 것입니다.
그 이유는 중국의 신세대 창업자들이 매우 활력이 넘치고 좋은 비즈니스 모델을 개발할 능력이 있기 때문입니다.
하지만 전제는 기지가 미국에 있다는 것이다.
중국과 중국 기업가들이 새로운 시도를 많이 하고 있지만 해외 투자자들은 이를 두려워하고 이해하지 못하고 있다. 소수는 그것이 가치 포인트라고 생각합니다.
4. 실리콘밸리 VC들은 자신들만의 투자전략을 수립하는 방법을 모색하고 있다
Soma Capital: 최고의 사람들과 관계를 구축하고, 최고의 사람들이 친구를 소개하도록 하고, 평생 우정을 쌓으세요. 그 과정에서 이러한 사람들에게 영감을 주고, 지원하고, 연결하여 시장 세분화 및 프로젝트 매핑을 포함한 파노라마 지도를 구축하고 데이터 기반 투자를 하고자 합니다. Seed부터 Series C까지 투자하고 성공/실패 샘플을 관찰합니다.
Leonis Capital: 연구 중심 벤처 캐피털 펀드, 주로 First Check.
OldFriendship Capital: 컨설팅 업무와 마찬가지로 먼저 일하고 나중에 투자하고, 고객 인터뷰를 진행하고, 인터뷰 지침을 결정하고, 제품 문제를 함께 파악합니다. 중국 프로젝트에 투자하면 중국 창업자가 직장에서 미국 고객과 일할 기회가 있는지 판단할 수 있습니다.
Storm Venture: 저는 Unlocking Growth를 좋아하고 Series A에서 PMF가 있는 회사를 선호합니다. 그들은 보통 1~2백만 달러의 수익을 얻은 다음 2천만 달러까지 성장할 수 있는 Unlocking Growth가 있는지 판단합니다. B2B SaaS의 핵심은 임금이며 이는 인건비가 매우 높은 시나리오에만 적용 가능합니다. 기업 수준에서 가장 큰 기회는 자동화 작업이라고 생각합니다.
추론 벤처(Inference Venture): 장벽이 대인 관계 및 도메인 지식에 기반을 두고 있다고 믿는 5천만 달러 규모의 펀드.
5. 실리콘밸리 VC들은 AI시대 MVP에 대한 요구사항이 높아졌다고 본다.
엔지니어, 핀테크, HR 등은 돈이 더 많이 드는 AI 제품 방향이다.
화이트칼라 직업은 비용이 많이 들고 시간당 40달러가 소요되며 노동 비용도 높습니다. 일하는 시간의 25%만이 미래에는 중간 관리자가 없을 수도 있고 사라질 것입니다.
인건비가 가장 비싼 기업은 일반적으로 AI가 침투하기 쉬운 분야에 속하며, 병원 운영자는 기본적으로 미국인이 아니며, 시간당 임금도 AI와 경쟁하기 어려울 수 있습니다.
소프트웨어로서의 서비스에서 AI Agent로 변경됩니다.
6. OpenAI 연구진이 설립한 Leonis Capital의 2025년 AI 예측 5가지
대중화되는 AI 프로그래밍 애플리케이션이 있을 것입니다.
모델 제공업체는 비용을 통제하기 시작합니다. 기업가는 고유한 제품을 만들기 위해 모델/에이전트를 선택해야 합니다.
작업당 비용 가격 책정 방법이 나타납니다.
데이터 센터는 전력 충격을 일으키고 새로운 아키텍처가 필요할 수 있습니다. 새 프레임워크에서는 모델이 더 작아집니다. 다중 에이전트는 더욱 주류가 될 것입니다.
7. AI 네이티브 스타트업 기업 기준
대기업과의 경쟁과 비교하면 돈이 없고 조직 구조도 기존 SaaS 회사와 다릅니다. Notion과 Canva는 AI를 사용할 때 더 많은 어려움을 겪고 있으며 Notion은 핵심 기능이 손상되는 것을 원하지 않습니다.
AI 네이티브 데이터의 고객 확보 비용은 상대적으로 낮고 AI 제품이 제공하는 ROI는 상대적으로 명확합니다. AI 스케일링 프로세스에서는 많은 사람을 모집할 필요가 없습니다.
Moat의 관점에서는 모델 아키텍처와 사용자 정의에 있습니다.
8. 대형 모델은 사전 훈련을 중요하게 여기며, 응용 회사는 추론에 더 많은 관심을 기울입니다.
각 산업마다 문제를 바라보는 고정된 방식과 방법이 있으며, 각 산업마다 고유한 인지 아키텍처가 있습니다. 새로 등장한 AI 에이전트는 LLM을 기반으로 인지 아키텍처를 추가합니다.
9. AI를 일상생활에 적용하는 추론과 보상 방법
생활분야에 AI를 적용하기 위한 추론은 의도대로 이루어질 수 있다.
보상은 읽기가 매우 어렵지만 수학과 코딩은 쉽습니다.
주제 효율성과 지리적 위치를 고려하세요.
동적 보상만 할 수 있고 비슷한 그룹끼리만 할 수 있습니다.
10. AI가 생성한 콘텐츠는 그다지 현실적이지 않으며 새로운 형태의 콘텐츠일 수도 있습니다.
예를 들어 고양이 산책과 요리
04 AI 코딩 챕터
1. AI 코딩 기업 모델 교육을 위한 가능한 아이디어
가능한 아이디어 중 하나: 처음에는 더 나은 결과를 얻기 위해 모델 회사의 더 나은 API를 사용할 것입니다. 비용이 더 높더라도 고객 사용 데이터를 축적한 후에는 작은 장면에서 자신의 작은 모델을 계속 훈련하여 지속적으로 교체할 것입니다. 일부 부분은 더 낮은 비용으로 더 나은 결과를 얻기 위한 API 시나리오입니다.
2. Copilot 모드와 Agent 모드의 차이점
주요 차이점은 비동기성입니다. 주요 차이점은 AI 도우미가 작업을 수행하는 데 얼마나 비동기적인가입니다. 부조종사에게는 즉각적인 사용자 상호작용과 피드백이 필요한 경우가 많은 반면, 상담원은 사용자 입력을 찾기 전에 더 오랜 시간 동안 더 독립적으로 작업할 수 있습니다. 예를 들어, 코드 완성 및 코드 채팅 도구를 사용하려면 사용자가 실시간으로 보고 응답해야 합니다. 반면에 에이전트는 작업을 비동기적으로 수행할 수 있고 피드백이 덜 필요하므로 더 많은 작업을 수행할 수 있습니다.
처음에 에이전트는 결과를 제공하기 전에 오랜 시간(10~20분) 동안 독립적으로 작동하도록 설계되었습니다. 그러나 사용자 피드백에 따르면 더 많은 제어와 빈번한 상호 작용을 선호합니다. 따라서 에이전트는 피드백을 요청하기 전에 짧은 시간(몇 분) 동안 작업하도록 조정되어 자율성과 사용자 참여 사이의 균형을 유지합니다.
완전 자율 에이전트 개발의 과제: 완전 자율 코딩 에이전트 개발을 방해하는 두 가지 주요 장애물이 있습니다. 복잡한 장기 작업을 실패 없이 처리할 만큼 기술이 아직 발달하지 않아 사용자 불만이 커지고 있습니다. 사용자는 여전히 여러 파일이나 저장소에 걸쳐 획기적인 변경을 수행하는 AI 도우미의 개념에 익숙해지고 있습니다.
3. Coding Agent의 핵심 과제와 개선점
추가 개발이 필요한 주요 영역은 다음과 같습니다. 1. 이벤트 모델링 2. 메모리 및 세계 모델링 3. 미래를 위한 정확한 계획 4. 특히 긴 컨텍스트의 경우 컨텍스트 활용도 향상(컨텍스트 활용도는 10,000개 토큰을 초과하면 크게 떨어짐) 메모리 길이(예: 100,000개 이상의 토큰), 지속적인 연구는 더 긴 상황에 대한 기억과 추론을 향상시키는 것을 목표로 합니다.
월드 모델링은 코딩 에이전트와 관련이 없어 보일 수도 있지만 부정확한 계획과 같은 일반적인 문제를 해결하는 데 중요한 역할을 합니다. 세계 모델링 문제를 해결하면 코딩 에이전트의 능력이 향상되어 더욱 효율적이고 정확한 계획을 세울 수 있습니다.
4. AI 코딩의 중요한 추세는 O3 또는 O1 방법과 유사한 추론 향상 기술을 사용하는 것입니다.
방법은 코드 에이전트의 전반적인 효율성을 크게 향상시킬 수 있습니다. 현재는 비용이 많이 들지만(10~100배 이상) 오류율을 절반, 심지어 1/4까지 줄일 수 있습니다. 언어 모델이 발전함에 따라 이러한 비용은 급격히 감소할 것으로 예상되며 이로 인해 이 접근 방식이 일반적인 기술 경로가 될 수 있습니다.
O3는 Total Forces 테스트를 포함한 벤치마크 테스트에서 다른 모델보다 훨씬 더 나은 성능을 보였습니다. 현재 업계 점수는 일반적으로 50점 정도인데 O3의 점수는 70~75점이다.
SMV 점수는 지난 몇 달 동안 빠르게 향상되었습니다. 몇 달 전에는 점수가 30대였는데 지금은 50대에요.
모델 성능 향상 기술: 내부 테스트에 따르면 첨단 기술을 적용하면 점수를 약 62점까지 더욱 향상시킬 수 있습니다. O3를 활용하면 점수를 최대 74-75점까지 올릴 수 있습니다. 이러한 향상으로 인해 비용이 크게 증가할 수 있지만 전반적인 성능 향상은 상당합니다.
사용자 경험 및 대기 시간 임계값: 성능과 사용자 경험 간의 최상의 균형을 결정하는 것은 어려울 수 있습니다. 자동 완성 기능의 경우 응답 시간이 215~500밀리초를 초과하면 사용자가 해당 기능을 비활성화할 수 있습니다. 채팅 애플리케이션에서는 일반적으로 몇 초의 응답 시간이 허용되지만 50~75분을 기다리는 것은 실용적이지 않습니다. 허용 가능한 대기 시간의 임계값은 애플리케이션 및 사용자 기대치에 따라 다릅니다.
모델 품질을 극대화하는 데 있어 두 가지 주요 장벽은 컴퓨팅 성능 요구 사항과 관련 비용입니다.
5. GitHub Copilot은 주요 경쟁자로 간주됩니다.
6. AI 코딩 도구를 채택하려면 고객 성공이 중요합니다.
판매 후 지원, 교육, 출시 및 채택이 주요 차별화 요소입니다. 스타트업에는 고객 성공을 전담하는 직원이 60~70명 있는데, 이는 전체 인력의 약 절반에 해당합니다. 이는 큰 투자이지만 고객 만족을 보장하는 데 도움이 됩니다.