PANews의 1월 9일 뉴스에 따르면 TechCrunch에 따르면 Elon Musk는 Stagwell 회장 Mark Penn과의 실시간 대화에서 현재의 AI 모델 교육은 기본적으로 실제 데이터를 소진했다고 말했습니다. 머스크는 NeurIPS 머신러닝 컨퍼런스에서 AI 산업이 '피크 데이터'에 도달했으며 향후 모델 개발을 변경해야 할 수도 있다고 제안한 전 OpenAI 수석 과학자 Ilya Sutskever의 감정을 반영했습니다. .
머스크는 합성 데이터가 실제 데이터를 보완하는 수단이 될 것이며, AI는 데이터를 생성하고 스스로 평가함으로써 스스로 학습을 이룰 것이라고 믿습니다. 이러한 추세는 Microsoft, Meta, OpenAI 및 Anthropic을 포함한 거대 기술 기업에서 채택했습니다. 예를 들어 Microsoft Phi-4 모델과 Google Gemma 모델은 훈련을 위해 실제 데이터와 합성 데이터를 결합합니다. Gartner는 2024년까지 AI 및 분석 프로젝트 데이터의 약 60%가 합성 방식으로 생성될 것으로 예측합니다.
합성 데이터의 장점에는 AI 스타트업 작가가 Palmyra 개발에 약 70만 달러만 지출하는 등 비용 절감이 포함됩니다. 그러나 합성 데이터에는 모델 창의성 감소, 출력 편향 증가, 모델 붕괴 가능성 등의 위험도 있습니다. 특히 훈련 데이터 자체가 편향된 경우 생성된 결과도 영향을 받을 수 있습니다.