PANews의 1월 9일 뉴스에 따르면 TechCrunch에 따르면 Elon Musk는 Stagwell 회장 ​​Mark Penn과의 실시간 대화에서 현재의 AI 모델 교육은 기본적으로 실제 데이터를 소진했다고 말했습니다. 머스크는 NeurIPS 머신러닝 컨퍼런스에서 AI 산업이 '피크 데이터'에 도달했으며 향후 모델 개발을 변경해야 할 수도 있다고 제안한 전 OpenAI 수석 과학자 Ilya Sutskever의 감정을 반영했습니다. .

머스크는 합성 데이터가 실제 데이터를 보완하는 수단이 될 것이며, AI는 데이터를 생성하고 스스로 평가함으로써 스스로 학습을 이룰 것이라고 믿습니다. 이러한 추세는 Microsoft, Meta, OpenAI 및 Anthropic을 포함한 거대 기술 기업에서 채택했습니다. 예를 들어 Microsoft Phi-4 모델과 Google Gemma 모델은 훈련을 위해 실제 데이터와 합성 데이터를 결합합니다. Gartner는 2024년까지 AI 및 분석 프로젝트 데이터의 약 60%가 합성 방식으로 생성될 것으로 예측합니다.

합성 데이터의 장점에는 AI 스타트업 작가가 Palmyra 개발에 약 70만 달러만 지출하는 등 비용 절감이 포함됩니다. 그러나 합성 데이터에는 모델 창의성 감소, 출력 편향 증가, 모델 붕괴 가능성 등의 위험도 있습니다. 특히 훈련 데이터 자체가 편향된 경우 생성된 결과도 영향을 받을 수 있습니다.