PANews 1 月 9 日のニュースによると、TechCrunch によると、イーロン・マスク氏はスタッグウェル会長のマーク・ペン氏とのライブ会話の中で、現在の AI モデルのトレーニングでは基本的に現実世界のデータが使い果たされていると語った。それは昨年起こった」とマスク氏は、NeurIPS機械学習カンファレンスでAI業界は「データのピーク」に達しており、将来的にはモデル開発を変更する必要があるかもしれないと示唆した元OpenAI主任科学者イリヤ・サツケヴァー氏の意見に同調した。 。

マスク氏は、合成データは実際のデータを補完する手段となり、AIはデータの生成と自己評価によって自己学習を実現すると考えている。この傾向は、Microsoft、Meta、OpenAI、Anthropic などの大手テクノロジー企業によって採用されています。たとえば、Microsoft Phi-4 モデルと Google Gemma モデルは、トレーニング用に実際のデータと合成データを組み合わせています。 Gartner は、AI および分析プロジェクトのデータの約 60% が 2024 年までに合成的に生成されると予測しています。

合成データの利点には、AI スタートアップの Writer が Palmyra の開発に費やした費用はわずか約 70 万ドルであるなど、コスト削減が含まれます。ただし、合成データには、モデルの創造性の低下、出力のバイアスの増加、モデルの崩壊の可能性などのリスクもあります。特にトレーニング データ自体にバイアスがある場合、生成された結果も影響を受ける可能性があります。