【もでるこらぷす】
モデルコラプス とは?
💡 AIのコピーのコピーを繰り返すと、やがてすべてが同じ顔になる
📌 このページのポイント
- AI生成データでAIを学習させる再帰的な学習サイクルで発生する
- 世代を重ねるごとに分布のテール(少数派のパターン)が失われていく
- Webに大量のAI生成コンテンツが溢れることで、今後ますます深刻化が懸念される
- 実データの混合や、データのキュレーションが対策として研究されている
モデルコラプスって、AIが壊れちゃうってこと?
壊れるというより、多様性が失われて同じような出力しかできなくなるんだ。コピー機でコピーのコピーを繰り返すと画質が劣化していくのと同じイメージだよ
なんでそんなことが起きるの?
AIが生成したデータでAIを学習させると、元のデータにあった珍しいパターンや少数派の特徴がどんどん失われていくんだ。平均的なパターンだけが強化されて、多様性がなくなるんだよ
今のWeb上にはAIが書いた文章がたくさんあるよね?
そこが大きな問題なんだ。Web上のAI生成コンテンツがどんどん増えているから、それをクロールして学習データにすると、知らないうちにAI生成データで学習してしまう。これが今後のAI開発の大きな課題だよ
防ぐ方法はあるのかな?
AI生成データと人間が作ったデータの比率を管理したり、AI生成コンテンツを検出してフィルタリングしたりする方法が研究されているよ。高品質な人間のデータがますます貴重な資源になっていくんだ
まとめ:ざっくりこれだけ覚えればOK!
「モデルコラプス」って出てきたら「AI生成データでAIを学習させ続けると品質が崩壊する現象」と思えればだいたいOK!
📖 おまけ:英語の意味
「Model Collapse」 = モデルの崩壊
💬 collapse(崩壊)は、多様性が失われてモデルが「潰れる」イメージから名付けられたんだよ