【ごうせいでーたせいせい】
合成データ生成 とは?
💡 本物のデータが足りないなら、AIに作ってもらえばいい
📌 このページのポイント
合成データって、偽物のデータってこと?
偽物というより『人工的に作られた本物っぽいデータ』だね。たとえば実際の患者データを使わずに、統計的に似たような医療データを生成するようなイメージだよ
なんで本物のデータを使わないの?
プライバシーの問題があったり、そもそもデータが少なかったりするからだよ。珍しい病気のデータや、まだ起きていない異常事態のデータは本物が手に入らないよね
AIの学習データもAIが作るって、ちょっと不思議だね!
ずっとAIが作ったデータでAIを学習させたらどうなるのかな?
それがモデルコラプスと呼ばれる問題だね。AI生成データだけで学習を繰り返すと、多様性が失われて性能が劣化するんだ。だから実データとのバランスが重要なポイントだよ
まとめ:ざっくりこれだけ覚えればOK!
「合成データ生成」って出てきたら「AIが人工的にデータを作る技術」と思えればだいたいOK!
📖 おまけ:英語の意味
「Synthetic Data Generation」 = 合成データの生成
💬 synthetic(合成の、人工の)で、自然にあるものではなく人工的に作られたデータという意味だよ