【ごうせいでーたせいせい】

合成データ生成 とは?

💡 本物のデータが足りないなら、AIに作ってもらえばいい
📌 このページのポイント
合成データ生成の仕組み 実データ 少量 / 機密 プライバシー制約 AI生成エンジン LLM / 画像生成AI 統計モデル 合成データ 大量生成可能 プライバシー安全 多様なバリエーション 活用分野 医療データ 患者情報を 匿名化代替 金融データ 不正取引の 学習データ LLM学習 高品質な 指示データ 注意 品質低下で モデルコラプス
合成データ生成のイメージ
ひよこ ひよこ

合成データって、偽物のデータってこと?

ペンギン先生 ペンギン先生

偽物というより『人工的に作られた本物っぽいデータ』だね。たとえば実際の患者データを使わずに、統計的に似たような医療データを生成するようなイメージだよ

ひよこ ひよこ

なんで本物のデータを使わないの?

ペンギン先生 ペンギン先生

プライバシーの問題があったり、そもそもデータが少なかったりするからだよ。珍しい病気のデータや、まだ起きていない異常事態のデータは本物が手に入らないよね

ひよこ ひよこ

AIの学習データもAIが作るって、ちょっと不思議だね!

ペンギン先生 ペンギン先生

面白い時代だよね。実際にGPT-4が生成したデータで小さなモデルを学習させるなんてことも行われているんだ。ただし品質管理が重要で、ゴミデータで学習するとモデルの性能が劣化するリスクもあるよ

ひよこ ひよこ

ずっとAIが作ったデータでAIを学習させたらどうなるのかな?

ペンギン先生 ペンギン先生

それがモデルコラプスと呼ばれる問題だね。AI生成データだけで学習を繰り返すと、多様性が失われて性能が劣化するんだ。だから実データとのバランスが重要なポイントだよ

ペンギン
まとめ:ざっくりこれだけ覚えればOK!
合成データ生成」って出てきたら「AIが人工的にデータを作る技術」と思えればだいたいOK!
📖 おまけ:英語の意味
「Synthetic Data Generation」 = 合成データの生成
💬 synthetic(合成の、人工の)で、自然にあるものではなく人工的に作られたデータという意味だよ
← 用語集にもどる