【データセット】

データセット とは?

💡 AIにとっての「教科書」と「問題集」のセット
📌 このページのポイント
データセットの分割 全データセット(100%) 訓練データ(70%) モデルの学習 検証 15% 調整・検証 テスト 15% 最終評価 パターンを学ぶ パラメータ調整 本番性能を測る データの質と量がAIの性能を決める
データセットの分割 ― 訓練・検証・テストの役割
ひよこ ひよこ

データセットってただのデータの集まりでしょ?何がそんなに大事なの?

ペンギン先生 ペンギン先生

料理にたとえると、データセットは「食材」なんだよ。どんなに腕のいいシェフ(モデル)でも、食材が腐ってたらおいしい料理は作れないよね

ひよこ ひよこ

〜。訓練用とかテスト用とか分けるのはなんで?

ペンギン先生 ペンギン先生

学校でいうと、訓練用は「授業で使う教科書」、検証用は「小テスト」、テスト用は「期末テスト」みたいなものだね。期末テストの問題を先に見せちゃったら意味ないでしょ?

ひよこ ひよこ

カンニングになっちゃうってことか!分割の比率って決まってるの?

ペンギン先生 ペンギン先生

よくあるのは訓練80%・検証10%・テスト10%だけど、データ量や目的によって変わるよ。データが少ないときはクロスバリデーションっていう手法を使うこともあるんだ

ひよこ ひよこ

データは多ければ多いほどいいの?

ペンギン先生 ペンギン先生

基本はそうだけど、実はベテランエンジニアでも見落としがちな落とし穴があるんだ。偏ったデータを大量に集めると、むしろモデルの偏見が強化されちゃう。最近は「Data-Centric AI」って考え方が広まっていて、量より質を重視する流れになってきてるよ

ひよこ ひよこ

へぇ〜、ただ集めればいいってわけじゃないんだね!

ペンギン先生 ペンギン先生

そうそう。あとデータセットのライセンスも要注意だよ。学習に使っていいデータかどうか、商用利用OKかどうか、最近は法的にもすごく議論されてるところなんだ

ペンギン
まとめ:ざっくりこれだけ覚えればOK!
「データセット」って出てきたら「AIに学習させるための教材一式」と思えればだいたいOK!
📖 おまけ:英語の意味
「Dataset」 = データの集合
💬 data(データ)とset(集合)を組み合わせたそのままの言葉だよ。統計学の時代から使われていて、AI以前から研究の基本だったんだ
← 用語集にもどる