【データセット】
データセット とは?
💡 AIにとっての「教科書」と「問題集」のセット
📌 このページのポイント
- 機械学習モデルの訓練・検証・テストに使うデータをまとめたもの
- 一般的に「訓練用」「検証用」「テスト用」の3つに分割して使う
- データの量だけでなく、質(正確さ・偏りのなさ)が非常に重要
- ImageNet、MNIST、Common Crawlなど有名なデータセットが数多く公開されている
データセットってただのデータの集まりでしょ?何がそんなに大事なの?
料理にたとえると、データセットは「食材」なんだよ。どんなに腕のいいシェフ(モデル)でも、食材が腐ってたらおいしい料理は作れないよね
〜。訓練用とかテスト用とか分けるのはなんで?
学校でいうと、訓練用は「授業で使う教科書」、検証用は「小テスト」、テスト用は「期末テスト」みたいなものだね。期末テストの問題を先に見せちゃったら意味ないでしょ?
カンニングになっちゃうってことか!分割の比率って決まってるの?
よくあるのは訓練80%・検証10%・テスト10%だけど、データ量や目的によって変わるよ。データが少ないときはクロスバリデーションっていう手法を使うこともあるんだ
データは多ければ多いほどいいの?
基本はそうだけど、実はベテランエンジニアでも見落としがちな落とし穴があるんだ。偏ったデータを大量に集めると、むしろモデルの偏見が強化されちゃう。最近は「Data-Centric AI」って考え方が広まっていて、量より質を重視する流れになってきてるよ
へぇ〜、ただ集めればいいってわけじゃないんだね!
そうそう。あとデータセットのライセンスも要注意だよ。学習に使っていいデータかどうか、商用利用OKかどうか、最近は法的にもすごく議論されてるところなんだ
まとめ:ざっくりこれだけ覚えればOK!
「データセット」って出てきたら「AIに学習させるための教材一式」と思えればだいたいOK!
📖 おまけ:英語の意味
「Dataset」 = データの集合
💬 data(データ)とset(集合)を組み合わせたそのままの言葉だよ。統計学の時代から使われていて、AI以前から研究の基本だったんだ