【とうけいてきばいあす】
統計的バイアス とは?
💡 データが嘘をつくのではなく、偏りが嘘をつかせる
📌 このページのポイント
- サンプリングや計測の過程で一定方向に結果がズレてしまう現象
- ランダム誤差と違って試行回数を増やしても消えないのが厄介
- AIモデルの学習データに含まれると予測結果そのものが歪む
- バイアスの種類を知っておくことで対策や検出がしやすくなる
統計的バイアスって、要するにデータが間違ってるってこと?
データそのものが間違いというよりも、集め方や分析のやり方に偏りがあって結果が一方向にズレてしまうことだよ。テストの点数を調べるのに優等生だけに聞いたら平均点が高くなるよね。それが統計的バイアスだよ
ランダムな誤差とは違うの?
ランダム誤差はサンプルを増やせば相殺されるけど、統計的バイアスは何万件集めても同じ方向にズレ続けるのが厄介なんだ。体重計が常に1kg多く表示されてたら、何回測っても正しい値にはならないでしょ
AIにも影響あるの?
大ありだよ。学習データに統計的バイアスがあると、モデルの予測もそのまま偏る。たとえば採用AIに過去の偏ったデータを学習させると、特定の属性の人を不当に低評価してしまうケースが実際に起きているんだ
どうやったら防げるの?
まずはバイアスの種類を知ること。選択バイアス、確証バイアス、生存バイアスなど名前がついている偏りは数十種類あるよ。データ収集の段階で層化サンプリングを使ったり、分析段階でバイアス補正の手法を適用したりするのが基本的な対策だね
まとめ:ざっくりこれだけ覚えればOK!
統計的バイアスって出てきたら「データの偏りが原因で結論がズレること」と思えればだいたいOK!
📖 おまけ:英語の意味
「Statistical Bias」 = 統計的偏り
💬 Biasはもともと布地の「斜め」を意味する古フランス語が由来で、まっすぐではない=偏っている、というニュアンスだよ