【とうけいてきばいあす】

統計的バイアス とは?

💡 データが嘘をつくのではなく、偏りが嘘をつかせる
📌 このページのポイント
統計的バイアス:ランダム誤差との違い ランダム誤差 中心の周りにバラつく 平均すれば正しい値に近づく 統計的バイアス 一方向にズレ続ける 増やしても正しい値にならない
ランダム誤差と統計的バイアスの違い
ひよこ ひよこ

統計的バイアスって、要するにデータが間違ってるってこと?

ペンギン先生 ペンギン先生

データそのものが間違いというよりも、集め方や分析のやり方に偏りがあって結果が一方向にズレてしまうことだよ。テストの点数を調べるのに優等生だけに聞いたら平均点が高くなるよね。それが統計的バイアスだよ

ひよこ ひよこ

ランダムな誤差とは違うの?

ペンギン先生 ペンギン先生

ランダム誤差はサンプルを増やせば相殺されるけど、統計的バイアスは何万件集めても同じ方向にズレ続けるのが厄介なんだ。体重計が常に1kg多く表示されてたら、何回測っても正しい値にはならないでしょ

ひよこ ひよこ

AIにも影響あるの?

ペンギン先生 ペンギン先生

大ありだよ。学習データに統計的バイアスがあると、モデルの予測もそのまま偏る。たとえば採用AIに過去の偏ったデータを学習させると、特定の属性の人を不当に低評価してしまうケースが実際に起きているんだ

ひよこ ひよこ

どうやったら防げるの?

ペンギン先生 ペンギン先生

まずはバイアスの種類を知ること。選択バイアス、確証バイアス、生存バイアスなど名前がついている偏りは数十種類あるよ。データ収集の段階で層化サンプリングを使ったり、分析段階でバイアス補正の手法を適用したりするのが基本的な対策だね

ペンギン
まとめ:ざっくりこれだけ覚えればOK!
統計的バイアスって出てきたら「データの偏りが原因で結論がズレること」と思えればだいたいOK!
📖 おまけ:英語の意味
「Statistical Bias」 = 統計的偏り
💬 Biasはもともと布地の「斜め」を意味する古フランス語が由来で、まっすぐではない=偏っている、というニュアンスだよ
← 用語集にもどる