【データドリフト】

データドリフト とは?

💡 昨日まで正解だった教科書が、今日はもう通用しないかも
📌 このページのポイント
データドリフト 学習時のデータ μ = 50 時間経過 分布がズレる 現在のデータ μ = 70 入力データの統計的性質(平均・分散・分布)が 学習時と現在でズレる → 予測精度が低下
データドリフトのイメージ
ひよこ ひよこ

データドリフトって、データが壊れちゃうってこと?

ペンギン先生 ペンギン先生

壊れるというより「ズレていく」イメージだよ。たとえばECサイトのレコメンドAIが2019年のデータで学習したとして、コロナ禍で人々の購買行動がガラッと変わったらどうなると思う?

ひよこ ひよこ

あー、学習した時と全然違うデータが来るから、的外れなおすすめをしちゃうってことなの?

ペンギン先生 ペンギン先生

そのとおり!AIは「学習時のデータはこういう傾向だった」という前提で予測するから、入力データの分布が変わると精度が落ちるんだ。これがデータドリフトだよ

ひよこ ひよこ

どうやって気づけばいいの?

ペンギン先生 ペンギン先生

入力データの統計量(平均値、分散、分布の形など)を定期的にモニタリングするんだ。KSテストやPSI(Population Stability Index)といった統計的な手法で「学習時と今のデータにどれくらい差があるか」を数値化できるよ

ひよこ ひよこ

見つけたらどうするの?モデルを作り直すの?

ペンギン先生 ペンギン先生

最新データで再学習するのが基本だね。ただし毎回フルで学習し直すとコストがかかるから、増分学習やファインチューニングで効率よく対応することもあるよ

ひよこ ひよこ

コンセプトドリフトとは何が違うの?

ペンギン先生 ペンギン先生

いい質問だね。データドリフトは「入力データの分布が変わること」で、コンセプトドリフトは「入力と正解の関係性が変わること」なんだ。たとえばユーザーの年齢層が変わるのがデータドリフト、同じ年齢層でも好みのジャンルが変わるのがコンセプトドリフトだよ

ペンギン
まとめ:ざっくりこれだけ覚えればOK!
「データドリフト」って出てきたら「AIに入るデータが学習時とずれてきて精度が落ちること」と思えればだいたいOK!
📖 おまけ:英語の意味
「Data Drift」 = データの漂流・変動
💬 Drift は「漂流する」「ずれていく」という意味で、データの性質がゆっくり変化していく様子を表しているよ
← 用語集にもどる