【データドリフト】
データドリフト とは?
💡 昨日まで正解だった教科書が、今日はもう通用しないかも
📌 このページのポイント
- AIモデルが学習したデータと、実際に入ってくるデータの分布がずれていく現象
- ユーザーの行動変化、季節変動、社会情勢の変化などが原因で起こる
- データドリフトを放置すると予測精度が徐々に低下し、ビジネスに悪影響を与える
- 統計的検定やモニタリングツールで定期的に検出・対処することが重要
データドリフトって、データが壊れちゃうってこと?
壊れるというより「ズレていく」イメージだよ。たとえばECサイトのレコメンドAIが2019年のデータで学習したとして、コロナ禍で人々の購買行動がガラッと変わったらどうなると思う?
あー、学習した時と全然違うデータが来るから、的外れなおすすめをしちゃうってことなの?
そのとおり!AIは「学習時のデータはこういう傾向だった」という前提で予測するから、入力データの分布が変わると精度が落ちるんだ。これがデータドリフトだよ
どうやって気づけばいいの?
入力データの統計量(平均値、分散、分布の形など)を定期的にモニタリングするんだ。KSテストやPSI(Population Stability Index)といった統計的な手法で「学習時と今のデータにどれくらい差があるか」を数値化できるよ
見つけたらどうするの?モデルを作り直すの?
最新データで再学習するのが基本だね。ただし毎回フルで学習し直すとコストがかかるから、増分学習やファインチューニングで効率よく対応することもあるよ
コンセプトドリフトとは何が違うの?
まとめ:ざっくりこれだけ覚えればOK!
「データドリフト」って出てきたら「AIに入るデータが学習時とずれてきて精度が落ちること」と思えればだいたいOK!
📖 おまけ:英語の意味
「Data Drift」 = データの漂流・変動
💬 Drift は「漂流する」「ずれていく」という意味で、データの性質がゆっくり変化していく様子を表しているよ