【えーびーてすと】

A/Bテスト(機械学習) とは?

💡 AIモデル同士を「実戦」で競わせるテスト
📌 このページのポイント
トラフィック分割によるA/Bテスト ユーザー トラフィック 分割 グループ A コントロール(現行版) 50% グループ B バリアント(変更版) 50% 指標比較 CVR クリック率 滞在時間 直帰率 勝者決定 ランダムにユーザーを振り分け、統計的に有意な差を検証する
A/Bテストの仕組み
ひよこ ひよこ

オフラインで評価すれば十分じゃないの?

ペンギン先生 ペンギン先生

テストデータでの評価は大事だけど、本番のユーザー行動は予測しきれないことが多いんだ。精度が高いモデルがビジネス指標(売上やクリック率)でも良いとは限らない。A/Bテストは実際のユーザーで試すから、本当に効果があるかを確かめられるんだよ。

ひよこ ひよこ

具体的にはどうやるの?

ペンギン先生 ペンギン先生

たとえばレコメンドモデルを改善したとき、ユーザーの50%には旧モデル(A)、50%には新モデル(B)の推薦を見せる。1〜2週間データを集めて、クリック率や購入率に統計的に有意な差があるかを確認するんだ。新モデルが勝てば全ユーザーに展開するよ。

ひよこ ひよこ

注意点はある?

ペンギン先生 ペンギン先生

大事なのは「十分なサンプルサイズ」と「適切な期間」だよ。少ないデータで判断すると偶然の差を実力と勘違いしてしまう。また曜日や季節の影響もあるから、最低1週間以上は走らせたいね。統計的検定でp値を確認して、感覚ではなく数字で判断することが重要なんだ。

ひよこ ひよこ

A/Bテスト以外にもっと効率的な方法ってないの?

ペンギン先生 ペンギン先生

「マルチアームバンディット」という手法があるよ。A/Bテストはテスト期間中ずっと均等に振り分けるけど、バンディットは途中で成績の良い方に自動的にトラフィックを寄せていくんだ。探索と活用のバランスを取れるから、テスト中の機会損失を減らせるんだよ。ただし統計的な厳密さはA/Bテストの方が上だから、目的によって使い分けるのが大事だね。

ペンギン
まとめ:ざっくりこれだけ覚えればOK!
A/Bテスト」って出てきたら「複数のモデルを同時に試して、データで優劣を判断する方法のことだな」と思えればだいたいOK!
📖 おまけ:英語の意味
「A/B Testing」 = AとBの比較テスト
💬 AパターンとBパターンを用意して比較するシンプルな考え方。マーケティングで生まれた手法をMLに応用したものだよ
← 用語集にもどる