【えーゆーしー】

AUC(曲線下面積) とは?

💡 モデルの成績を「面積」で一発採点する指標
📌 このページのポイント
AUC(曲線下面積)の比較 AUC = 0.95(優秀) FPR TPR 面積 大 AUC = 0.62(微妙) FPR TPR 面積 小 0.5 ランダム 0.7〜0.8 実用 0.9〜1.0 優秀
AUCの比較:曲線下の面積が大きいほど優秀なモデル
ひよこ ひよこ

AUCって何の面積を測っているの?

ペンギン先生 ペンギン先生

ROC曲線という分類モデルの性能グラフの下側の面積だよ。テストの点数みたいなもので、0から1の間の数値でモデルの実力を表すんだ。1に近いほど優秀で、0.5だとコイン投げと同じレベルということだね。

ひよこ ひよこ

なんで面積で評価するの?

ペンギン先生 ペンギン先生

ROC曲線はしきい値を変えたときの性能変化をグラフにしたものなんだけど、グラフの形だけだと比較しにくいよね。面積にすれば「モデルAは0.92、モデルBは0.87」のように一つの数字で比べられるから便利なんだよ。

ひよこ ひよこ

どのくらいの値なら「良い」って言えるの?

ペンギン先生 ペンギン先生

一般的な目安としては、0.9以上で非常に優秀、0.8〜0.9で良好、0.7〜0.8で実用レベルといわれているよ。ただし分野によって基準は違って、医療診断なら0.95以上を求められることもあるし、マーケティングなら0.75でも十分活用できることもあるんだ。

ひよこ ひよこ

AUCが0.5ってどういう意味なの?

ペンギン先生 ペンギン先生

ROC曲線が対角線と一致する状態で、「ランダムに予測しているのと変わらない」ということだよ。実はAUCには確率的な解釈もあって、「陽性サンプルと陰性サンプルを1つずつランダムに取り出したとき、モデルが陽性の方に高いスコアをつける確率」がAUCの値なんだ。0.5なら五分五分ということだね。

ひよこ ひよこ

AUCだけ見ていれば安心なの?

ペンギン先生 ペンギン先生

万能ではないよ。データの陽性・陰性の比率が極端に偏っているとAUCが高くても実用的でないことがある。たとえば不正取引検知で陽性が0.01%しかない場合、AUCは良くても実際の適合率が低いことがあるんだ。そういうケースではPR-AUC(適合率-再現率曲線の面積)も一緒に確認するのがベストプラクティスだよ。

ひよこ ひよこ

PR-AUCとROC-AUCはどう使い分けるの?

ペンギン先生 ペンギン先生

クラスのバランスが取れているならROC-AUCで十分だよ。不均衡データの場合はPR-AUCの方が実態に合った評価になることが多いね。論文やKaggleのコンペでは両方報告するのが丁寧とされているし、実務でも目的に合った指標を選ぶのが大事だよ。

ペンギン
まとめ:ざっくりこれだけ覚えればOK!
「AUC」って出てきたら「分類モデルの実力を0〜1の数値で表したスコア」と思えればだいたいOK!
📖 おまけ:英語の意味
「Area Under the Curve」 = 曲線下面積
💬 「曲線の下の面積」をそのまま略した名前で、ROC曲線と組み合わせて使うことが多いからROC-AUCとも呼ばれるよ
← 用語集にもどる