【えふわんすこあ】

F1スコア とは?

💡 「正確さ」と「見逃しのなさ」を一つにまとめた「総合評価指標」
📌 このページのポイント
適合率・再現率・F1スコア 予測 Positive 実際の Positive FP 偽陽性 TP 真陽性 FN 偽陰性 TN(真陰性):両方の外側 計算式 適合率 Precision TP TP + FP 再現率 Recall TP TP + FN F1スコア 2 × P × R P + R F1スコアは適合率と再現率の調和平均で、両方のバランスを評価する指標
適合率・再現率・F1スコアの関係
ひよこ ひよこ

適合率と再現率って何が違うの?

ペンギン先生 ペンギン先生

適合率は「陽性と予測したうちの正解率」で、再現率は「実際の陽性のうち検出できた割合」だよ。スパムフィルターで例えると、適合率は「スパムと判断したメールのうち本当にスパムだった割合」、再現率は「全スパムメールのうちちゃんと検出できた割合」だね。

ひよこ ひよこ

どっちが大事なの?

ペンギン先生 ペンギン先生

問題によって違うよ。スパムフィルターなら適合率を重視(重要なメールを誤ってスパム扱いしたくない)、がん検診なら再現率を重視(見逃しを最小にしたい)。F1スコアはどちらも同等に大切なときに使う総合指標なんだ。

ひよこ ひよこ

調和平均って算術平均と何が違うの?

ペンギン先生 ペンギン先生

算術平均は(適合率再現率)÷2だけど、調和平均は2÷(1/適合率+1/再現率)という計算だよ。調和平均の特徴は、どちらかが低い方の値に引っ張られること。適合率0.9・再現率0.1の場合、算術平均は0.5だけど調和平均は約0.18と厳しくなる。どちらかが極端に悪いモデルに甘い点をつけないための設計なんだよ。

ひよこ ひよこ

F1スコアが同じでも適合率と再現率の組み合わせが全然違うことってあるの?

ペンギン先生 ペンギン先生

あるし、それがF1スコアだけ見ることの罠なんだ。適合率0.6・再現率0.6のモデルも、適合率0.9・再現率0.43のモデルも、F1スコアは同じくらいになる。でもどちらが優れているかはビジネス要件次第で全然違う。さらに「マクロF1」「マイクロF1」「加重平均F1」という集計方法の違いもあって、多クラス問題では何を報告すべきかを慎重に選ばないと評価が歪む。F1スコアは強力だけど、必ず適合率と再現率の内訳も一緒に確認するのがプロの習慣なんだよ。

ペンギン
まとめ:ざっくりこれだけ覚えればOK!
「F1スコア」って出てきたら「予測の正確さと見逃しのなさのバランスを一つの数値にした評価指標のことだな」と思えればだいたいOK!
📖 おまけ:英語の意味
「F1 Score」 = F値の1番目の形(β=1のFスコア)
💬 F-measure(F尺度)のβ=1のバージョン。Fはオランダの研究者Van Rijsbergenが提案した指標で、βが適合率と再現率のバランスを決めるよ
← 用語集にもどる