F1スコアとは何ですか？

適合率と再現率の調和平均で、不均衡なデータの分類モデルを評価するための指標。正解率より実態に近い性能評価ができる。

F1スコアのポイントは？

適合率（Precision）と再現率（Recall）の調和平均。どちらかが低いと大幅にペナルティがかかる計算式。データが偏っている分類問題に特に有効。1.0が最高点、0が最低点

【えふわんすこあ】

F1スコアとは？

💡 「正確さ」と「見逃しのなさ」を一つにまとめた「総合評価指標」

📌 このページのポイント

適合率（Precision）と再現率（Recall）の調和平均
どちらかが低いと大幅にペナルティがかかる計算式
データが偏っている分類問題に特に有効
1.0が最高点、0が最低点

適合率・再現率・F1スコアの関係

ひよこ

適合率と再現率って何が違うの？

ペンギン先生

適合率は「陽性と予測したうちの正解率」で、再現率は「実際の陽性のうち検出できた割合」だよ。スパムフィルターで例えると、適合率は「スパムと判断したメールのうち本当にスパムだった割合」、再現率は「全スパムメールのうちちゃんと検出できた割合」だね。

ひよこ

どっちが大事なの？

ペンギン先生

問題によって違うよ。スパムフィルターなら適合率を重視（重要なメールを誤ってスパム扱いしたくない）、がん検診なら再現率を重視（見逃しを最小にしたい）。F1スコアはどちらも同等に大切なときに使う総合指標なんだ。

ひよこ

調和平均って算術平均と何が違うの？

ペンギン先生

算術平均は（適合率＋再現率）÷2だけど、調和平均は2÷（1/適合率＋1/再現率）という計算だよ。調和平均の特徴は、どちらかが低い方の値に引っ張られること。適合率0.9・再現率0.1の場合、算術平均は0.5だけど調和平均は約0.18と厳しくなる。どちらかが極端に悪いモデルに甘い点をつけないための設計なんだよ。

ひよこ

F1スコアが同じでも適合率と再現率の組み合わせが全然違うことってあるの？

ペンギン先生

あるし、それがF1スコアだけ見ることの罠なんだ。適合率0.6・再現率0.6のモデルも、適合率0.9・再現率0.43のモデルも、F1スコアは同じくらいになる。でもどちらが優れているかはビジネス要件次第で全然違う。さらに「マクロF1」「マイクロF1」「加重平均F1」という集計方法の違いもあって、多クラス問題では何を報告すべきかを慎重に選ばないと評価が歪む。F1スコアは強力だけど、必ず適合率と再現率の内訳も一緒に確認するのがプロの習慣なんだよ。

まとめ：ざっくりこれだけ覚えればOK！

「F1スコア」って出てきたら「予測の正確さと見逃しのなさのバランスを一つの数値にした評価指標のことだな」と思えればだいたいOK！

📖 おまけ：英語の意味

「F1 Score」＝ F値の1番目の形（β=1のFスコア）

💬 F-measure（F尺度）のβ=1のバージョン。Fはオランダの研究者Van Rijsbergenが提案した指標で、βが適合率と再現率のバランスを決めるよ

← 用語集にもどる

F1スコア とは？

F1スコアとは？