【もでるひょうか】

モデル評価 とは?

💡 AIの「通信簿」—どれだけ賢いかを数字で測る
📌 このページのポイント
モデル評価 ― AIモデルの性能を測る指標 混同行列 予測 陽性 陰性 実際 陽性 陰性 TP FN FP TN TP=真陽性 FP=偽陽性 FN=偽陰性 TN=真陰性 主要な評価指標 正解率 (Accuracy) (TP+TN) / 全体 適合率 (Precision) TP / (TP+FP) 再現率 (Recall) TP / (TP+FN) F1スコア 適合率と再現率の調和平均 AUC-ROC: モデルの識別能力を総合的に評価(0.5〜1.0) 評価指標の使い分け スパム検出 → 再現率重視(見逃しを減らしたい) 医療診断 → 適合率重視(誤検出を減らしたい)
モデル評価のイメージ
ひよこ ひよこ

モデル評価って何をするの?

ペンギン先生 ペンギン先生

作った機械学習モデルが「どれだけ正しく予測できるか」を数値で測る作業だよ。テスト用のデータを渡して、予測結果と正解を比較するんだ。評価なしだと「良いモデルか悪いモデルか」がわからないから必須の工程だよ。

ひよこ ひよこ

「精度(Accuracy)」だけ見ればいいんじゃないの?

ペンギン先生 ペンギン先生

それが落とし穴でね。例えばガン検査のAIで「全員陰性と判定」すると精度99%でも役に立たないんだ。医療や詐欺検知では「本当の陽性を見逃さない」再現率Recall)が重要で、目的に合った指標を選ぶことが大事なんだよ。

ひよこ ひよこ

訓練データテストデータを分けるのはなぜ?

ペンギン先生 ペンギン先生

学習に使ったデータでテストすると「答えを覚えてるだけ」で本当の実力がわからないからだよ。学校のテストで問題を事前に教えてもらうのと同じ状況になってしまう。だから未知のデータでテストして初めて「本当の実力」がわかるんだ。

ひよこ ひよこ

交差検証って何がいいの?

ペンギン先生 ペンギン先生

データを何分割かして、全パターンで「学習→テスト」を繰り返して平均を取る手法だよ。たまたまテストデータが簡単すぎたり難しすぎたりするブレを防げる。特にデータが少ないときに評価の信頼性を上げるのに有効なんだ。

ペンギン
まとめ:ざっくりこれだけ覚えればOK!
「モデル評価」って出てきたら「機械学習モデルがどれだけうまく予測できるかを測る工程のことだな」と思えばだいたいOK!
📖 おまけ:英語の意味
「Model Evaluation」 = モデル評価
💬 Modelは機械学習モデル(数学的な予測関数)、Evaluationはそのパフォーマンスを測定・評価することを指すよ
← 用語集にもどる