【えるえるえむひょうか】

LLM評価(Evals) とは?

💡 AIの通知表をつける、意外と難しい採点係のお仕事
📌 このページのポイント
LLM評価(Evals)の3つのアプローチ ベンチマーク MMLU HumanEval MT-Bench 定量的・自動化 人間による評価 👤 vs 👤 Chatbot Arena ブラインド比較で どちらが良いか投票 高信頼・高コスト LLM-as-a-Judge 🤖→📝 強いLLMが 他のLLMの回答を 採点する 自動化・低コスト 複数の評価軸を組み合わせて総合的に判断することが重要
LLM評価のイメージ
ひよこ ひよこ

LLMの評価って、テストの点数みたいなもの?

ペンギン先生 ペンギン先生

近いけど、もっと複雑なんだ。学校のテストと違って「正解が1つじゃない問題」が多いから、何をもって良いとするか自体が難しいんだよ

ひよこ ひよこ

どんな評価方法があるの?

ペンギン先生 ペンギン先生

大きく3つあるよ。MMLUのような選択式ベンチマーク、Chatbot Arenaのような人間による比較評価、そしてGPT-4などの強いLLMに採点させるLLM-as-a-Judge方式だね

ひよこ ひよこ

AIがAIを採点するって、ちゃんと評価できるの?

ペンギン先生 ペンギン先生

いい疑問だね。実は人間の評価とかなり相関が高いことがわかっていて、コスト面で現実的な方法として広まっているよ。ただし採点するLLM自身のバイアスが入る問題もあるんだ

ひよこ ひよこ

リーダーボードの順位って信用していいの?

ペンギン先生 ペンギン先生

鵜呑みは危険だね。ベンチマーク過学習(テスト問題を暗記)しているモデルもあるし、特定タスクだけ強いモデルもある。だから複数の評価軸を見て総合判断するのが大事だよ

ペンギン
まとめ:ざっくりこれだけ覚えればOK!
「Evals」って出てきたら「LLMの性能を測るテストや評価の仕組み」と思えればだいたいOK!
📖 おまけ:英語の意味
「LLM Evaluation」 = 大規模言語モデルの評価
💬 Evals(イーバルズ)はEvaluationsの略で、業界では略称のほうがよく使われるよ
← 用語集にもどる