【えるえるえむひょうか】
LLM評価(Evals) とは?
💡 AIの通知表をつける、意外と難しい採点係のお仕事
📌 このページのポイント
LLMの評価って、テストの点数みたいなもの?
近いけど、もっと複雑なんだ。学校のテストと違って「正解が1つじゃない問題」が多いから、何をもって良いとするか自体が難しいんだよ
どんな評価方法があるの?
AIがAIを採点するって、ちゃんと評価できるの?
いい疑問だね。実は人間の評価とかなり相関が高いことがわかっていて、コスト面で現実的な方法として広まっているよ。ただし採点するLLM自身のバイアスが入る問題もあるんだ
リーダーボードの順位って信用していいの?
まとめ:ざっくりこれだけ覚えればOK!
「Evals」って出てきたら「LLMの性能を測るテストや評価の仕組み」と思えればだいたいOK!
📖 おまけ:英語の意味
「LLM Evaluation」 = 大規模言語モデルの評価
💬 Evals(イーバルズ)はEvaluationsの略で、業界では略称のほうがよく使われるよ