【えるえるえむべんちまーく】
LLMベンチマーク とは?
💡 AIの偏差値、どのモデルが賢いか数字で比べる通信簿
📌 このページのポイント
LLMベンチマークって、AIのテストみたいなものかな?
そうだよ。いろんなAIモデルを同じ問題で評価して、どれが優秀か数字で比較するんだ。人間の模試やテストと同じ発想だね
どんな種類のテストがあるの?
MMLUは57科目の知識テスト、HumanEvalはプログラミング能力、GSM8Kは数学の文章題、MATHはより高度な数学といった具合に、いろんな能力を測るテストがあるよ
スコアが高ければいいAIってこと?
じゃあどうやって判断すればいいのかな?
最近はChatbot Arenaのように、人間がAI同士を直接比較する評価方法や、SWE-benchのように実践的なタスクで測る方法が注目されているよ。複数の指標を総合的に見ることが大事だね
📖 おまけ:英語の意味
「Large Language Model Benchmark」 = 大規模言語モデルのベンチマーク
💬 ベンチマークはもともと測量の基準点のことで、性能比較の基準という意味で使われるようになったんだよ