【えすだぶりゅーいーべんち】
SWE-bench とは?
💡 AIプログラマーの実力テスト、本物のバグを直せるかが勝負
📌 このページのポイント
SWE-benchって、AIにプログラミングのテストをさせるものなの?
本物のバグを直すなんて難しそうだね!
難しいよ。まずリポジトリ全体のコードを理解して、バグの原因を特定して、正しく修正して、テストも通さないといけないんだ。単にコードを書くだけじゃなく、総合的な開発能力が試されるんだよ
今のAIはどのくらい解けるのかな?
2024年末の時点でトップのAIエージェントが50%前後の正答率だね。SWE-bench Verifiedという精査されたサブセットでの計測が主流になっているよ
100%になる日は来るのかな?
完全正答は難しいだろうね。人間のエンジニアでも解けない問題も含まれているから。ただ、AIの性能は急速に向上していて、毎月のように新記録が出ているよ。AIコーディングエージェントの進化の指標として要チェックだね
まとめ:ざっくりこれだけ覚えればOK!
「SWE-bench」って出てきたら「AIのプログラミング能力を測るテスト」と思えればだいたいOK!
📖 おまけ:英語の意味
「Software Engineering Benchmark」 = ソフトウェアエンジニアリングのベンチマーク
💬 SWEはソフトウェアエンジニアリングの略で、実際の開発タスクでAIを評価するんだよ