【えすだぶりゅーいーべんち】

SWE-bench とは?

💡 AIプログラマーの実力テスト、本物のバグを直せるかが勝負
📌 このページのポイント
SWE-bench: AIコーディング能力の評価 GitHub Issue バグ報告 + リポジトリ全体 (2,294問) AIエージェント コード理解 → 修正パッチ生成 テスト実行 ユニットテストで 正解を判定 PASS FAIL SWE-bench Verified リーダーボード(例) 1位 50% 2位 43% 3位 38%
SWE-benchのイメージ
ひよこ ひよこ

SWE-benchって、AIにプログラミングのテストをさせるものなの?

ペンギン先生 ペンギン先生

そうだよ。しかもただの問題集じゃなくて、GitHubの本物のIssue(バグ報告)を使っているんだ。実際のリポジトリを渡して「このバグを直して」と指示するんだよ

ひよこ ひよこ

本物のバグを直すなんて難しそうだね!

ペンギン先生 ペンギン先生

難しいよ。まずリポジトリ全体のコードを理解して、バグの原因を特定して、正しく修正して、テストも通さないといけないんだ。単にコードを書くだけじゃなく、総合的な開発能力が試されるんだよ

ひよこ ひよこ

今のAIはどのくらい解けるのかな?

ペンギン先生 ペンギン先生

2024年末の時点でトップのAIエージェントが50%前後の正答率だね。SWE-bench Verifiedという精査されたサブセットでの計測が主流になっているよ

ひよこ ひよこ

100%になる日は来るのかな?

ペンギン先生 ペンギン先生

完全正答は難しいだろうね。人間のエンジニアでも解けない問題も含まれているから。ただ、AIの性能は急速に向上していて、毎月のように新記録が出ているよ。AIコーディングエージェントの進化の指標として要チェックだね

ペンギン
まとめ:ざっくりこれだけ覚えればOK!
「SWE-bench」って出てきたら「AIのプログラミング能力を測るテスト」と思えればだいたいOK!
📖 おまけ:英語の意味
「Software Engineering Benchmark」 = ソフトウェアエンジニアリングのベンチマーク
💬 SWEはソフトウェアエンジニアリングの略で、実際の開発タスクでAIを評価するんだよ
← 用語集にもどる