SWE-benchとは何ですか？

AIのコーディング能力を測定するベンチマーク。GitHubの実際のIssueをAIに解かせて、実践的なソフトウェア開発能力を評価する。

SWE-benchのポイントは？

GitHubの実際のPull Requestから作られた2,294個のタスクで構成される。AIがリポジトリを理解し、バグ修正やフィーチャー追加を正しく行えるか評価する。SWE-bench Verified（人手で検証した500問のサブセット）がより信頼性の高い指標として使われている。AIコーディングエージェントの性能比較に広く活用されている

【えすだぶりゅーいーべんち】

SWE-bench とは？

最終更新: 2026年4月1日

💡 AIプログラマーの実力テスト、本物のバグを直せるかが勝負

📌 このページのポイント

GitHubの実際のPull Requestから作られた2,294個のタスクで構成される
AIがリポジトリを理解し、バグ修正やフィーチャー追加を正しく行えるか評価する
SWE-bench Verified（人手で検証した500問のサブセット）がより信頼性の高い指標として使われている
AIコーディングエージェントの性能比較に広く活用されている

SWE-benchのイメージ

ひよこ

SWE-benchって、AIにプログラミングのテストをさせるものなの？

ペンギン先生

そうだよ。しかもただの問題集じゃなくて、GitHubの本物のIssue（バグ報告）を使っているんだ。実際のリポジトリを渡して「このバグを直して」と指示するんだよ

ひよこ

本物のバグを直すなんて難しそうだね！

ペンギン先生

難しいよ。まずリポジトリ全体のコードを理解して、バグの原因を特定して、正しく修正して、テストも通さないといけないんだ。単にコードを書くだけじゃなく、総合的な開発能力が試されるんだよ

ひよこ

今のAIはどのくらい解けるのかな？

ペンギン先生

2024年末の時点でトップのAIエージェントが50%前後の正答率だね。SWE-bench Verifiedという精査されたサブセットでの計測が主流になっているよ

ひよこ

100%になる日は来るのかな？

ペンギン先生

完全正答は難しいだろうね。人間のエンジニアでも解けない問題も含まれているから。ただ、AIの性能は急速に向上していて、毎月のように新記録が出ているよ。AIコーディングエージェントの進化の指標として要チェックだね

まとめ：ざっくりこれだけ覚えればOK！

「SWE-bench」って出てきたら「AIのプログラミング能力を測るテスト」と思えればだいたいOK！

📖 おまけ：英語の意味

「Software Engineering Benchmark」＝ソフトウェアエンジニアリングのベンチマーク

💬 SWEはソフトウェアエンジニアリングの略で、実際の開発タスクでAIを評価するんだよ

← 用語集にもどる