インシデント管理（SRE）とは何ですか？

SRE（サイト信頼性エンジニアリング）の観点から、障害の検知・対応・復旧・振り返りまでを体系的に行うプロセス。On-callやポストモーテムがその中核を担う。

インシデント管理（SRE）のポイントは？

検知（アラート）→トリアージ→対応（Incident Commander）→復旧→ポストモーテムの流れが基本。On-callエンジニアがSLO違反のアラートを受けて初動対応を担う。ポストモーテム（事後分析）では「犯人探し」でなく「なぜ起きたか」のシステム的原因を掘り下げる。「エラーバジェット」の消費状況がインシデントの優先度に影響する

【インシデントかんり（SRE）】

インシデント管理（SRE）とは？

公開: 2026年4月13日

💡 火事に備えた「消防訓練」と「原因究明」——障害を恐れず、繰り返さない仕組み。

📌 このページのポイント

検知（アラート）→トリアージ→対応（Incident Commander）→復旧→ポストモーテムの流れが基本
On-callエンジニアがSLO違反のアラートを受けて初動対応を担う
ポストモーテム（事後分析）では「犯人探し」でなく「なぜ起きたか」のシステム的原因を掘り下げる
「エラーバジェット」の消費状況がインシデントの優先度に影響する

SREインシデント管理のイメージ：検知から事後分析まで体系的に回すサイクル

ひよこ

SREのインシデント管理って、障害が起きたときに対応するだけじゃないの？

ペンギン先生

それだけじゃないよ。検知→対応→復旧→振り返りというサイクル全体を体系的に回すことが大事なんだ。

ひよこ

On-callって何をする人なの？

ペンギン先生

当番制でアラートを受け取り、最初に状況を判断して対応するエンジニアだよ。SLOが定めた閾値を超えたときにPagerDutyなどで通知が来て、Incident Commander（指揮官）を立てて対応チームをまとめるんだ。

ひよこ

インシデント対応中は何が一番重要なの？

ペンギン先生

まず「サービス復旧」が最優先だよ。原因究明より先に、ユーザーへの影響を最小化することを優先するんだ。原因の深掘りはサービスが回復してからポストモーテムで行うんだよ。

ひよこ

ポストモーテムって怖い言葉だね。責任追及するの？

ペンギン先生

逆だよ。Googleが広めた「責任を問わない（Blameless）」文化が基本で、個人を責めるのではなく、なぜシステムや手順が失敗を防げなかったかを分析するんだ。

ひよこ

エラーバジェットとインシデントはどう関係するの？

ペンギン先生

SLOは例えば『月間99.9%の可用性』という目標で、残り0.1%分が使えるエラーバジェットだよ。インシデントが多くてバジェットが枯渇すると、新機能リリースを止めて信頼性改善に集中するというルールを設けるチームも多いんだ。

まとめ：ざっくりこれだけ覚えればOK！

「インシデント管理（SRE）」って出てきたら「SREが障害を体系的に検知・対応・振り返りする仕組み」と思えればだいたいOK！

📖 おまけ：英語の意味

「Incident Management (SRE)」＝インシデント管理（サイト信頼性エンジニアリング）

💬 Incident（インシデント）はIT文脈で「サービスに影響を与える予期せぬ障害や低下」を指すよ。SREの文脈では単なる対応だけでなく、学習と改善のサイクル全体をインシデント管理と呼ぶんだ。

← 用語集にもどる

インシデント管理（SRE） とは？

インシデント管理（SRE）とは？