【インシデントかんり(SRE)】

インシデント管理(SRE) とは?

💡 火事に備えた「消防訓練」と「原因究明」——障害を恐れず、繰り返さない仕組み。
📌 このページのポイント
SREインシデント対応サイクル ① 検知 SLO違反アラート On-call へ通知 ② トリアージ 影響範囲確認 優先度判断 ③ 対応 Incident Commander チームで復旧作業 ④ 復旧 サービス 正常化 ⑤ ポストモーテム(事後分析) Blameless(犯人探しなし) なぜ起きたか? 再発防止策は? 改善 フィード バック エラーバジェット SLO余裕分を管理 枯渇→リリース停止 SLO 監視 可用性99.9% レイテンシ目標 「障害は起きて当たり前」——学習と改善のサイクルが信頼性を高める
SREインシデント管理のイメージ:検知から事後分析まで体系的に回すサイクル
ひよこ ひよこ

SREインシデント管理って、障害が起きたときに対応するだけじゃないの?

ペンギン先生 ペンギン先生

それだけじゃないよ。検知→対応→復旧→振り返りというサイクル全体を体系的に回すことが大事なんだ。

ひよこ ひよこ

On-callって何をする人なの?

ペンギン先生 ペンギン先生

当番制でアラートを受け取り、最初に状況を判断して対応するエンジニアだよ。SLOが定めた閾値を超えたときにPagerDutyなどで通知が来て、Incident Commander(指揮官)を立てて対応チームをまとめるんだ。

ひよこ ひよこ

インシデント対応中は何が一番重要なの?

ペンギン先生 ペンギン先生

まず「サービス復旧」が最優先だよ。原因究明より先に、ユーザーへの影響を最小化することを優先するんだ。原因の深掘りはサービスが回復してからポストモーテムで行うんだよ。

ひよこ ひよこ

ポストモーテムって怖い言葉だね。責任追及するの?

ペンギン先生 ペンギン先生

逆だよ。Googleが広めた「責任を問わない(Blameless)」文化が基本で、個人を責めるのではなく、なぜシステムや手順が失敗を防げなかったかを分析するんだ。

ひよこ ひよこ

エラーバジェットとインシデントはどう関係するの?

ペンギン先生 ペンギン先生

SLOは例えば『月間99.9%の可用性』という目標で、残り0.1%分が使えるエラーバジェットだよ。インシデントが多くてバジェットが枯渇すると、新機能リリースを止めて信頼性改善に集中するというルールを設けるチームも多いんだ。

ペンギン
まとめ:ざっくりこれだけ覚えればOK!
インシデント管理SRE)」って出てきたら「SREが障害を体系的に検知・対応・振り返りする仕組み」と思えればだいたいOK!
📖 おまけ:英語の意味
「Incident Management (SRE)」 = インシデント管理(サイト信頼性エンジニアリング)
💬 Incident(インシデント)はIT文脈で「サービスに影響を与える予期せぬ障害や低下」を指すよ。SREの文脈では単なる対応だけでなく、学習と改善のサイクル全体をインシデント管理と呼ぶんだ。
← 用語集にもどる