【いんしでんとかんり】

インシデント管理 とは?

💡 トラブル発生から解決までを「漏れなく管理」する
📌 このページのポイント
インシデント管理フロー ①検知 アラート 障害発生 ②分類 重大度判定 優先度付け ③対応 担当アサイン 調査・応急処置 ④解決 原因修正 復旧確認 ⑤振返り ポストモーテム 再発防止策 重大度レベル P1: 緊急 P2: 高 P3: 中 P4: 低 レベルに応じて対応速度・エスカレーション先が変わる
インシデント管理のイメージ
ひよこ ひよこ

インシデントと問題(Problem)の違いは?

ペンギン先生 ペンギン先生

インシデントは「今起きている障害」を早く直すこと。問題は「なぜ障害が起きたのか」の根本原因を追究すること。例えばサーバーダウンしたら、インシデント管理で「まず復旧」→問題管理で「なぜ落ちたか調査→再発防止」という2段階で対処するんだよ

ひよこ ひよこ

優先度ってどう決めるの?

ペンギン先生 ペンギン先生

一般的には「影響度×緊急度」で決めるよ。影響度は「何人に影響があるか」「ビジネスインパクトはどの程度か」。緊急度は「いつまでに直す必要があるか」。全社メールが止まったらP1(最高優先度)、特定部署のプリンタ不具合ならP3程度、のように分類するんだ

ひよこ ひよこ
ペンギン先生 ペンギン先生

一次対応者で解決できない場合に、より専門的なチームや上位者に引き継ぐことだよ。「機能エスカレーション」(技術的に高度なチームに引き継ぐ)と「階層エスカレーション」(マネージャーや経営層に判断を仰ぐ)の2種類がある。エスカレーションのルールを事前に決めておくことが重要だね

ひよこ ひよこ

ポストモーテムとの関係は?

ペンギン先生 ペンギン先生

重大なインシデントが解決した後に実施する振り返りがポストモーテム(事後分析)だよ。「何が起きたか」「なぜ起きたか」「次にどう防ぐか」を非難なく議論する。Google SREの文化として有名で、インシデント管理の改善サイクルを回すために不可欠なプラクティスだね

ペンギン
まとめ:ざっくりこれだけ覚えればOK!
「インシデント管理」って出てきたら「システム障害の発生から解決までを管理するプロセス」と思えればだいたいOK!
📖 おまけ:英語の意味
「Incident Management」 = インシデント管理
💬 Incident(出来事・事件)をManagement(管理)する。障害対応を「なんとなく」ではなく「仕組み」で行うよ
← 用語集にもどる