インシデント管理とは何ですか？

システム障害やサービス停止などのインシデントを記録・分類・対応・解決し、サービスを早期に復旧するプロセス。

インシデント管理のポイントは？

ITILの中核プロセスの一つ。インシデント＝ITサービスの中断や品質低下を引き起こす事象。検知→記録→分類→優先度付け→対応→解決→クローズの流れ。ServiceNow、Jira Service Management、PagerDutyなどで管理

【いんしでんとかんり】

💡 トラブル発生から解決までを「漏れなく管理」する

📌 このページのポイント

インシデント管理のイメージ

ひよこ

インシデントと問題（Problem）の違いは？

ペンギン先生

インシデントは「今起きている障害」を早く直すこと。問題は「なぜ障害が起きたのか」の根本原因を追究すること。例えばサーバーダウンしたら、インシデント管理で「まず復旧」→問題管理で「なぜ落ちたか調査→再発防止」という2段階で対処するんだよ

ひよこ

優先度ってどう決めるの？

ペンギン先生

一般的には「影響度×緊急度」で決めるよ。影響度は「何人に影響があるか」「ビジネスインパクトはどの程度か」。緊急度は「いつまでに直す必要があるか」。全社メールが止まったらP1（最高優先度）、特定部署のプリンタ不具合ならP3程度、のように分類するんだ

ひよこ

ペンギン先生

一次対応者で解決できない場合に、より専門的なチームや上位者に引き継ぐことだよ。「機能エスカレーション」（技術的に高度なチームに引き継ぐ）と「階層エスカレーション」（マネージャーや経営層に判断を仰ぐ）の2種類がある。エスカレーションのルールを事前に決めておくことが重要だね

ひよこ

ペンギン先生

重大なインシデントが解決した後に実施する振り返りがポストモーテム（事後分析）だよ。「何が起きたか」「なぜ起きたか」「次にどう防ぐか」を非難なく議論する。Google SREの文化として有名で、インシデント管理の改善サイクルを回すために不可欠なプラクティスだね

まとめ：ざっくりこれだけ覚えればOK！

「インシデント管理」って出てきたら「システム障害の発生から解決までを管理するプロセス」と思えればだいたいOK！

📖 おまけ：英語の意味

「Incident Management」＝インシデント管理

💬 Incident（出来事・事件）をManagement（管理）する。障害対応を「なんとなく」ではなく「仕組み」で行うよ