【インシデントかんり(SRE)】
インシデント管理(SRE) とは?
💡 火事に備えた「消防訓練」と「原因究明」——障害を恐れず、繰り返さない仕組み。
📌 このページのポイント
それだけじゃないよ。検知→対応→復旧→振り返りというサイクル全体を体系的に回すことが大事なんだ。
On-callって何をする人なの?
インシデント対応中は何が一番重要なの?
まず「サービス復旧」が最優先だよ。原因究明より先に、ユーザーへの影響を最小化することを優先するんだ。原因の深掘りはサービスが回復してからポストモーテムで行うんだよ。
ポストモーテムって怖い言葉だね。責任追及するの?
逆だよ。Googleが広めた「責任を問わない(Blameless)」文化が基本で、個人を責めるのではなく、なぜシステムや手順が失敗を防げなかったかを分析するんだ。
エラーバジェットとインシデントはどう関係するの?
📖 おまけ:英語の意味
「Incident Management (SRE)」 = インシデント管理(サイト信頼性エンジニアリング)
💬 Incident(インシデント)はIT文脈で「サービスに影響を与える予期せぬ障害や低下」を指すよ。SREの文脈では単なる対応だけでなく、学習と改善のサイクル全体をインシデント管理と呼ぶんだ。