【いんしでんとたいむらいん】

インシデントタイムライン とは?

💡 障害対応の航海日誌、「いつ何が起きたか」を正確に記録
📌 このページのポイント
インシデントタイムラインの例 14:00 障害発生 アラート発報 14:05 オンコール確認 調査開始 14:15 エスカレーション チームリーダー召集 14:30 原因特定 DBの過負荷 14:45 復旧完了 サービス正常化 検知→対応: 5分 検知→原因特定: 30分 検知→復旧(MTTR): 45分 時系列記録により、ポストモーテムでの客観的な振り返りが可能になる
障害の発生から復旧までを時系列で記録
ひよこ ひよこ

インシデントタイムラインって、障害の記録のこと?

ペンギン先生 ペンギン先生

ただの記録じゃなく、「時系列」がポイントなんだ。「14:00にアラート発報」「14:05にオンコール担当が確認」「14:15に原因がDBの過負荷と判明」みたいに、時間軸で整理するんだよ。

ひよこ ひよこ

なんで時系列が大事なの?

ペンギン先生 ペンギン先生

「検知から対応開始まで何分かかったか」「エスカレーションのタイミングは適切だったか」が見えるからだよ。ポストモーテムで振り返るとき、感覚じゃなく事実に基づいて議論できるんだ。

ひよこ ひよこ

誰が書くの?

ペンギン先生 ペンギン先生

理想的にはインシデントコマンダーか、専任のスクライブ(記録係)がリアルタイムで書くんだ。Slackのタイムスタンプを後から拾う方法もあるけど、対応中にリアルタイムで残す方が正確だよ。

ひよこ ひよこ

自動で作れないの?

ペンギン先生 ペンギン先生

PagerDutyやJira Service ManagementなどのツールがアラートやステータスChangesを自動記録してくれるよ。ただ、人の判断や会話の内容は自動では残らないから、手動の記録と組み合わせるのがベストだね。

ペンギン
まとめ:ざっくりこれだけ覚えればOK!
「インシデントタイムライン」って出てきたら「障害対応の経過を時系列で記録したもの」と思えればだいたいOK!
📖 おまけ:英語の意味
「Incident Timeline」 = インシデントの時系列記録
💬 timelineは「年表・時系列」という意味で、障害対応の年表を作るイメージだよ。
← 用語集にもどる