【らんぶっく】

ランブック とは?

💡 障害時の「対応マニュアル」で冷静に対処
📌 このページのポイント
ランブック — 運用手順書の構造 障害発生 アラート通知 ランブック参照 手順1: ログを確認 手順2: サービス再起動 復旧完了 正常稼働 ランブックの構成要素 📋 障害の種類と判定基準 📋 対応手順(ステップ形式) 📋 エスカレーション先 📋 確認コマンド集 📋 過去の対応履歴 ランブックのメリット ✅ 誰でも同じ品質で対応 ✅ 対応時間の短縮 ✅ 属人化の防止 ✅ 新人でも安心して運用 ✅ 自動化の土台になる
ランブック(運用手順書)のイメージ
ひよこ ひよこ

なぜランブックが必要なの?

ペンギン先生 ペンギン先生

深夜3時にアラートが鳴って叩き起こされた時、寝ぼけた頭で正しい判断ができる自信ある?ランブックがあれば「①このダッシュボードを確認、②この値がX以上ならPod再起動、③改善しなければエスカレーション」と手順通りに対応できる。属人化を防いで、新人でも対応できるようにするんだよ

ひよこ ひよこ

何を書けばいいの?

ペンギン先生 ペンギン先生

アラートの意味(何が起きているか)、②影響範囲(どのユーザー/サービスに影響があるか)、③初動対応手順(確認コマンド、ダッシュボードURL)、④判断基準(この値なら再起動、この状態ならエスカレーション)、⑤エスカレーション先(誰に連絡、どの手段で)、⑥過去の対応履歴。コピペで実行できるコマンドを書いておくのがポイントだよ

ひよこ ひよこ

おもしろい!メンテナンスのコツは?

ペンギン先生 ペンギン先生

ポストモーテム(障害振り返り)のたびにランブックを更新する、②四半期ごとにレビューして古い情報を削除、③実際にランブック通りに対応できるかを障害訓練で検証(Game Day)、④新しいサービスやアラートを追加したらランブックも同時に作る。形骸化したランブックは害悪だから定期的なメンテが大切だよ

ひよこ ひよこ

自動化はできる?

ペンギン先生 ペンギン先生

ランブックの中で「毎回同じ手順を手動実行」している部分は自動化できる。PagerDutyのAutomated Diagnostics、AWS Systems Manager Runbook、Shoreline.ioなどがランブック自動化ツール。アラート発生→自動診断→自動修復→人間に結果報告、まで自動化できれば、深夜のアラート対応が不要になるよ

ペンギン
まとめ:ざっくりこれだけ覚えればOK!
「ランブック」って出てきたら「障害時の対応手順書」と思えればだいたいOK!
📖 おまけ:英語の意味
「Runbook」 = 実行手順書
💬 Run(実行する)Book(手順書)。障害対応を「この通りに実行すればOK」な手順書だよ
← 用語集にもどる