【さいがいふっきゅうけいかく】

災害復旧計画(DR計画) とは?

💡 「もしもの時」の復旧シナリオ
📌 このページのポイント
災害復旧(DR)計画 Primary Site 本番環境(稼働中) App DB Storage Active データ同期 レプリケーション DR Site 復旧環境(待機中) App DB Storage Standby RPO(目標復旧時点) どこまでのデータを失わずに済むか ← 障害発生前のこの時点まで復旧可能 最終バックアップ RTO(目標復旧時間) どのくらいで復旧できるか 障害発生 → この時間以内にサービス復旧 障害 復旧完了
災害復旧(DR)計画のイメージ
ひよこ ひよこ

バックアップがあればDR計画はいらない?

ペンギン先生 ペンギン先生

バックアップはDR計画の一部でしかないよ。バックアップがあっても「どこに復旧するか」「誰が何をするか」「復旧手順は?」「優先順位は?」が決まっていないと復旧に何日もかかる。DR計画はこれらを事前に文書化して、緊急時に冷静に対応できるようにするためのものだよ

ひよこ ひよこ

DR計画に何を書くの?

ペンギン先生 ペンギン先生

①対象システムの優先度分類(Tier 1:基幹システム、Tier 2:業務システムなど)、②RTO/RPOの定義、③復旧手順書(ステップバイステップ)、④連絡体制(誰がどの順番で連絡するか)、⑤復旧先環境の構成情報、⑥DR訓練スケジュール。特に手順書は「初めての人でも実行できる」レベルで書くのがポイントだよ

ひよこ ひよこ

クラウドだとDRは楽になる?

ペンギン先生 ペンギン先生

格段に楽になるよ。AWSならマルチリージョン構成でRoute 53のフェイルオーバールーティング、RDSのクロスリージョンリードレプリカ、S3のクロスリージョンレプリケーション。CloudFormationTerraformでインフラをコード化していれば、別リージョンに環境を再構築するのも自動化できる

ひよこ ひよこ

DR訓練って実際にやるの?

ペンギン先生 ペンギン先生

やるべきだし、やらないDR計画には価値がないとまで言われるよ。Netflixの「Chaos Monkey」は本番環境でランダムにインスタンスを停止してDR能力を常にテストしている。最低でも年1回はDR訓練を実施して、手順書が古くないか、想定RTOで復旧できるか検証しよう。訓練で見つかる問題は本番障害で見つかるより100倍マシだからね

ペンギン
まとめ:ざっくりこれだけ覚えればOK!
「DR計画」って出てきたら「災害時にシステムを復旧するための事前計画」と思えればだいたいOK!
📖 おまけ:英語の意味
「Disaster Recovery Plan」 = 災害復旧計画
💬 Disaster(災害)からのRecovery(復旧)をPlan(計画)する。BCP(事業継続計画)の一部だよ
← 用語集にもどる