【あーるてぃーおー】

RTO(目標復旧時間) とは?

💡 障害後「何時間以内に復活させるか」の制限時間
📌 このページのポイント
RTO(目標復旧時間) 時間 → 障害発生 10:00 復旧完了 14:00 RTO = 4時間以内 ← ダウンタイム(サービス停止中)→ 原因調査 復旧作業 動作確認 RTO = 障害発生からサービス復旧までの許容時間。短いほど高可用性が必要
RTOのイメージ
ひよこ ひよこ

RTOって誰が決めるの?

ペンギン先生 ペンギン先生

技術チームだけでなく、ビジネス側と一緒に決めるんだ。例えばECサイトなら「1時間止まると売上が○○万円失われる」というビジネスインパクトからRTOを逆算する。技術的にRTO 0秒も目指せるけど、コストとのバランスで「4時間以内なら許容できる」のように決めるんだよ。

ひよこ ひよこ

RTOの数字によって何が変わるの?

ペンギン先生 ペンギン先生

RTOが24時間ならバックアップから手動で復旧すればいい。RTOが1時間ならマルチAZ構成で自動フェイルオーバーが必要。RTOが数秒ならマルチリージョン構成のアクティブ-アクティブが必要になる。RTOが短くなるほどコストが何倍にも跳ね上がるんだ。

ひよこ ひよこ

RTOとRPOってどう違うの?

ペンギン先生 ペンギン先生

RTOは「復旧までの時間」、RPOは「どの時点までのデータを救えるか」。例えばRTOが4時間・RPOが1時間なら、「4時間以内に復旧し、障害の1時間前までのデータは保証する」ということ。この2つはセットで考えないといけないよ。

ひよこ ひよこ

RTOを決めても実際にその時間で復旧できるかわからなくない?

ペンギン先生 ペンギン先生

まさにそこが核心でね。RTOを設定しただけで安心してしまうチームが多いんだけど、実際に障害を起こして復旧訓練(DR訓練)をやらないと本番で動けない。手順書があっても、担当者がパニックで手順を飛ばしたり、バックアップが実は壊れていたり、復旧手順の中で必要なパスワードを誰も覚えていなかったりする。NetflixのChaos Monkeyのように定期的に意図的に障害を起こして訓練するのが理想だけど、「本番環境で障害を起こす訓練」を承認する経営層を説得すること自体が一番のハードルだったりするんだよ。

ペンギン
まとめ:ざっくりこれだけ覚えればOK!
「RTO」って出てきたら「障害から何時間以内に復旧させるかの目標時間のことだな」と思えればだいたいOK!
📖 おまけ:英語の意味
「Recovery Time Objective」 = 復旧時間の目標
💬 Recovery(復旧)Time(時間)Objective(目標)。「いつまでに直す?」の目標値だよ
← 用語集にもどる