【えむてぃーてぃーあーる】

MTTR(平均復旧時間) とは?

💡 倒れても何分で立ち上がれるか、復旧力の通信簿
📌 このページのポイント
MTTR(平均復旧時間)の構成 障害発生 検知 診断完了 復旧完了 MTTD(検知) 診断時間 修復時間 MTTR(全体の復旧時間) MTTRを短くする3つのアプローチ 検知を速く アラートの改善 診断を速く ランブックの整備 修復を速く ロールバック自動化
MTTRの構成と改善アプローチ
ひよこ ひよこ

MTTRが短いと何がいいの?

ペンギン先生 ペンギン先生

障害が起きても素早く復旧できるということだよ。たとえばMTTRが5分なら、ユーザーへの影響は最小限に抑えられるね。SREの世界では「障害を防ぐ」より「素早く復旧する」方が現実的という考え方もあるんだ。

ひよこ ひよこ

具体的にはどうやって計算するの?

ペンギン先生 ペンギン先生

一定期間の障害復旧時間を全部足して、障害の回数で割るだけだよ。たとえば3回の障害でそれぞれ10分、20分、30分かかったら、MTTRは20分だね。

ひよこ ひよこ

MTTRを短くするにはどうすればいいの?

ペンギン先生 ペンギン先生

3つのアプローチがあるよ。まず検知を速くする(アラートの改善)。次に診断を速くする(ランブックの整備)。そして復旧を速くする(ロールバックの自動化)。どれか一つでも改善すればMTTRは縮まるんだ。

ひよこ ひよこ

DORAメトリクスにも入っているの?

ペンギン先生 ペンギン先生

そうだよ。DORAの4つの指標の「サービス復旧時間」がまさにMTTRだね。エリートチームは1時間未満、ローパフォーマーは1週間以上という差があるんだ。

ひよこ ひよこ

MTTRだけ見ていればいいの?

ペンギン先生 ペンギン先生

MTBFMTTDも一緒に見るべきだよ。MTTRが短くても障害が頻発していたら問題だし、検知までに時間がかかっていたらMTTRの数字が良くても実際のダウンタイムは長いからね。

ペンギン
まとめ:ざっくりこれだけ覚えればOK!
「MTTR」って出てきたら「障害が起きてから直るまでの平均時間」と思えればだいたいOK!
📖 おまけ:英語の意味
「Mean Time To Recovery」 = 平均復旧時間
💬 Meanは「平均」、Recoveryは「復旧」。障害の検知から復旧完了までの時間を平均したものだよ
← 用語集にもどる