【えむてぃーてぃーあーる】
MTTR(平均復旧時間) とは?
💡 倒れても何分で立ち上がれるか、復旧力の通信簿
📌 このページのポイント
MTTRが短いと何がいいの?
障害が起きても素早く復旧できるということだよ。たとえばMTTRが5分なら、ユーザーへの影響は最小限に抑えられるね。SREの世界では「障害を防ぐ」より「素早く復旧する」方が現実的という考え方もあるんだ。
具体的にはどうやって計算するの?
一定期間の障害復旧時間を全部足して、障害の回数で割るだけだよ。たとえば3回の障害でそれぞれ10分、20分、30分かかったら、MTTRは20分だね。
MTTRを短くするにはどうすればいいの?
DORAメトリクスにも入っているの?
そうだよ。DORAの4つの指標の「サービス復旧時間」がまさにMTTRだね。エリートチームは1時間未満、ローパフォーマーは1週間以上という差があるんだ。
MTTRだけ見ていればいいの?
まとめ:ざっくりこれだけ覚えればOK!
「MTTR」って出てきたら「障害が起きてから直るまでの平均時間」と思えればだいたいOK!
📖 おまけ:英語の意味
「Mean Time To Recovery」 = 平均復旧時間
💬 Meanは「平均」、Recoveryは「復旧」。障害の検知から復旧完了までの時間を平均したものだよ