【えらーばじぇっと】

エラーバジェット とは?

💡 「壊してもいい」許容量の可視化
📌 このページのポイント
エラーバジェット(SLO と許容障害量) SLO目標: 99.9% 月間許容ダウンタイム ≒ 43分 エラーバジェット 100%(43分) 月半ば: 障害で15分消費 残り 65%(28分) 消費 35% 月末: バジェット枯渇 → リリース凍結 バジェット 0% → 新機能リリース停止・信頼性改善に集中
エラーバジェットのイメージ
ひよこ ひよこ

なぜエラーバジェットが必要なの?

ペンギン先生 ペンギン先生

開発チームは「早くリリースしたい」、運用チームは「安定させたい」で対立しがちでしょ?エラーバジェットは両者の共通言語になるんだ。予算が残っていれば「どんどんリリースしてOK」、使い切ったら「安定化に集中」。データに基づいてリリース判断ができるから、感情的な対立がなくなるよ

ひよこ ひよこ

具体的な計算方法は?

ペンギン先生 ペンギン先生

SLOが99.9%(月間稼働率)なら、エラーバジェットは100%-99.9%=0.1%。1ヶ月を30日とすると、30日×24時間×60分×0.1%=43.2分。つまり月間43分までの障害は「予算内」。この43分を使い切る前にリリース頻度を下げるか、使い残しがあれば大胆なデプロイに挑戦できるよ

ひよこ ひよこ

エラーバジェットを使い切ったらどうなる?

ペンギン先生 ペンギン先生

エラーバジェットポリシーに従って対応するよ。一般的には①新機能のリリースを凍結、②信頼性向上のタスク(テスト追加、モニタリング強化、パフォーマンス改善)に集中、③次の計測期間でバジェットが回復したらリリース再開。ポリシーを事前に合意しておくのが重要で、障害が起きてから議論しても遅いんだ

ひよこ ひよこ

小さなチームでも導入できる?

ペンギン先生 ペンギン先生

SLOとエラーバジェットの考え方自体はチーム規模に関係なく有用だよ。まずは1つの重要なAPISLOを定義して、稼働率をダッシュボードで可視化するところから始めよう。完璧なSREプラクティスを目指す必要はなく、「信頼性を数値で語れるようにする」だけでも意思決定の質が上がるよ

ペンギン
まとめ:ざっくりこれだけ覚えればOK!
「エラーバジェット」って出てきたら「SLOで許容される障害の予算枠」と思えればだいたいOK!
📖 おまけ:英語の意味
「Error Budget」 = エラー予算
💬 Budget(予算)としてエラーを管理する。「壊れてもいい量」を数値化した概念だよ
← 用語集にもどる