SREとは何ですか？

信頼性の高いシステムを継続的に運用・改善するためのGoogleが提唱したエンジニアリング手法。ソフトウェアエンジニアリングでインフラ・運用の課題を解決する。

SREのポイントは？

エラーバジェット（許容可能なダウンタイムの量）でリリース速度と信頼性をバランスする。SLI（指標）・SLO（目標）・SLA（合意）で信頼性を定量的に管理する。障害を「学びの機会」ととらえ、ポストモーテム（振り返り）文化を重視する。手作業を自動化してシステムを安定させるエンジニアリングを行う

【えすあーるいー】

SRE とは？

💡 「信頼性」をエンジニアリングで科学的に管理するアプローチ

📌 このページのポイント

エラーバジェット（許容可能なダウンタイムの量）でリリース速度と信頼性をバランスする
SLI（指標）・SLO（目標）・SLA（合意）で信頼性を定量的に管理する
障害を「学びの機会」ととらえ、ポストモーテム（振り返り）文化を重視する
手作業を自動化してシステムを安定させるエンジニアリングを行う

SREのイメージ

ひよこ

SREってインフラエンジニアと何が違うの？

ペンギン先生

従来のインフラエンジニアは運用の安定を最優先にすることが多かったけど、SREはコードを書いて運用の問題を解決する。「手作業でやっていることを自動化する」ことに力を入れるし、信頼性を数値目標で管理するのが特徴だよ。

ひよこ

SLIとSLOって何？

ペンギン先生

SLIは「サービスレベル指標」で測定できる具体的な数値、例えば「成功したリクエストの割合」「レスポンスタイム」など。SLOはその目標値で「99.9%以上の可用性を維持する」みたいに定める。SLAはそれをユーザーや取引先に約束したもので、破ったら補償があることが多いよ。

ひよこ

エラーバジェットって何に使うの？

ペンギン先生

「99.9%のSLOがあれば月に43分間のダウンタイムが許される」という計算ができるんだ。この「使えるダウンタイム枠」がエラーバジェット。バジェットが余っていれば積極的にリリースして、使い切りそうなら慎重にする。リリース速度と信頼性のバランスをデータで議論するための共通言語になるよ。

ひよこ

ポストモーテムって何？障害が起きたとき犯人を探すやつ？

ペンギン先生

全然違うんだ。SREのポストモーテムは「blameless（責任を責めない）」が基本原則で、誰が悪かったかではなく「なぜシステムがそういう状態になったか」の根本原因を分析するんだ。人を責めるより「なぜそのオペレーションが可能だったか・なぜ検知できなかったか」という仕組みの問題を見つけて再発を防ぐ。この文化が組織に根付いていないと、エンジニアが正直に障害の詳細を書けなくなって、本当の改善につながらないんだよ。

まとめ：ざっくりこれだけ覚えればOK！

「SRE」って出てきたら「信頼性をSLOとエラーバジェットで数値管理するGoogleが作ったインフラ運用のエンジニアリング手法だな」と思えばだいたいOK！

📖 おまけ：英語の意味

「SRE（Site Reliability Engineering）」＝サイト信頼性エンジニアリング

💬 Googleが2003年頃に始めた職種・手法で、ベン・スロスが「SRE本」（O'Reilly）でまとめてIT業界に広まったよ

← 用語集にもどる