【えすあーるいー】
SRE とは?
💡 「信頼性」をエンジニアリングで科学的に管理するアプローチ
📌 このページのポイント
SREってインフラエンジニアと何が違うの?
従来のインフラエンジニアは運用の安定を最優先にすることが多かったけど、SREはコードを書いて運用の問題を解決する。「手作業でやっていることを自動化する」ことに力を入れるし、信頼性を数値目標で管理するのが特徴だよ。
エラーバジェットって何に使うの?
ポストモーテムって何?障害が起きたとき犯人を探すやつ?
全然違うんだ。SREのポストモーテムは「blameless(責任を責めない)」が基本原則で、誰が悪かったかではなく「なぜシステムがそういう状態になったか」の根本原因を分析するんだ。人を責めるより「なぜそのオペレーションが可能だったか・なぜ検知できなかったか」という仕組みの問題を見つけて再発を防ぐ。この文化が組織に根付いていないと、エンジニアが正直に障害の詳細を書けなくなって、本当の改善につながらないんだよ。
📖 おまけ:英語の意味
「SRE(Site Reliability Engineering)」 = サイト信頼性エンジニアリング
💬 Googleが2003年頃に始めた職種・手法で、ベン・スロスが「SRE本」(O'Reilly)でまとめてIT業界に広まったよ