SREエンジニアになるための学習ロードマップ【2026年版】


SRE 学習ロードマップ Step 1 プログラミング Go / Python Step 2 Linux/NW Step 3 SLI/SLO エラーバジェット Step 4 オブザーバビリティ Step 5 インシデント対応 ポストモーテム Step 6 トイル削減 自動化 Step 7 IaC/コンテナ Terraform / K8s ログ イベントの詳細記録 ELK / Loki メトリクス 数値の時系列データ Prometheus / Grafana トレース リクエストの流れ追跡 Jaeger / Datadog オブザーバビリティの3本柱
SREエンジニア学習ロードマップのイメージ
ひよこ ひよこ

SREってどういうお仕事なの?

ペンギン先生 ペンギン先生

Site Reliability Engineeringの略で、もともとGoogleが提唱した考え方だよ。「ソフトウェアエンジニアリングの手法で、システムの信頼性を守る」のがSREの役割なんだ。手作業の運用をコードで自動化して、サービスが安定して動き続ける状態を作るのが仕事だよ

ひよこ ひよこ

じゃあプログラミングができないとダメなの?

ペンギン先生 ペンギン先生

そう、SREはコードが書けることが大前提だよ。GoやPythonが人気で、自動化スクリプトやツール開発に使うんだ。Goはパフォーマンスが高くてCLIツール向き、Pythonは手軽にスクリプトが書けるから両方できると強いね

ひよこ ひよこ

LinuxネットワークDevOpsと同じで必要なの?

ペンギン先生 ペンギン先生

必須だよ。SREはシステム障害の原因を突き止める場面が多いから、Linuxカーネルプロセス管理、ネットワークTCP/IPDNSの仕組みをより深く理解している必要があるんだ。「なぜ遅いのか」「なぜ接続できないのか」を切り分けるスキルが問われるよ

ひよこ ひよこ

SLIとかSLOとか、アルファベットがいっぱい出てくるけど何なの?

ペンギン先生 ペンギン先生

SREの最重要コンセプトだよ。SLIはService Level Indicatorで、レスポンスタイムやエラー率など「信頼性を測る指標」のこと。SLOはService Level Objectiveで「SLIの目標値」だね。そしてエラーバジェットは「許容される障害の予算」で、これが残っていれば新機能リリースを許可し、使い切ったら安定性改善に集中するという判断基準になるんだ

ひよこ ひよこ

オブザーバビリティっていうのも大事だよね?

ペンギン先生 ペンギン先生

SREの武器と言ってもいいくらい大事だよ。ログ、メトリクス、トレースの3本柱で構成されるんだ。ログはイベントの詳細記録、メトリクスは数値の時系列データ、トレースはリクエストがシステム内をどう流れたかの追跡だね。PrometheusGrafanaJaegerDatadogなどのツールを組み合わせて「システムの中で何が起きているか」を可視化するよ

ひよこ ひよこ

障害が起きたときはどうするの?

ペンギン先生 ペンギン先生

インシデント対応プロセスが決まっていて、検知、トリアージ、対処、復旧という流れで動くよ。そして復旧後に超重要なのがポストモーテムだね。「何が起きたか」「なぜ起きたか」「再発防止策は何か」を文書化して共有するんだ。犯人探しではなく、システムの弱点を見つけて改善する文化がSREの根幹だよ

ひよこ ひよこ

トイル削減っていう言葉も聞いたことあるけど、何なの?

ペンギン先生 ペンギン先生

トイルは「手作業で繰り返される、自動化できるはずの運用作業」のことだよ。SREはこのトイルを50%以下に抑えて、残りの時間をエンジニアリング(自動化やツール開発)に使うべきとされているんだ。例えば手動のデプロイ作業をCICDパイプラインに置き換えたり、障害対応の手順書をスクリプト化したりするのがトイル削減だね

ひよこ ひよこ

DevOpsエンジニアとはどう違うの?

ペンギン先生 ペンギン先生

DevOpsは「開発と運用の壁を壊す文化・プラクティス」全般を指すのに対して、SREは「信頼性をエンジニアリングで担保する具体的な方法論」だよ。Googleの元VP、ベン・トレイナーの有名な言葉で「SREDevOpsインターフェースの実装クラスである」というのがあるんだ。つまりDevOpsの理念をSREが具体的に実践するという関係だね。実務ではどちらの知識も必要になるから、両方のロードマップを並行して学ぶのがおすすめだよ