【ゴールデンシグナル】

ゴールデンシグナル とは?

💡 サービスの健康診断はこの4つでOK。体温・脈拍・血圧・酸素みたいなもの
📌 このページのポイント
ゴールデンシグナル: 監視すべき4つの指標 レイテンシ 応答速度 p50: 120ms p99: 450ms トラフィック リクエスト量 1,200 req/s エラー 失敗率 5xx: 0.3% サチュレーション リソース逼迫度 CPU 70% メモリ 55% Google SRE Book 推奨 この4指標を監視すれば、ほとんどのシステム障害を早期検知できる
ゴールデンシグナル: システム健全性を測る4つの指標
ひよこ ひよこ

ゴールデンシグナルって、なんで4つなの?もっと見なきゃいけないものありそうだけど…

ペンギン先生 ペンギン先生

もちろん細かい指標はたくさんあるけど、Googleが長年の運用経験から「この4つを見ておけばほぼ全ての問題に気づける」と整理したんだ。シンプルだからこそチーム全員が同じ指標を見られるメリットがあるんだよ

ひよこ ひよこ

4つそれぞれ具体的にどう見るの?

ペンギン先生 ペンギン先生

レイテンシAPIの応答時間(p50, p99)、トラフィックは秒間リクエスト数、エラーはHTTP 5xxの割合、サチュレーションはCPUやメモリの使用率で見るのが典型的だね

ひよこ ひよこ

REDメソッドとかUSEメソッドとの違いは?

ペンギン先生 ペンギン先生

いい質問!REDはRate・Errors・Durationでサービス視点、USEはUtilization・Saturation・Errorsでリソース視点。ゴールデンシグナルはその両方をバランスよくカバーしている感じだね。現場では組み合わせて使うことも多いよ

ひよこ ひよこ

アラートの設定ってどうすればいいの?

ペンギン先生 ペンギン先生

SLOを先に決めるのがコツだよ。たとえば「p99レイテンシ500ms以内を99.9%維持」というSLOがあれば、エラーバジェットの消費速度でアラートを出せる。むやみにしきい値アラートを増やすとアラート疲れを起こすから、バーンレートアラートが今のベストプラクティスだね

ペンギン
まとめ:ざっくりこれだけ覚えればOK!
「ゴールデンシグナル」って出てきたら「システム監視で見るべき4つの数値」と思えればだいたいOK!
📖 おまけ:英語の意味
「Golden Signals」 = 黄金の指標
💬 Googleの「SRE本(Site Reliability Engineering)」で紹介された概念で、これさえ見ておけば安心という「黄金」の指標セットだよ
← 用語集にもどる