【えすえるあい】

SLI(サービスレベル指標) とは?

💡 サービスの健康診断で実際に測る体温や血圧のような数値
📌 このページのポイント
SLI: 代表的なサービスレベル指標 レイテンシ 応答時間 エラー率 0.1% 失敗リクエスト割合 スループット 処理量/秒 可用性 99.9 稼働率 % 測定ポイント ユーザー側 CDN/LB アプリ DB/外部API ※ ユーザーに近い場所で測るほど実態に即した SLI になる
4つの代表的なSLIと測定ポイントの考え方
ひよこ ひよこ

SLIって具体的に何を測るの?

ペンギン先生 ペンギン先生

たとえばAPIレスポンスタイム、リクエストのエラー率、サーバーの稼働率なんかを測るよ。健康診断で体温や血圧を測るように、サービスの状態を数字で把握するための指標なんだ

ひよこ ひよこ

何でも測ればいいの?CPU使用率とかも?

ペンギン先生 ペンギン先生

いい質問だね。CPU使用率はシステム側の指標であって、ユーザーが直接感じるものじゃないんだ。SLIはユーザー体験に直結するものを選ぶのがポイント。ページの表示速度やエラーで失敗したリクエストの割合のほうがSLIとして適切だよ

ひよこ ひよこ

SLIとSLOってどう関係してるの?

ペンギン先生 ペンギン先生

SLIが「実際に測った値」で、SLOが「こうあるべきという目標値」だよ。たとえばSLIで測ったレイテンシが150msで、SLOが200ms以下なら目標達成。SLIが目標を超えたらアラートを出す仕組みにするんだ

ひよこ ひよこ

SLIってどうやって計測するの?

ペンギン先生 ペンギン先生

PrometheusDatadog、CloudWatchなどの監視ツールでリアルタイムに収集するのが一般的だよ。大事なのは測定ポイントで、サーバー側で測るよりロードバランサーCDNなどユーザーに近い場所で測るほうが実態に合った数値になるんだ

ひよこ ひよこ

SLIを設定するときのコツってある?

ペンギン先生 ペンギン先生

GoogleSRE本では4つのゴールデンシグナル(レイテンシ・トラフィック・エラー・飽和度)から始めることを勧めているよ。最初からたくさん測ろうとせず、ユーザーにとって一番大事な2〜3個に絞るのが成功のコツだね

ペンギン
まとめ:ざっくりこれだけ覚えればOK!
SLIって出てきたら「サービスの信頼性を実際に測る物差し」と思えればだいたいOK!
📖 おまけ:英語の意味
「Service Level Indicator」 = サービスレベル指標
💬 Indicatorは「指標・指し示すもの」という意味で、サービスの状態を数値で示してくれるものだよ
← 用語集にもどる