【かんし】

監視(モニタリング) とは?

💡 システムの「健康診断」を24時間自動で
📌 このページのポイント
システムモニタリングの流れ 監視対象 サーバー ネットワーク アプリケーション 収集 監視ツール メトリクス収集 ログ分析 閾値チェック ダッシュボード 可視化・グラフ アラート通知 メール・Slack等 主な監視項目 CPU使用率 メモリ使用量 レスポンス時間 エラー率
モニタリングのイメージ
ひよこ ひよこ

何を監視するの?

ペンギン先生 ペンギン先生

大きく3つ。①インフラメトリクス(CPU使用率、メモリ、ディスク、ネットワーク)、②アプリケーションメトリクス(レスポンスタイム、エラー率、リクエスト数)、③ビジネスメトリクス(注文数、売上、アクティブユーザー数)。異常値にはアラートSlack通知、PagerDuty)を設定するよ

ひよこ ひよこ

アラートが多すぎて困る…

ペンギン先生 ペンギン先生

アラート疲れ」は深刻な問題だよ。重要度でレベル分け(Critical:電話/SMS、Warning:Slack、Info:ダッシュボードのみ)して、本当にアクションが必要なものだけ通知する。「CPU使用率80%超え」は警告、「サービス応答なし」はCritical。閾値の調整と不要アラートの削除を定期的に行おう

ひよこ ひよこ

おもしろい!オブザーバビリティって何?

ペンギン先生 ペンギン先生

監視の進化形で、「メトリクス」「ログ」「トレース」の3本柱でシステムの内部状態を把握する考え方だよ。監視が「何が起きたか」を検知するのに対し、オブザーバビリティは「なぜ起きたか」まで分析できる。分散トレーシングJaegerOpenTelemetry)でマイクロサービス間の問題箇所を特定するんだ

ひよこ ひよこ

ダッシュボードのコツは?

ペンギン先生 ペンギン先生

①USE Method(Utilization:使用率、Saturation:飽和度、Errors:エラー)でリソースを整理、②RED Method(Rate:リクエスト率、Errors:エラー率、Duration:処理時間)でサービスを整理、③ダッシュボードは目的別に分ける(概要/詳細/障害対応)。Grafanaテンプレートを作っておくと新サービスも素早く監視できるよ

ペンギン
まとめ:ざっくりこれだけ覚えればOK!
「モニタリング」って出てきたら「システムの状態を常時監視して異常を検知する仕組み」と思えればだいたいOK!
📖 おまけ:英語の意味
「Monitoring」 = 監視
💬 Monitor(監視する)。障害を「起きてから対応」ではなく「起きる前に察知」するための仕組みだよ
← 用語集にもどる