何を監視するの?
大きく3つ。①インフラメトリクス(CPU使用率、メモリ、ディスク、ネットワーク)、②アプリケーションメトリクス(レスポンスタイム、エラー率、リクエスト数)、③ビジネスメトリクス(注文数、売上、アクティブユーザー数)。異常値にはアラート(Slack通知、PagerDuty)を設定するよ
アラートが多すぎて困る…
「アラート疲れ」は深刻な問題だよ。重要度でレベル分け(Critical:電話/SMS、Warning:Slack、Info:ダッシュボードのみ)して、本当にアクションが必要なものだけ通知する。「CPU使用率80%超え」は警告、「サービス応答なし」はCritical。閾値の調整と不要アラートの削除を定期的に行おう
おもしろい!オブザーバビリティって何?
監視の進化形で、「メトリクス」「ログ」「トレース」の3本柱でシステムの内部状態を把握する考え方だよ。監視が「何が起きたか」を検知するのに対し、オブザーバビリティは「なぜ起きたか」まで分析できる。分散トレーシング(Jaeger、OpenTelemetry)でマイクロサービス間の問題箇所を特定するんだ
ダッシュボードのコツは?
①USE Method(Utilization:使用率、Saturation:飽和度、Errors:エラー)でリソースを整理、②RED Method(Rate:リクエスト率、Errors:エラー率、Duration:処理時間)でサービスを整理、③ダッシュボードは目的別に分ける(概要/詳細/障害対応)。Grafanaでテンプレートを作っておくと新サービスも素早く監視できるよ