Push型とPull型の違いは?
Push型(Datadog、CloudWatch)はアプリが監視サーバーにメトリクスを送信する。Pull型のPrometheusは監視サーバーがアプリのエンドポイント(/metrics)を定期的にスクレイピングする。Pull型のメリットは、監視対象の追加・削除が容易で、対象がダウンした時にそれ自体を検知できることだよ
Grafanaとの関係は?
PrometheusはメトリクスのStorageとクエリエンジン。Grafanaは可視化ダッシュボード。PrometheusのPromQLでクエリを書き、Grafanaで美しいグラフやダッシュボードを作る。この組み合わせはKubernetes環境の監視のデファクトスタンダードだよ
アラートはどう設定する?
Alertmanagerというコンポーネントがアラート処理を担当。Prometheusのルールで「CPU使用率が5分間80%以上」のような条件を定義して、Alertmanagerが重複排除→グルーピング→通知先(Slack、PagerDuty、メール等)への送信を行う。アラートの設計は「鳴りすぎず鳴らなすぎず」のバランスが大事だよ
長期保存はどうする?
Prometheus単体のストレージは短期(15日〜数ヶ月)向き。長期保存にはThanos、Cortex、Mimirなどのプロジェクトを使う。Thanosはサイドカーパターンでオブジェクトストレージ(S3等)にメトリクスを永続化する。Grafana Mimirも長期保存の有力な選択肢として成長しているよ