【あらーと】

アラート とは?

💡 異常を見逃さない、システムの火災報知器
📌 このページのポイント
アラート:閾値を超えたら通知 CPU使用率の推移 閾値 90% 超過! 90% 30% 通知の段階 軽微 → Slack通知 警告 → メール + Slack 緊急 → 電話 + SMS 良いアラートの条件 人間のアクションが必要な場合のみ鳴らす → アラート疲れを防止
アラートの仕組み
ひよこ ひよこ

アラートって具体的にどうやって届くの?

ペンギン先生 ペンギン先生

メール、Slack、SMS、電話など色々な方法があるよ。深夜の重大障害なら電話で起こす設定にしたり、軽微な警告ならSlack通知だけにしたり、重要度に応じて使い分けるんだ。

ひよこ ひよこ

どんな条件で鳴るの?

ペンギン先生 ペンギン先生

たとえば「CPU使用率が90%を5分間超えたら」「エラー率が1%を超えたら」「レスポンスタイムが3秒を超えたら」のように閾値を設定するよ。SLOに基づいて設定するのが理想的だね。

ひよこ ひよこ

アラートが多すぎると困らない?

ペンギン先生 ペンギン先生

「アラート疲れ」という深刻な問題だよ。オオカミ少年のように誤報が多いと、本当に重要なアラートまで無視されてしまうんだ。だからノイズの少ない「意味のあるアラート」だけを鳴らす設計が大事だよ。

ひよこ ひよこ

良いアラートの条件ってあるの?

ペンギン先生 ペンギン先生

GoogleSRE 本では「アラートは人間のアクションが必要な場合のみ鳴らす」が原則だよ。自動復旧できるものは自動化し、情報提供だけのものはダッシュボードに回す。本当に人が対応すべきものだけアラートにするんだ。

ひよこ ひよこ

アラートの内容にはどんな情報を含めるの?

ペンギン先生 ペンギン先生

「何が起きているか」「影響範囲」「対応手順へのリンク」の3つは最低限含めたいね。アラートを見た人がすぐに状況を把握して行動に移れることが良いアラートの条件だよ。

ペンギン
まとめ:ざっくりこれだけ覚えればOK!
「アラート」って出てきたら「システムの異常を自動検知して担当者に知らせる仕組み」と思えればだいたいOK!
📖 おまけ:英語の意味
「Alert」 = 警報・注意喚起
💬 日常でも使われる「アラート」と同じ意味で、システムの世界では監視ツールからの自動通知を指すよ
← 用語集にもどる