【おんこーる】

オンコール とは?

💡 深夜でも呼び出しOK、システムを守る当番制
📌 このページのポイント
オンコール:障害対応の当番制 ローテーション 今週: エンジニアA 当番 来週: エンジニアB 再来週: エンジニアC アラート 発生! 通知 初動対応 エスカレーション 解決できない場合 通知方法 電話 / SMS Slack / Email PagerDuty 公平なローテーション + 適切なエスカレーション = 健全なオンコール
オンコールの運用イメージ
ひよこ ひよこ

オンコールって夜中でも起きて対応するの?

ペンギン先生 ペンギン先生

そうだよ。アラートが鳴ったら決められた時間内(たとえば15分以内)に対応を開始するんだ。だからオンコール当番の日はPCとスマホを常に手元に置いておくよ。

ひよこ ひよこ

ずっと同じ人が当番だと大変じゃない?

ペンギン先生 ペンギン先生

だからローテーションを組むんだ。「今週はAさん、来週はBさん」のように交代するよ。チーム全員で公平に負担を分散するのが健全な運用だね。

ひよこ ひよこ

アラートが来たらまず何をするの?

ペンギン先生 ペンギン先生

まずアラートの内容を確認して影響範囲を把握するよ。ランブックプレイブックに沿って初動対応し、自分で解決できなければエスカレーション(上位者への引き継ぎ)するんだ。

ひよこ ひよこ

どんなツールを使うの?

ペンギン先生 ペンギン先生

PagerDutyやOpsGenieが有名だよ。これらのツールはアラートの振り分け、エスカレーションスケジュール管理を自動化してくれるんだ。電話やSMSで確実に通知するよ。

ひよこ ひよこ

オンコールのストレスが問題になったりしないの?

ペンギン先生 ペンギン先生

大きな課題だよ。Googleでは「オンコール担当の負荷が高すぎるサービスは改善が必要」というルールがあるんだ。アラートの質を上げてノイズを減らすこと、十分な休息を確保すること、オンコール手当を支払うことが健全な運用の三本柱だね。

ペンギン
まとめ:ざっくりこれだけ覚えればOK!
「オンコール」って出てきたら「障害時にすぐ対応できるよう待機するエンジニアの当番制度」と思えればだいたいOK!
📖 おまけ:英語の意味
「On-Call」 = 呼び出し待機
💬 医療で医師が呼び出しに備えて待機する制度が語源で、IT業界でも同じ概念が使われているよ
← 用語集にもどる