【ゲームデイ(しょうがいくんれん)】

ゲームデイ(障害訓練) とは?

公開:
💡 火事が起きる前に消防訓練を——ゲームデイは障害対応の「本番前の本番」
📌 このページのポイント
ゲームデイ(障害訓練)の流れ 1. シナリオ 設計 「DBがダウン」 「AZ全断」など 2. 障害注入 ファシリテーター が実際に 障害を発生 3. チーム対応 検知 → 通知 → 調査 → 復旧 4. 振り返り ポストモーテム 手順書改善 次回シナリオへ Chaos Engineering との違い Chaos Engineering システムの自動耐性を検証 ゲームデイ 人間の対応力を訓練
ゲームデイは障害シナリオを用意し、チームが実際に検知・対応・振り返りまで行う
ひよこ ひよこ
ゲームデイって障害を「わざと」起こすの?
ペンギン先生 ペンギン先生
そうだよ。ゲームデイは本番に近い環境で意図的に障害を仕掛けて、チームが実際にどう対応できるかを試す訓練なんだ。消防署の避難訓練のIT版みたいなイメージだよ。
ひよこ ひよこ
Chaos Engineeringと何が違うの?
ペンギン先生 ペンギン先生
Chaos Engineeringはシステム自体の自動耐性を高めることが目的で、マシンが障害を自動検知・回復できるか検証するんだ。ゲームデイはそこに人間が加わって、エンジニアの対応手順やチームのコミュニケーションを鍛えることに焦点を当てているよ。
ひよこ ひよこ
どうやって進めるの?
ペンギン先生 ペンギン先生
まずシナリオを設計するんだ。たとえば「DBが突然ダウンした」「特定AZが全断した」みたいな想定を作って、ファシリテーターが実際に障害を注入する。エンジニアはアラートを受けて検知から復旧まで普段通りに対応するよ。
ひよこ ひよこ
訓練したあとはどうするの?
ペンギン先生 ペンギン先生
必ずポストモーテム(振り返り)をセットで行うんだ。「気づくのに何分かかったか」「手順書が不足していたか」「コミュニケーションはうまくいったか」を記録して、次回の改善につなげるのがゲームデイの本当の価値だよ。
ひよこ ひよこ
本番環境でやるのは怖くないの?
ペンギン先生 ペンギン先生
本番では難易度が高いから、まずはステージング環境で始めるのが一般的だよ。ただAWSやNetflixのような成熟したチームは本番でもゲームデイを実施していて、常に本物の障害に備えているんだ。重要なのは「事前に十分な安全対策を取ること」と「いつでも止められる仕組みを用意すること」だよ。
ペンギン
まとめ:ざっくりこれだけ覚えればOK!
「ゲームデイ」って出てきたら「障害対応力を鍛えるための本番さながらの訓練イベント」と思えればだいたいOK!
📖 おまけ:英語の意味
「Game Day」 = 試合当日・本番の日
💬 スポーツで「本番の試合に備えて練習する」という意味から来ているよ。AWSが自社のSREプラクティスとして広め、現在はクラウド運用の重要な訓練手法として定着しているんだよ
← 用語集にもどる