【ゲームデイ(しょうがいくんれん)】

ゲームデイ(障害訓練) とは?

💡 火事が起きる前に消防訓練を——ゲームデイは障害対応の「本番前の本番」
📌 このページのポイント
ゲームデイ(障害訓練)の流れ 1. シナリオ 設計 「DBがダウン」 「AZ全断」など 2. 障害注入 ファシリテーター が実際に 障害を発生 3. チーム対応 検知 → 通知 → 調査 → 復旧 4. 振り返り ポストモーテム 手順書改善 次回シナリオへ Chaos Engineering との違い Chaos Engineering システムの自動耐性を検証 ゲームデイ 人間の対応力を訓練
ゲームデイは障害シナリオを用意し、チームが実際に検知・対応・振り返りまで行う
ひよこ ひよこ

ゲームデイって障害を「わざと」起こすの?

ペンギン先生 ペンギン先生

そうだよ。ゲームデイは本番に近い環境で意図的に障害を仕掛けて、チームが実際にどう対応できるかを試す訓練なんだ。消防署の避難訓練のIT版みたいなイメージだよ。

ひよこ ひよこ

Chaos Engineeringと何が違うの?

ペンギン先生 ペンギン先生

Chaos Engineeringはシステム自体の自動耐性を高めることが目的で、マシンが障害を自動検知・回復できるか検証するんだ。ゲームデイはそこに人間が加わって、エンジニアの対応手順やチームのコミュニケーションを鍛えることに焦点を当てているよ。

ひよこ ひよこ

どうやって進めるの?

ペンギン先生 ペンギン先生

まずシナリオを設計するんだ。たとえば「DBが突然ダウンした」「特定AZが全断した」みたいな想定を作って、ファシリテーターが実際に障害を注入する。エンジニアはアラートを受けて検知から復旧まで普段通りに対応するよ。

ひよこ ひよこ

訓練したあとはどうするの?

ペンギン先生 ペンギン先生

必ずポストモーテム(振り返り)をセットで行うんだ。「気づくのに何分かかったか」「手順書が不足していたか」「コミュニケーションはうまくいったか」を記録して、次回の改善につなげるのがゲームデイの本当の価値だよ。

ひよこ ひよこ

本番環境でやるのは怖くないの?

ペンギン先生 ペンギン先生

本番では難易度が高いから、まずはステージング環境で始めるのが一般的だよ。ただAWSやNetflixのような成熟したチームは本番でもゲームデイを実施していて、常に本物の障害に備えているんだ。重要なのは「事前に十分な安全対策を取ること」と「いつでも止められる仕組みを用意すること」だよ。

ペンギン
まとめ:ざっくりこれだけ覚えればOK!
「ゲームデイ」って出てきたら「障害対応力を鍛えるための本番さながらの訓練イベント」と思えればだいたいOK!
📖 おまけ:英語の意味
「Game Day」 = 試合当日・本番の日
💬 スポーツで「本番の試合に備えて練習する」という意味から来ているよ。AWSが自社のSREプラクティスとして広め、現在はクラウド運用の重要な訓練手法として定着しているんだよ
← 用語集にもどる