【ゲームデイ(しょうがいくんれん)】
ゲームデイ(障害訓練) とは?
💡 火事が起きる前に消防訓練を——ゲームデイは障害対応の「本番前の本番」
📌 このページのポイント
ゲームデイって障害を「わざと」起こすの?
そうだよ。ゲームデイは本番に近い環境で意図的に障害を仕掛けて、チームが実際にどう対応できるかを試す訓練なんだ。消防署の避難訓練のIT版みたいなイメージだよ。
Chaos Engineeringと何が違うの?
Chaos Engineeringはシステム自体の自動耐性を高めることが目的で、マシンが障害を自動検知・回復できるか検証するんだ。ゲームデイはそこに人間が加わって、エンジニアの対応手順やチームのコミュニケーションを鍛えることに焦点を当てているよ。
どうやって進めるの?
まずシナリオを設計するんだ。たとえば「DBが突然ダウンした」「特定AZが全断した」みたいな想定を作って、ファシリテーターが実際に障害を注入する。エンジニアはアラートを受けて検知から復旧まで普段通りに対応するよ。
訓練したあとはどうするの?
必ずポストモーテム(振り返り)をセットで行うんだ。「気づくのに何分かかったか」「手順書が不足していたか」「コミュニケーションはうまくいったか」を記録して、次回の改善につなげるのがゲームデイの本当の価値だよ。
本番環境でやるのは怖くないの?
まとめ:ざっくりこれだけ覚えればOK!
「ゲームデイ」って出てきたら「障害対応力を鍛えるための本番さながらの訓練イベント」と思えればだいたいOK!
📖 おまけ:英語の意味
「Game Day」 = 試合当日・本番の日
💬 スポーツで「本番の試合に備えて練習する」という意味から来ているよ。AWSが自社のSREプラクティスとして広め、現在はクラウド運用の重要な訓練手法として定着しているんだよ