【ケイオスモンキー】

Chaos Monkey とは?

💡 本番環境に「暴れる猿」を放つ——壊れて当然を前提にしたシステムを作るために。
📌 このページのポイント
Chaos Monkey の仕組み 本番環境(AWS / クラウド) Server A 稼働中 Server B 強制停止 × Server C 稼働中 🐵 Chaos Monkey 結果と目的 ✅ 残サーバーで自動復旧 🔍 単一障害点の発見 💪 レジリエンス向上 🚨 弱点を事前に修正 より強いシステムへ カオスエンジニアリング Netflix 発: Simian Army へ拡張 「壊れて当然」を前提に設計する
Chaos Monkeyのイメージ:本番でランダムにサーバーを落として耐障害性を鍛える
ひよこ ひよこ

Chaos Monkeyって、本番でサーバーを落とすの!?怖くないの?

ペンギン先生 ペンギン先生

最初は怖いよね。でもNetflixは「障害はどうせいつか必ず起きる、なら自分たちでコントロールしながら経験しよう」と考えたんだよ。

ひよこ ひよこ

どうやって動くの?

ペンギン先生 ペンギン先生

AWSのEC2インスタンスをランダムに選んで強制終了するんだよ。それで残ったシステムがちゃんと動き続けられるか確かめるんだ。

ひよこ ひよこ

ランダムに落として、問題が起きたらどうするの?

ペンギン先生 ペンギン先生

問題が起きることが目的の一つだよ。どこが弱点なのか、単一障害点がないかが浮き彫りになるから、それを修正してより強いシステムにできるんだ。

ひよこ ひよこ

Netflixだから大規模すぎて参考にならないんじゃないの?

ペンギン先生 ペンギン先生

考え方は規模に関係なく使えるよ。今はChaos Monkey以外にも、KubernetesPodを落とすChaos MeshやGremlinなど様々なツールがあって、中小規模でも導入できるんだ。

ひよこ ひよこ

Simian Armyって何なの?

ペンギン先生 ペンギン先生

Chaos Monkeyを発展させたNetflixのツール群だよ。遅延を発生させるLatency Monkey、クラウド設定ミスを検知するConformity Monkeyなど『猿の軍団』という名前で複数のカオスツールを集めたものなんだ。

ペンギン
まとめ:ざっくりこれだけ覚えればOK!
「Chaos Monkey」って出てきたら「本番で意図的にサーバーを落としてシステムの強さを試すNetflixのツール」と思えればだいたいOK!
📖 おまけ:英語の意味
「Chaos Monkey」 = 混沌の猿
💬 「檻の中に猿を放して暴れさせる」というイメージから命名されたよ。制御できない障害を猿に例えて、それに耐えられるシステムを作る発想なんだ。
← 用語集にもどる