【かおすえんじにありんぐ】
カオスエンジニアリング とは?
💡 「本番で壊してみる」ことで本当の強さを確かめる実験手法
📌 このページのポイント
本番環境を壊すなんて怖くない?
「本番を意図的に壊す」というと怖く聞こえるけど、要は「どうせいつか壊れるなら、自分たちがコントロールできる状況で先に壊して学んでおこう」という発想なんだ。想定外の障害で夜中に起こされるより、計画的に実験して弱点をつぶしておく方がいいよね。
Chaos Monkeyって何をするツールなの?
やり方が適当だとシステムを壊してしまいそうだけど…
一般の企業でも使えるの?本番でやるのはやっぱりハードルが高い?
最初から本番でやらなくていいんだ。ステージング環境から始めて、ゲームデイ(障害訓練の日)を設けて少しずつ慣れていく方法もある。ただし本当の耐障害性は本番でしか分からないことも多くて、ステージングと本番の環境差があるとステージングでの実験が本番での挙動を保証しない問題がある。また、カオス実験をしていない機能やサービスに思わぬ影響が出る「爆発半径(blast radius)」の管理も重要な概念で、ここを誤ると本当の大障害になることがあるよ。
まとめ:ざっくりこれだけ覚えればOK!
「カオスエンジニアリング」って出てきたら「本番環境に意図的に障害を起こしてシステムの弱点を事前に見つける実験的なアプローチだな」と思えばだいたいOK!
📖 おまけ:英語の意味
「Chaos Engineering」 = 混乱(カオス)を使ったエンジニアリング
💬 Netflixが2011年に「Chaos Monkey(本番サーバーをランダムに落とすツール)」を公開したことから広まった手法だよ