【ぶんさんふぁいるしすてむ】

分散ファイルシステム とは?

💡 データを一箇所に置くのは危険!みんなで分け合って守る仕組み
📌 このページのポイント
分散ファイルシステムの仕組み クライアント ネームノード(管理) データノード1 A B C データノード2 A B D データノード3 C D A 1台壊れてもデータは安全!
分散ファイルシステムのデータ複製イメージ
ひよこ ひよこ

分散ファイルシステムって、普通のファイルシステムと何が違うの?

ペンギン先生 ペンギン先生

普通のファイルシステムは1台のパソコンの中にデータを保存するけど、分散ファイルシステムは複数のサーバーにデータを分けて置くんだよ。引っ越しのとき、大事な書類を1つの箱にまとめるんじゃなくて、コピーを作って別々の箱に入れるようなイメージだね

ひよこ ひよこ

なんでわざわざ分けるの?1箇所にまとめた方が楽じゃない?

ペンギン先生 ペンギン先生

1台のサーバーが壊れたら全部のデータが消えちゃうよね。分散しておけば1台壊れても他のサーバーにコピーがあるから安心なんだ。それにデータが何ペタバイトにもなると、そもそも1台には収まらないんだよ

ひよこ ひよこ

HDFSってよく聞くけど、それも分散ファイルシステムなの?

ペンギン先生 ペンギン先生

そうだよ。HDFSはHadoop Distributed File Systemの略で、ビッグデータ処理のためにGoogleの論文をもとに作られたんだ。デフォルトでデータを3つのサーバーにコピーするから、かなり頑丈だね

ひよこ ひよこ

3つもコピーしたらストレージがもったいなくない?

ペンギン先生 ペンギン先生

いいところに気づいたね。最近はイレイジャーコーディングという技術で、完全コピーじゃなくて数学的に復元できるようにデータを分割する方法も使われてるよ。Cephなんかはこの方式に対応していて、ストレージ効率がぐっと上がるんだ

ペンギン
まとめ:ざっくりこれだけ覚えればOK!
「分散ファイルシステム」って出てきたら「複数サーバーにデータを分けて置く仕組み」と思えればだいたいOK!
📖 おまけ:英語の意味
「Distributed File System」 = 分散ファイルシステム
💬 Distributed(分散した)+File System(ファイルシステム)で、データを複数の場所に散らばらせて管理する仕組みのことだよ
← 用語集にもどる