【アパッチフーディ】
Apache Hudi(フーディ) とは?
💡 データレイクにレコード更新の魔法をかけるフーディ
📌 このページのポイント
そうなんだ。データレイクは基本的にファイルの追記が得意だけど、「特定の1行だけ書き換える」のは苦手。Hudiはこの問題を解決するために生まれたんだよ
Copy-on-WriteとMerge-on-Readって何が違うの?
Copy-on-Writeは書き込み時にファイル全体を書き直すから読み取りが速い。Merge-on-Readは差分だけ書いて読み取り時にマージするから書き込みが速い。読み重視か書き重視かで選べるんだよ
インクリメンタルクエリって具体的にどう便利なの?
Uberが作ったんだね。どんな場面で使ってたの?
IcebergやDelta Lakeとはどう住み分けてるの?
📖 おまけ:英語の意味
「Hadoop Upserts Deletes and Incrementals」 = Hadoop上での追加更新・削除・増分処理
💬 元々UberがHadoop上で効率的にデータを更新するために作ったプロジェクトで、頭文字をとってHudiだよ