【でーたぱいぷらいん】

データパイプライン とは?

💡 データの「水道管」を設計して、必要な場所に届ける
📌 このページのポイント
データパイプラインの流れ データ ソース CSV, API, DB 取り込み (Ingest) 収集・受信 変換 (Transform) 整形・加工 格納 (Load) DB・DWH 活用 分析 可視化 自動化された一連のデータ処理フロー
データパイプラインのイメージ
ひよこ ひよこ

ETLと何が違うの?

ペンギン先生 ペンギン先生

ETL(Extract・Transform・Load)はデータパイプラインの代表的なパターンの一つだよ。データパイプラインはETLだけでなく、リアルタイムのストリーミング処理やイベント駆動型の処理も含む、より広い概念なんだ

ひよこ ひよこ

なんで自動化が必要なの?

ペンギン先生 ペンギン先生

手作業でCSVをダウンロードして加工してデータベースに入れる…なんてことを毎日やっていたら大変だよね。データパイプラインは「データAを毎朝6時に取得→加工→DWHに格納」を自動で確実に実行してくれるんだ

ひよこ ひよこ

バッチとストリーミングの違いは?

ペンギン先生 ペンギン先生

バッチは「1日分のデータをまとめて夜間に処理」、ストリーミングは「データが発生した瞬間にリアルタイムで処理」だよ。売上レポートならバッチで十分だけど、不正検知やリアルタイムレコメンドにはストリーミングが必要だね

ひよこ ひよこ

どんなツールを使うの?

ペンギン先生 ペンギン先生

Apache Airflowワークフロー管理の定番で、dbtがデータ変換で人気だよ。ストリーミングならApache KafkaAmazon Kinesis。最近はdagsterやPrefectなど次世代ツールも台頭しているんだね

ペンギン
まとめ:ざっくりこれだけ覚えればOK!
「データパイプライン」って出てきたら「データの収集→変換→格納を自動化する仕組み」と思えればだいたいOK!
📖 おまけ:英語の意味
「Data Pipeline」 = データの導管
💬 Pipeline(パイプライン=送管)のように、データを源泉から目的地まで自動で流す仕組みだよ
← 用語集にもどる