【でーたぱいぷらいん】
データパイプライン とは?
💡 データの「水道管」を設計して、必要な場所に届ける
📌 このページのポイント
- データの入力元から出力先までの一連の処理フローを自動化
- バッチ処理とストリーミング処理の2つの方式がある
- Apache Airflow、dbt、Prefect などのツールが普及
- AIの学習データ準備やリアルタイム分析の基盤として不可欠
ETLと何が違うの?
なんで自動化が必要なの?
バッチとストリーミングの違いは?
どんなツールを使うの?
Apache Airflowがワークフロー管理の定番で、dbtがデータ変換で人気だよ。ストリーミングならApache KafkaやAmazon Kinesis。最近はdagsterやPrefectなど次世代ツールも台頭しているんだね
まとめ:ざっくりこれだけ覚えればOK!
「データパイプライン」って出てきたら「データの収集→変換→格納を自動化する仕組み」と思えればだいたいOK!
📖 おまけ:英語の意味
「Data Pipeline」 = データの導管
💬 Pipeline(パイプライン=送管)のように、データを源泉から目的地まで自動で流す仕組みだよ