【ダグスター】
Dagster とは?
💡 データ資産を中心に考える新しいパイプライン管理
📌 このページのポイント
- パイプラインを「タスク」ではなく「データアセット(成果物)」中心に設計する発想が特徴
- 入出力に型を定義でき、実行前にパイプラインの不整合を検出できる
- ローカル開発とテストが容易で、ソフトウェアエンジニアリングのベストプラクティスを適用しやすい
- Dagster Cloudでマネージドな本番運用も可能
DagsterってAirflowと何が違うの?
一番の違いは設計思想だよ。Airflowは「タスクの実行順序」を中心に考えるけど、Dagsterは「どんなデータアセットを作るか」を中心に考えるんだ。つまりゴール(成果物)から逆算して設計できるよ
データアセットって具体的には何?
型安全ってどういうこと?
たとえば「この処理の入力はDataFrameで、出力はCSVファイル」みたいに入出力の型を定義できるんだ。型が合わないパイプラインは実行前にエラーになるから、本番で予期しない障害が起きにくいよ
テストしやすいのはなぜ?
Airflowから乗り換える企業は多いの?
増えてきているね。特にデータエンジニアリングチームが成熟してきた組織で採用が進んでいるよ。ただしAirflowのエコシステムは圧倒的に大きいから、既存のAirflow資産が多い組織では共存させるケースもあるね
まとめ:ざっくりこれだけ覚えればOK!
「Dagster」って出てきたら「データアセット中心の次世代パイプラインツール」と思えればだいたいOK!
📖 おまけ:英語の意味
「Dagster」 = DAG + ster(する人)
💬 DAG(有向非巡回グラフ)を扱うツールという意味合いで名付けられたよ