【びっぐくえり】

BigQuery とは?

💡 ペタバイトのデータを「数秒で」分析するDWH
📌 このページのポイント
BigQuery — ストレージとコンピュートの分離 ログデータ IoTデータ 業務データ データソース ストレージ層 カラム型格納 自動圧縮 ペタバイト級 分離 コンピュート層 Dremelエンジン 並列分散クエリ 自動スケーリング サーバーレス インフラ管理不要 高速クエリ TB級を数秒で処理 従量課金 クエリ量で課金
BigQueryのストレージ・コンピュート分離アーキテクチャ
ひよこ ひよこ

普通のデータベースとどう違うの?

ペンギン先生 ペンギン先生

MySQLPostgreSQLOLTPトランザクション処理)向けで、行単位の読み書きが得意。BigQueryはOLAP(分析処理)向けで、数十億行のデータから集計・分析するのが得意。内部的にはDremelというGoogleの分散クエリエンジンが動いていて、数千台のサーバークエリを並列実行するんだよ

ひよこ ひよこ

料金はどうなるの?

ペンギン先生 ペンギン先生

2つの課金モデルがあるよ。①オンデマンド(スキャンしたデータ量で課金、$5/TB)。月1TB無料。②定額(スロット数で固定料金)。オンデマンドは使った分だけで手軽だけど、大量にクエリすると高額になる。パーティション(日付で分割)やクラスタリングスキャン量を減らすのがコスト最適化の基本だよ

ひよこ ひよこ

どんな用途に使う?

ペンギン先生 ペンギン先生

①ユーザー行動分析(Webアクセスログ、アプリイベント)、②マーケティング分析(広告効果測定)、③IoTデータ分析(センサーデータの集計)、④機械学習の前処理。Google Analyticsのデータを直接BigQueryにエクスポートして分析するのが人気。データサイエンティストの日常ツールだよ

ひよこ ひよこ

他のDWHとの比較は?

ペンギン先生 ペンギン先生

Snowflakeマルチクラウド対応でコンピュートとストレージの分離が特徴。Amazon Redshiftはクラスタ型で予約インスタンスでコスト最適化。BigQueryはサーバーレスで管理の手間が最小。Google系サービス(GA4Firebase)との連携が強力。選定ポイントは既存クラウド環境、コスト構造、チームのスキルセットだよ

ペンギン
まとめ:ざっくりこれだけ覚えればOK!
「BigQuery」って出てきたら「Google Cloudの超高速データウェアハウス」と思えればだいたいOK!
📖 おまけ:英語の意味
「BigQuery」 = 大きな問い合わせ
💬 Big(大きな)Query(問い合わせ)。巨大なデータに対する問い合わせを高速に処理するよ
← 用語集にもどる