【アマゾンレッドシフト】

Amazon Redshift とは?

💡 ビッグデータの倉庫番長、分析クエリを超高速でさばく
📌 このページのポイント
Amazon Redshift のデータフロー アプリDB ログ / S3 SaaS / API データソース ETL Redshift Node1 Node2 Node3 Node4 大規模並列処理(MPP) BIダッシュボード 可視化・レポート ML / 分析 予測・モデリング 分析・活用 列指向ストレージで必要な列だけ高速読取
Amazon Redshift のデータフローイメージ
ひよこ ひよこ

Amazon Redshiftって普通のデータベースと何が違うの?

ペンギン先生 ペンギン先生

普通のデータベースは注文処理とかリアルタイムの読み書きが得意なんだけど、Redshiftは大量のデータをまとめて分析するのが得意なんだよ。データウェアハウスっていう種類のデータベースだね。

ひよこ ひよこ

どうしてそんなに分析が速いの?

ペンギン先生 ペンギン先生

秘密は2つあるよ。1つは「列指向ストレージ」で、必要な列だけ読むから無駄がない。もう1つは「大規模並列処理(MPP)」で、複数のノードが同時にクエリを処理するんだ。例えるなら、1人で本棚を探すんじゃなくて、10人が手分けして探すイメージだね。

ひよこ ひよこ

どんなデータを分析するのに使うの?

ペンギン先生 ペンギン先生

ECサイトの売上分析、ユーザーの行動ログ分析IoTセンサーデータの集計とか、とにかく「大量のデータを横断的に集計したい」ときに使われるよ。BIツールと組み合わせてダッシュボードを作るのが定番だね。

ひよこ ひよこ

S3に溜めたデータも分析できるの?

ペンギン先生 ペンギン先生

できるよ!Redshift Spectrumという機能を使うと、S3にあるデータをRedshiftに取り込まなくても直接クエリできるんだ。データレイクデータウェアハウスのいいとこ取りができるんだよ。

ひよこ ひよこ

Redshift Serverlessっていうのも聞いたことがあるんだけど、何が違うの?

ペンギン先生 ペンギン先生

従来のRedshiftはクラスタのノード数を自分で決めて管理する必要があったんだけど、Serverlessならその管理が不要で使った分だけ課金されるんだ。小規模な分析から始めたいときにぴったりだね。実はRedshiftの内部エンジンはPostgreSQL互換だから、既存のSQLツールがそのまま使えるのも大きな強みだよ。

ペンギン
まとめ:ざっくりこれだけ覚えればOK!
Amazon Redshift」って出てきたら「AWSの超大規模データ分析用データベース」と思えればだいたいOK!
📖 おまけ:英語の意味
「Amazon Redshift」 = アマゾン・レッドシフト(赤方偏移)
💬 天文学の「赤方偏移(Redshift)」が名前の由来。Oracleのロゴカラー(赤)から「シフト」する=脱Oracleという意味も込められているんだよ
← 用語集にもどる