TPUの仕組み — なぜGoogleはCPUでもGPUでもない専用チップを作ったのか


CPU vs GPU vs TPU — コアの構造の違い CPU Core 少数の高速コア GPU 多数の並列コア 数千の並列コア TPU シストリックアレイ 行列演算専用ユニット AIの行列計算はTPUのシストリックアレイが最も効率的
CPU・GPU・TPUのコア構造の違い
ひよこ ひよこ

TPUって聞いたことあるけど、GPUとどう違うの?

ペンギン先生 ペンギン先生

TPU(Tensor Processing Unit)はGoogleが2015年に内部で開発し、2017年に公開したAI専用チップだよ。CPUは「汎用計算」、GPUは「並列グラフィック計算に強い汎用チップ」、TPUは「AIの行列演算に特化した専用チップ」という感じで役割が違うんだ。

ひよこ ひよこ

AIって行列演算をよく使うの?

ペンギン先生 ペンギン先生

ニューラルネットワークの計算は、ほぼすべてが行列の掛け算だよ。画像認識も言語モデルも「重み行列×入力ベクトル」の繰り返しなんだ。GPUはもともとゲームのグラフィック計算用に設計されたけど、この行列計算も得意だったのでAI研究に流用された。でも「完全にAI用に最適化」はされていなかったんだ。

ひよこ ひよこ

だからGoogleが専用チップを作ったんだね。TPUは何が特別なの?

ペンギン先生 ペンギン先生

一番の特徴は「シストリックアレイ」という構造だよ。何万個もの掛け算ユニット(MAC)が格子状に並んでいて、データが波紋のように流れながら次々と計算される。CPUGPUはメモリからデータを読み書きする回数が多いけど、シストリックアレイは一度入力したデータを流し続けるので、メモリアクセスが激減して消費電力も低くなるんだ。

ひよこ ひよこ

3つのチップの得意・不得意を比較するとどうなるの?

ペンギン先生 ペンギン先生

こんな感じになるよ。

項目CPUGPUTPU
コア数の規模数〜数十数千〜1万数万(MACユニット)
汎用性高い中程度AI行列演算に特化
メモリアクセス頻繁中程度最小化(シストリック)
主な用途OS・アプリ全般AI・グラフィック・汎用並列AI学習・推論
CPUは「速い秘書1人」、GPUは「普通の作業員1000人」、TPUは「行列計算専門の職人1万人」というイメージだね。

ひよこ ひよこ

TPUGoogleだけが使えるの?

ペンギン先生 ペンギン先生

基本的にはGoogleクラウドGoogle Cloud)経由でのみ使えるよ。Google検索、Google翻訳、Gmail、GeminiといったサービスもTPUで動いてるんだ。研究者向けには「TPU Research Cloud」という無料プログラムもあって、学術研究に開放されてる。一方でNVIDIAGPUを広く販売しているから、AWSAzureでもGPUが使える構造になってるんだ。

ひよこ ひよこ

TPUも世代ごとに進化してるの?

ペンギン先生 ペンギン先生

そうだよ。2023年のIronwood(第7世代)の後、2026年4月のGoogle Cloud Next '26でTPU 8t(学習専用)とTPU 8i(推論専用)が発表されたんだ。特徴的なのは「学習」と「推論」でチップを分けた点で、それぞれに最適な設計を追求した。AIエージェントが常時稼働する時代には、推論チップの性能がサービス品質に直結するからね。

ひよこ ひよこ

専用チップを作るって、そこまでしてAIに力を入れてるんだね!

ペンギン先生 ペンギン先生

チップを自前で持つことは戦略的にも大きな意味があるんだ。NVIDIAへの依存を減らせるし、自社AIサービスに最適化したチップを先行して使えるしね。GoogleだけでなくAmazon(Trainium/Inferentia)、Apple(Neural Engine)、Microsoft(Maia)も専用AIチップを作ってる。「次世代AI競争=チップ競争」という側面がどんどん強まってるんだよ。