ホーム › コラム › Google Cloud Next 2026 — AIチップを「学習」と「推論」で分けた理由 Apr 27, 2026 Google Cloud Next 2026 — AIチップを「学習」と「推論」で分けた理由 ITニュース解説GoogleAIハードウェアクラウド2026年4月 Google Cloud Next 2026 — 第8世代TPU TPU 8t 学習(Training)専用 12.6 petaFLOPS 演算性能(FP4) コスト効率 2.7倍↑ 前世代比 TPU 8i 推論(Inference)専用 SRAM 3倍(384 MB) オンチップSRAM 前世代比 推論コスト 80%改善 前世代比 電力効率 前世代比 2倍(共通) 第8世代TPUは学習と推論で分化 ひよこ ペンギン先生、Googleが新しいTPUを発表したって聞いたんだけど、何が新しいの? ペンギン先生 2026年4月22日から開催されたGoogle Cloud Next '26で、第8世代TPUとして「TPU 8t」と「TPU 8i」の2種類が発表されたんだ。これまでのTPUは1種類だったのに、今回から「学習専用」と「推論専用」に分けたのが最大の特徴だよ。 ひよこ 学習と推論って何が違うの? ペンギン先生 AIモデルを作るときの「学習(トレーニング)」は、膨大なデータを何度も処理して重みを更新する作業。一方「推論」は完成したモデルに質問を投げかけて答えを返す作業だね。求められる処理の性質がまったく違うんだ。学習は大量の計算を並列に、推論は速いレスポンスが求められる。 ひよこ なるほど!それで2種類に分けたんだね。それぞれどんなスペックなの? ペンギン先生 比較してみよう。項目TPU 8t(学習用)TPU 8i(推論用)演算性能(FP4)12.6 petaFLOPS10.1 petaFLOPSオンチップSRAM128 MB384 MB(前世代比3倍)HBM容量216 GB(6.5 TB/s)288 GB(8.6 TB/s)前世代比コスト効率2.7倍向上推論コスト80%改善どちらも電力効率(ワットあたり性能)は前世代Ironwoodの約2倍だよ(Google公式発表、2026年4月)。 ひよこ TPU 8iの推論コストが80%改善ってすごい!どんな工夫があるの? ペンギン先生 推論専用に3倍のオンチップSRAMを積んで、モデルの重みをなるべく外部メモリに取りに行かずに処理できるようにしてるんだ。さらに「Boardfly」という新しいネットワークトポロジーを採用して、チップ間の通信遅延を大幅に削減した。GeminiのようなLLMが答えを返すとき、遅延が小さいほどユーザー体験が上がるからね。 ひよこ GoogleってNVIDIAのGPUじゃダメだったの? ペンギン先生 GPUは汎用的で優秀だけど、AI行列演算に特化した「シストリックアレイ」構造を持つTPUの方が、その用途に限れば効率が高いんだ。しかもGoogleはTPUをGoogle Cloud内で独占的に提供してるから、AWS・Azureとの差別化にもなる。TPU 8tと8iは2026年後半に一般提供開始予定で、まさにエージェントAI時代の基盤として位置づけられてるね。 ひよこ AIがどんどん賢くなる裏には、チップの進化があったんだね! ペンギン先生 そうだよ。GPT-4もGemini UltraもClaudeも、何万枚ものTPUやGPUで学習されてる。モデルの性能競争は、実はチップ開発競争でもあるんだ。Googleが学習と推論でチップを分けたことで、今後のAIサービスのコストと速度が大きく変わるかもしれないね。