この記事の要点は？

生成AI・分散学習の急拡大でデータセンター内のサーバー間通信（East-West）が急増。なぜ従来のネットワーク設計では足りないのか、仕組みをわかりやすく解説。

Jun 1, 2026

AIが"詰まる"データセンター — East-Westトラフィックが爆増する仕組み

Q: サーバー同士ってそんなにたくさん話してるの？なんでそんなに急に増えたの？

分散学習が原因だよ。GPT-4クラスのAIを学習させるとき、何百台ものGPUサーバーが1秒間に何百回もパラメータ（重み）を互いに同期させるんだ。あのサイズのモデルは1台のサーバーには収まらないから、ネットワークを通じた「集団作業」が必要なんだよ。

ITニュース解説ネットワーク AI インフラ 2026年6月

East-Westトラフィックの急増：AI分散学習がデータセンターを変える

ひよこ

ペンギン先生、「AIでデータセンターのネットワーク設計が変わってきた」って読んだんだけど、どういうこと？

ペンギン先生

普通のWebサービスのリクエスト（外→中）を「North-Southトラフィック」、データセンター内のサーバー同士の通信（横→横）を「East-Westトラフィック」と呼ぶんだよ。昔はNorth-Southが中心だったんだけど、今はEast-Westが全体の70〜80%を占めるようになってきたんだ。

ひよこ

サーバー同士ってそんなにたくさん話してるの？なんでそんなに急に増えたの？

ペンギン先生

分散学習が原因だよ。GPT-4クラスのAIを学習させるとき、何百台ものGPU サーバーが1秒間に何百回もパラメータ（重み）を互いに同期させるんだ。あのサイズのモデルは1台のサーバーには収まらないから、ネットワークを通じた「集団作業」が必要なんだよ。

ひよこ

普通のオフィスのLANじゃだめなの？

ペンギン先生

速度が全然足りないんだよ。一般的なEthernetは10〜100Gbpsだけど、AI学習では400Gbps〜1.6Tbpsが必要になってきた。さらにレイテンシ（遅延）も超重要で、数μ秒の差が何千GPUで累積すると学習が何日も延びちゃう。具体的に比べてみよう。

項目	従来Ethernet	InfiniBand/RoCEv2
帯域幅	10〜100Gbps	400Gbps〜1.6Tbps
レイテンシ	数百μ秒	1〜2μ秒以下
CPU負荷	OS経由（高い）	RDMA（CPUをバイパス）
主な用途	Webトラフィック	AI分散学習・HPC

RDMAはRemote Direct Memory Accessの略で、CPUを介さずGPUのメモリ同士が直接やり取りできる技術だよ。

ひよこ

CPUを通らないってすごい！でもデータセンター全体の設計も変えないといけないの？

ペンギン先生

大きく変わってるよ。従来は「コア→集約→アクセス」の3層ツリー型でNorth-Southに最適化されてた。でも今はSpine-Leaf（スパイン-リーフ）アーキテクチャへの移行が進んでるんだ。スパイン（背骨）スイッチに全リーフ（葉）スイッチが直結されていて、どのサーバー間も2ホップ以内でつながり、遅延が均一になるよ。

ひよこ

GoogleやAWSみたいな大手はもうそういうネットワークを持ってるの？

ペンギン先生

かなり進んでいるよ。GoogleはTPU学習専用の「Jupiter」ネットワークファブリックを持っていて、2026年時点で1.3Pb/s（ペタビット毎秒）の内部帯域を実現してるんだ。NVIDIAのH100/B200 GPUを搭載するDGXシステムでは400Gbps InfiniBandでGPUを接続して、学習効率を従来比10倍以上にしているよ。

ひよこ

AIが賢くなるほど、見えないところのネットワークも進化し続けるんだね！

ペンギン先生

まさにそう！生成AIのコストの多くは実はこのネットワーク設計に依存してるんだよ。East-Westの最適化が遅れると学習に何日も余計にかかったり、電力を無駄に消費したりする。「AIのかしこさ」の裏には、物理インフラの地道な進化があるんだね。

AIが"詰まる"データセンター — East-Westトラフィックが爆増する仕組み

関連コラム