AIが"詰まる"データセンター — East-Westトラフィックが爆増する仕組み
普通のWebサービスのリクエスト(外→中)を「North-Southトラフィック」、データセンター内のサーバー同士の通信(横→横)を「East-Westトラフィック」と呼ぶんだよ。昔はNorth-Southが中心だったんだけど、今はEast-Westが全体の70〜80%を占めるようになってきたんだ。
サーバー同士ってそんなにたくさん話してるの?なんでそんなに急に増えたの?
普通のオフィスのLANじゃだめなの?
速度が全然足りないんだよ。一般的なEthernetは10〜100Gbpsだけど、AI学習では400Gbps〜1.6Tbpsが必要になってきた。さらにレイテンシ(遅延)も超重要で、数μ秒の差が何千GPUで累積すると学習が何日も延びちゃう。具体的に比べてみよう。
| 項目 | 従来Ethernet | InfiniBand/RoCEv2 |
|---|---|---|
| 帯域幅 | 10〜100Gbps | 400Gbps〜1.6Tbps |
| レイテンシ | 数百μ秒 | 1〜2μ秒以下 |
| CPU負荷 | OS経由(高い) | RDMA(CPUをバイパス) |
| 主な用途 | Webトラフィック | AI分散学習・HPC |
大きく変わってるよ。従来は「コア→集約→アクセス」の3層ツリー型でNorth-Southに最適化されてた。でも今はSpine-Leaf(スパイン-リーフ)アーキテクチャへの移行が進んでるんだ。スパイン(背骨)スイッチに全リーフ(葉)スイッチが直結されていて、どのサーバー間も2ホップ以内でつながり、遅延が均一になるよ。
AIが賢くなるほど、見えないところのネットワークも進化し続けるんだね!