クラウドで隠れたインフラの複雑さが再び顔を出している。推論の常態化で内部トラフィックが急増し設計の前提が揺らぐ。組織の壁を越えた見直しが必要になるかもしれないとふと考える。 #ネットワーク #インフラ
動画でサクッと!このブログ記事の解説
このブログ記事を動画で分かりやすく解説しています。
テキストを読む時間がない方も、映像で要点をサッと掴めます。ぜひご覧ください!
この動画が役に立ったと感じたら、AIニュースを毎日お届けしているYouTubeチャンネル「AIクリエーターの道」をぜひフォローしてください。
チャンネル登録はこちら:
https://www.youtube.com/@AIDoshi
導入
クラウドが普及して以来、企業のインフラ運用は「クリック一つで完了」が当たり前になった。ネットワーク設計に時間を割く必要などない、というのが多くの開発チームの感覚だった。だがAI推論ワークロードの常態化が、その前提を根本から揺さぶっている。
InfoWorldの寄稿者であるMatt Asayが2026年3月2日に公開した記事は、AIがエンタープライズのネットワーキング領域を再び戦略的な関心事に押し上げている現象を分析したものだ。クラウドによって抽象化されていたインフラの詳細が、推論ワークロードの要求によって再び表面に出てきている構造を、Cisco SecurityのCTOでありCiliumの生みの親であるThomas Grafの発言を交えて論じている。
ネットワークが再び重要になる——その主張の具体的な中身と、技術者・プラットフォームチームが今考えるべきことを整理する。
背景と課題
ネットワーキングは「面白みのなさ」が美徳だった。
クラウドによる抽象化と、その限界
AWSに代表されるクラウドベンダーが提供してきたのは、「差別化にならない重労働」の肩代わりだった。コンピュート、ストレージ、データベース——いずれもボタン一つで調達でき、大半の企業はローレベルなシステムエンジニアリングから解放された。マネージドインフラの本質は、まさにそこにあった。
だが、Asayの主張はこうだ。エンタープライズAIの本当の課題はもはやトレーニングではない。推論(インファレンス)こそが課題だ、と。モデルを企業データに対して継続的に適用し、レイテンシ・セキュリティ・コストの制約下で運用し続けること。この推論が企業の定常的なワークロードになった瞬間、退屈だった(が必要だった)インフラは突如として戦略的資産に変わる。
ネットワーキングが注目される歴史的パターン
元記事は、ネットワーキングに注目が集まる時期には共通のパターンがあると指摘する。1999年から2001年のドットコムバブル期、2007年のブロードバンド・モバイル拡大期、2015年から2022年のクラウドネットワーキング統合期。いずれも技術的な大きな転換点だった。
そして今、AIがその次の波を起こそうとしている。
トレーニングから推論へ——ボトルネックの移動
X上ではトレーニングラン、モデルサイズ、データセンター建設への巨額投資に注目が集まっている。しかしAsayが論じるように、大半の企業にとってモデルをたまにトレーニングすることは難しい部分ではない。難しいのは、毎日・終日、機密データをまたぎ、共有環境の中で、厳しいパフォーマンス要件のもとで推論を走らせ続けることだ。
AI時代において、ネットワーク性能は第一級のボトルネックになる。アプリケーションがCPUやストレージを待つのではなく、コンテキスト、トークン、エンベディング、モデル呼び出し、状態が分散システム間を移動するのを待つことになるからだ。AIは単にトラフィック量を増やすだけでなく、ネットワークが担う役割の性質そのものを変える。
ネットワークエンジニアが目立たないところで黙々と仕事をする時代は、AIが許さなくなった。
技術・内容解説
AIワークロードがネットワークに突きつける課題は、従来の帯域幅不足とは本質的に異なる。
東西トラフィックの爆発的拡大
Thomas Graf(Cisco Security CTO、Isovalent共同創設者、Cilium開発者)はインタビューでこう語っている。「Kubernetesとマイクロサービスの台頭が、東西トラフィック加速の最初の波だった。モノリスを分割した瞬間、ファイアウォールだけでなくインフラ内部の東西方向にもセキュリティが必要になった」。
AIはこのシフトをさらに加速させる。AIワークロードが扱うのは、単なるサービス間通信ではない。同期されたGPUクラスタ、検索パイプライン、ベクトル検索、推論ゲートウェイ、そしてシステム間で継続的に状態を交換するエージェント群——これらは、多くの企業ネットワークが想定して構築された世界とは異なる運用環境だ。
Grafはこう続ける。「AIワークロードでは、データの移動量は100倍になる。分割が進んだからではなく、AIがより大きなスケールで動作し、膨大なデータを必要とするからだ」。
ネットワークが「アプリケーションランタイムの一部」になる
AI環境では、ネットワークファブリック自体がコンピュートシステムの一部となりつつある。GPUがリアルタイムで勾配、活性化値、モデル状態を交換する。パケットロスは単なる不便ではなく、集合演算を停止させ、高価なハードウェアをアイドル状態にしうる。
従来の南北方向(ユーザーからサーバーへのリクエスト)の可視性だけでは不十分だ。重要なトラフィックの多くは、従来の境界を越えないクラスタ内部の東西フローだからだ。セキュリティポリシーもエッジだけには置けない。価値あるデータフローは内部にある。
さらに、企業はAI需要のカーブがどうなるかをまだ見極めている段階にあるため、弾力性も重要になる。ネットワークは段階的にスケールし、混合ワークロードに適応し、AIロードマップが変わるたびに全面再設計を強いることなく、進化するアーキテクチャを支える必要がある。
eBPFとCiliumが注目される理由
eBPFは、カーネルソースを変更したりモジュールをロードしたりすることなく、カーネル内でサンドボックス化されたプログラムを安全に実行する仕組みだ。技術的な意味は深いが、要点は単純で、可観測性とポリシー適用を、パケットやシステムコールが実際に発生する場所のすぐ近くに持っていける。東西トラフィック、一時的なサービス、マシン速度の推論が飛び交う世界で、これは大きな意味を持つ。
CiliumはeBPF上に構築され、Kubernetesネイティブのネットワーキング、可観測性、ポリシー適用を、ネットワークリンク自体の速度でボトルネックなしに提供する。ハイパースケーラー各社がCiliumを標準的なネットワーキングスタックの構成要素として採用しており、GoogleのGKE Dataplane V2、MicrosoftのAzure CNI Powered by Cilium、AWSのEKS Hybrid Nodesが依存または対応している。2025 State of Kubernetes Networking Report(CNCF公開)によれば、Kubernetesユーザーの過半数がCiliumベースのネットワーキングを使用している。
よくある誤解
誤解1:「AIの課題はモデルのトレーニングにある」
元記事の主張は明確で、エンタープライズにとっての本当の課題は推論だ。モデルを一度トレーニングすること自体は、多くの企業にとって最大の困難ではない。機密データに対し、レイテンシ・セキュリティ・コストの制約下で推論を継続的に実行し続けることが難しい。
誤解2:「ネットワークの問題は帯域幅を増やせば解決する」
AIワークロードは単にトラフィック量が増えるだけではない。GPUクラスタ間の同期通信、ベクトル検索、エージェント間の状態交換といった新種のトラフィックパターンが発生する。帯域幅だけでなく、レイテンシ、可観測性、東西方向のセキュリティポリシーが同時に求められる。
誤解3:「Ciliumはニッチなツール」
Google、Microsoft、AWSの三大ハイパースケーラーがいずれもCiliumに依存または対応しており、CNCFのレポートではKubernetesユーザーの過半数が利用している。ニッチどころか、事実上の標準に近いポジションにある。
用語解説
- 推論(インファレンス)
- 学習済みのAIモデルを使って、新しいデータに対し予測や判断を行うプロセス。トレーニング(学習)とは異なり、本番環境で継続的に実行される。
- 東西トラフィック
- データセンターやクラスタ内部のサーバー間で発生する通信。従来の「南北トラフィック」(ユーザーとサーバー間の通信)と対比される概念。マイクロサービスやAIワークロードの増加に伴い急増している。
- eBPF
- カーネルのソースコードを変更せずに、カーネル空間でサンドボックス化されたプログラムを安全に実行できる技術。ネットワーク観測やセキュリティポリシーの適用をパケット処理の近くで行える。
- Cilium
- eBPF上に構築されたKubernetesネイティブのネットワーキング・可観測性・セキュリティプロジェクト。Thomas Grafが開発し、CNCF傘下のプロジェクトとして運営されている。
- 南北トラフィック
- 外部のクライアントとデータセンター内のサーバー間で発生する通信。従来のファイアウォールやロードバランサーが主に対象としてきた通信パターン。
インパクト・活用事例
この話はCiliumやネットワーキングだけに閉じたものではない。
推論性能が市場競争力に直結する
GrafはAIワークロードにおけるネットワーク性能を高頻度取引(HFT)に例えている。「AIを活用したサービスがより速く応答し、より反応的に振る舞えれば、市場で優位に立つ。その基盤は、ボトルネックのない高性能・低レイテンシのネットワークだ」とGrafは述べている。「コンピュータが人間に取って代わった瞬間、ネットワークのレイテンシとスループットが競争上の差別化要因になった」。
この見立てには説得力がある。ただし留意すべき点もある。高頻度取引との類推は分かりやすいが、HFTではマイクロ秒単位の最適化に莫大な投資を行うことが正当化されるのに対し、多くのエンタープライズAIアプリケーションでは数十ミリ秒の改善が直接的な収益差につながるかどうかはワークロード次第だ。すべての企業がHFT並みのネットワーク最適化を必要とするわけではなく、自社の推論ワークロードの特性を見極めることが先決になる。
ハイパースケーラー各社の対応
Ciliumの浸透度は、ハイパースケーラーの動きに端的に表れている。
- Google:GKE Dataplane V2がCiliumに依存
- Microsoft:Azure CNI Powered by Ciliumとして提供
- AWS:EKS Hybrid NodesがCiliumを対応
三大クラウドベンダーがいずれもCiliumを採用している事実は、Kubernetes環境のネットワーキングにおけるCiliumの位置づけを示している。CNCFの2025 State of Kubernetes Networking Reportでも、過半数がCiliumベースのネットワーキングを使用しているという結果が出ている。
プラットフォームチームへの影響
Asayの主張で重要なのは、すべての企業がネットワークスタックを自前で構築すべきだと言っているのではないという点だ。そうではなく、プラットフォームチームがネットワーキングを「触れてはいけないユーティリティ層」として扱い続けることはもうできない、ということだ。推論がエンタープライズAIの実体である以上、レイテンシ、テレメトリ、セグメンテーション、内部トラフィックポリシーは副次的な関心事ではなく、製品品質・運用信頼性・開発者体験の本質的な構成要素になる。
個人的には、この指摘が日本のエンタープライズ環境でより深刻な課題になりうると見ている。国内の大規模SIer案件では、ネットワーク設計がインフラチームの専権事項として他部門から分離されていることが多い。クラウドネイティブな文化が浸透している欧米のテック企業と比べ、プラットフォームチームがネットワーク層に介入しにくい組織構造になっているケースが少なくない。AIワークロードが求める東西トラフィックの可視化やポリシー制御を実現するには、組織的なサイロの見直しが技術選定以前に必要になる場面があるだろう。
アクションガイド
AIワークロードに備えたネットワーク戦略の見直しにあたり、技術的な役割ごとにやるべきことを整理した。
プラットフォームエンジニア・インフラ担当向け
- 自社のKubernetes環境で採用しているCNI(コンテナネットワークインターフェース)を確認し、Ciliumベースかどうかを把握する
- 東西トラフィックの可観測性が現状どの程度あるかを棚卸しする
- 推論ワークロードを本番展開する前に、パケットロスやレイテンシの影響をGPUクラスタ構成でベンチマークする
アプリケーション開発者・MLエンジニア向け
- 推論パイプラインの各ステップ(ベクトル検索、モデル呼び出し、エージェント間通信)でネットワークレイテンシがどこに寄与しているかを計測する
- ネットワーク層の制約をアプリケーション設計の前提条件に含める習慣をつける
- クラウドベンダーのマネージドサービスに依存している場合でも、その背後のネットワーキング構成(GKE Dataplane V2、Azure CNI等)を理解しておく
保存用チェックリスト
- □ 自社Kubernetes環境のCNIとバージョンを確認した
- □ 東西トラフィックの可観測性ツール(Hubble等)の導入状況を把握した
- □ 推論ワークロードのネットワーク依存箇所を特定した
- □ パケットロスがGPU集合演算に与える影響を評価した
- □ セキュリティポリシーがエッジだけでなく内部の東西フローもカバーしているか確認した
- □ ネットワーク設計の意思決定にアプリケーション開発チームが関与できる体制があるか確認した
- □ AIロードマップの変更に対し、ネットワークが全面再設計なしで適応できる弾力性があるか評価した
未来展望とリスク
Asayが本記事で繰り返し強調するのは、AIが企業に対してクラウド時代に抽象化して「忘れてよかった」はずの詳細を再び直視させているという構造だ。これはネットワーキングに限った話ではなく、スタック全体に及ぶ。
ここは過大評価されている感がある。「ネットワークが戦略的になる」という主張自体は正しいとしても、その対象となる企業の範囲は限定的かもしれない。GPUクラスタを複数同期させ、リアルタイムで推論パイプラインを回すようなワークロードを持つ企業は、現時点ではまだ一部だ。多くの企業にとっては、まずAPIベースで外部の推論サービスを呼び出す形が主流であり、その場合のボトルネックはクラスタ内東西トラフィックよりもAPI呼び出しのレイテンシやコスト管理になる。
ただし、エージェントが普及し、推論ワークロードが社内に内製化される流れが加速すれば、Grafが述べるような「100倍のデータ移動量」が現実の課題になる時期は遠くないだろう。その時に備え、ネットワーク層の可観測性とポリシー制御の基盤を整えておくことは、保険としての合理性がある。
リスクとしては、eBPF/Ciliumに過度に依存した設計が、特定のカーネルバージョンやディストリビューションへのロックインを生む可能性がある。現時点ではCiliumの採用が広がっているが、技術標準は常に変化するため、過信は禁物だ。
まとめ
エンタープライズAIの勝者は、最大のモデルを持つ企業ではなく、推論を信頼性高く、ガバナンスの効いた形で、経済的に、実データ・実負荷のもとで動かせる企業だ。AsayとGrafの主張の核心はここにある。
モデルの優劣で決まる戦いもあるが、多くの企業が見落としているのは、ネットワーキングのような「退屈に見える下層レイヤー」こそが勝敗を分けるという点だ。Ciliumがハイパースケーラー三社に採用され、Kubernetesユーザーの過半数に使われている事実は、この領域がすでに動いていることを示す。
ネットワークは「配管」から「アプリケーションランタイムの一部」に変わりつつある。プラットフォームチームがこの変化を無視できる猶予は、推論ワークロードの本格化とともに急速に縮まっている。
参照リンク・情報源
- AI makes networking matter again(InfoWorld、Matt Asay、2026年3月2日)
- 2025 State of Kubernetes Networking Report(CNCF)
- eBPF公式プロジェクトドキュメント
- Cilium公式サイト
本記事は情報提供を目的としています。最新情報は必ず公式サイトでご確認ください。
AIの最新トレンドを毎日短くまとめてXで配信しています。
記事では書ききれない速報や所感も流しているので、気になる方はフォローしてみてください。
🎧 Podcast
AIの最新トレンドを音声で毎日配信中です。
