AIデータセンターネットワーク101:基礎から最新のUltra Ethernet動向まで

大規模言語モデル(LLM: Large Language Model)などの生成AIの急速な発展と普及により、大規模なAI計算基盤が整備されています。大規模AI計算基盤では、これまでのデータセンターネットワーク技術との親和性や規模対応性からEthernetやInternet Protocolをベースとした技術も広く採用されています。LLMなどの基盤モデルの大規模分散学習に用いられる分散技術と推論(生成)で用いられる分散技術とでは、ユースケースだけでなく、そのアルゴリズムの違いからネットワークに対する要件も大きく変わってきます。 本セッションでは、まずネットワークエンジニア視点から見た生成AI分散アルゴリズムを解説し、大規模分散学習から推論までの生成AIのライフサイクルを支えるAI計算基盤におけるデータセンターネットワーク技術を紹介します。また、昨年の本カンファレンス「Gen AI時代のデータセンターネットワーク最新動向」で紹介したUltra Ethernet Consortium (UEC)についても、最新動向を紹介する予定です。
<要旨>

●生成AIの大規模分散学習と推論(分散アルゴリズムと通信) ●AI計算基盤を支えるデータセンターネットワーク技術 ●AI向けスケールアウトネットワーク技術Ultra Ethernetの最新動向

  • AIインフラ
  • ネットワーク
  • データセンター
Speaker

Arrcus, Inc.

プリンシパル エンジニア

海老澤 健太郎

インターネット黎明期より、国内外のスタートアップ企業において、顧客サポート、製品デザイン、開発マネジメントなど幅広い領域を担当。仮想化基盤、ASIC・FPGAを活用した高性能フロールータ、OpenFlowスイッチの開発などに従事する。また、コネクティッドカーや広域通信を支えるネットワーク技術の研究、SONiCなどのオープンソースコミュニティ活動にも取り組む。現在は北米スタートアップ企業にて、AI向けネットワーク機器の開発に従事している。

Speaker

(株)Preferred Networks

エンジニア

上野 裕一郎

2019年に東京工業大学工学部情報工学科(現 東京科学大学)を卒業後、2021年に同大学情報理工学院情報工学系修士課程を修了。大学院では高性能計算分野、とくに分散深層学習の高速化・省メモリ化・省I/O化に関する研究に従事。2021年より株式会社Preferred Networksに入社し、GPU・MN-Core・RDMAネットワークのパフォーマンス改善、深層学習のための分散キャッシュシステムの開発、Software-Defined Storageの運用、サーバプロビジョニング自動化など、低レイヤーの技術を主軸として機械学習プラットフォームの開発・運用に取り組んでいる。

Chair

(株)Preferred Computing Infrastructure

代表取締役社長

土井 裕介

2000年4月より2016年7月まで、株式会社東芝 研究開発センターにて自律分散システムや無線IoTシステム等の研究開発およびマネジメントに従事。2016年8月より株式会社Preferred Networksで自律ネットワークシステムの研究の傍ら、社内計算基盤環境の整備を実施。MN-CoreおよびMN-Core 2の開発のPFN側とりまとめ、およびGPUも含めた計算資源の構築、計算力外販に向けたPFCPプロジェクトの立ち上げ等に従事。2025年1月より計算基盤の事業化を行う株式会社 Preferred Computing Infrastructure 代表取締役社長。博士(情報理工学, 東京大学)                        

閉じる