Rockport Networks が 300 Gbps スイッチレス ファブリックを発表、396 を明らかに
ティファニー・トレーダー著
2021年10月27日
Rockport Networks は今週、ハイパフォーマンス コンピューティングと高度な規模の AI 市場のニーズに焦点を当てた 300 Gbps スイッチレス ネットワーキング アーキテクチャを発表し、ステルスから浮上しました。 初期の顧客には、フロンテラ システムの一部にネットワーキング テクノロジを導入したテキサス アドバンスト コンピューティング センター (TACC) や、同じくネットワーキング ギアを使用している DiRAC/ダーラム大学が含まれます。 オハイオ州立大学のハイパフォーマンス ネットワーキング グループも Rockport と提携しており、その専門知識を標準サポートに活用しています。
Rockport の分散スイッチング機能は、ネットワーク カード全体で実行されるネットワーク オペレーティング システムである、特許取得済みの rNOS ソフトウェアによって実装されています。 このソフトウェアはサーバー リソースを一切消費せず、高性能イーサネット NIC を認識することを除けばサーバーからは認識されません。 ネットワーク機能は、パッシブ ケーブルを介して相互に直接接続されている各ノードに分散されます。 Rockport 氏によると、分散コントロール プレーンと分散ルーティング プレーンが存在しますが、ノードは自己検出、自己構成、自己修復機能を備えています。 このソフトウェアは、ネットワーク内の最適なパスを決定して輻輳と遅延を最小限に抑えながら、パケットをより小さな部分 (ロックポートではこれらを FLIT と呼んでいます) に分割して、優先度の高いメッセージが大量のデータによってブロックされないようにします。
rNOS に加えて、Rockport Networks ソリューションは 3 つの部分で構成されます。
ロックポートの最高技術責任者マット・ウィリアムズ氏によると、現在出荷されている製品は、高い経路ダイバーシティを備えた6Dトーラスの高度なバージョンに基づいているという。 現時点では最大 1,500 ノードをサポートしていますが、このアーキテクチャは Dragonfly のようなトポロジを活用して 100,000 ノード以上まで拡張できるように設計されていると CTO は述べています。
ソリューションをテストおよび検証するために、ロックポート ネットワークスはオースティンにあるテキサス アドバンスト コンピューティング センター (TACC) と約 1 年間協力してきました。 新しい Rockport Center of Excellence の後援の下、TACC は最近、Frontera スーパーコンピューターの 396 ノードに Rockport ネットワークを導入しました。 (Top500 リストで 10 位にランクされている、約 8,000 ノードのデル システムは、プライマリ インターコネクトとして Nvidia-Mellanox HDR InfiniBand を使用しています。) Rockport に接続されたノードは、パンデミック関連の量子コンピューティング研究をサポートする生産科学に活用されています。研究および緊急対応コンピューティング、破壊的な気象現象やその他の大規模災害に対処します。
「TACC は、ロックポート センター オブ エクセレンスになれることを大変うれしく思っています。当社は、大規模なパフォーマンスを維持するために高帯域幅、低遅延の通信に依存する多様な高度なコンピューティング ワークロードを実行しています」と TACC ディレクター兼研究担当アソシエート バイス プレジデントのダン スタンツィオーネ氏は述べています。 UTオースティンにて。 「私たちは、Rockport のスイッチレス ネットワーク設計のような革新的な新技術を活用できることに興奮しています。
「私たちのチームは、輻輳と遅延制御の点で有望な初期結果を確認しています。インストールと管理のシンプルさに感銘を受けています。今後も新しい大規模なワークロードでテストを続け、Rockport スイッチレス ネットワークをさらに拡張することを楽しみにしています」データセンター」と彼は付け加えた。
ウィリアムズ氏は、TACC でのロックポートの設置が完了するまでにわずか 1 週間半かかったと報告しました。 「文字通り2段階のプロセスだ」と彼は言う。 「カードを差し込み、ケーブルを差し込みます。」
Williams 氏は HPCwire に対し、顧客は負荷がかかった状態でアプリケーションを実行している場合、InfiniBand と比較して平均 28% の改善が見られ、大規模なエンドツーエンドの遅延が 3 分の 1 に減少していると述べました。 「負荷がかかっている状態では、全体的なパフォーマンスが向上し、ワークロードの完了時間が一貫して向上しています。ワークロードはそれぞれ異なりますが、常に 28% になるとは限りません。ワークロードの敏感度に応じて、それよりも高くなる場合もあれば、低くなる場合もあります」ただし、平均すると約 28% になります。」
同氏は、これら 4 つのテスト (上記) では Rockport ソリューションを 100 Gbps InfiniBand ネットワークと比較したことを明らかにしましたが、200 Gbps InfiniBand に対する内部テストでも「非常に似た結果」が得られたと述べました。 上位にリストされている HPC ワークロードは、移動メッシュの流体力学コードを採用しています。
方法論と比較について迫られたウィリアムズ氏は、「パフォーマンスを定義する方法で重要なのは、それが本番環境であり、負荷がかかっているということです。従来のネットワーク ベンダーの多くは、アンロードされた生のベースライン パフォーマンスやインフラストラクチャに重点を置きたがります。しかし、それらを導入すると、実稼働環境で、帯域幅とレイテンシに敏感なワークロードの組み合わせで複数のワークロードを実行すると、ベースライン テストで観察されたものからパフォーマンスが大幅に低下することがわかり始めます。マルチワークロードの実稼働環境で見られるような、負荷の高い環境です。」
Williams 氏によると、Rockport のネットワーク テクノロジは顧客とともに試用されており、現在は大規模な運用準備が整っています。 HPC、AI、機械学習は橋頭堡市場であり、同社はネットワーク パフォーマンス、主に遅延に非常に敏感だが、安定した帯域幅パフォーマンスも必要とする高性能アプリケーションをターゲットにしています。
「これはロスレス ソリューションですが、当社では依然として標準のホスト インターフェイスを活用しているため、当社のソリューションをテストまたは展開するために、お客様は既存の IB カード、場合によってはイーサネット NIC を取り外し、当社のカードと置き換えるだけで済みます」と Williams 氏は述べています。 。 「ソフトウェアは何も変更されておらず、ドライバーも変更されていません。私たちは、提供するすべての高度なオフロードを備えた標準のイーサネット NIC インターフェイスのように見えます。」
顧客に出荷されるソリューションは、TACC にインストールされているものと同じです。 ラック内のノード接続を優先する従来の HPC ネットワーク インフラストラクチャとは異なり、Rockport セットアップでは、異なるラック内のノードが直接接続されます。 重要なのは、物理的な場所の影響を受けにくいということです。 Williams 氏は、TACC の展開はデータセンター全体の 11 ラックの機器にまたがっており、その距離を超えて直接接続を提供していると指摘しました。
この発表は、HPC アナリスト会社 Hyperion Research の支持を得ました。
「スイッチレス アーキテクチャには、従来は多大なコストがかかっていたアプリケーションのパフォーマンスを大幅に向上させる能力があることを示唆する重要な証拠があります」と、Hyperion Research の CEO、Earl C. Joseph 氏はニュース発表の中で述べています。 「これらの進歩をより経済的に利用できるようにすることは、世界の研究コミュニティに多大な利益をもたらすはずであり、研究の収益性と結果が得られるまでの時間に関して、ネットワークに期待できるものと比較して期待が向上することが期待されます。」
ダーラム大学の DiRAC とオハイオ州立大学のネットワークベース コンピューティング研究所からも支持の声明が発表されました。
「ダーラムのチームは、次世代の HPC ネットワーク テクノロジーを明らかにするという点で限界を押し広げ続けています」と COSMA HPC Cluster のテクニカル マネージャーである DiRAC/ダーラム大学の Alastair Basden 氏は述べています。 「6D トーラスをベースにした Rockport スイッチレス ネットワークは、セットアップとインストールが非常に簡単であることがわかりました。私たちは、パケット サイズが異なるすべてのノード間のポイントツーポイント通信に依存するコードを検討しましたが、通常は輻輳によってパフォーマンスが低下する可能性があります。従来のネットワークでは、負荷がかかった状態でも一貫した低遅延を達成することができたので、これがさらに大規模な宇宙論シミュレーションに与える影響を確認することを楽しみにしています。」
「私たちの使命は、市場で入手可能な最高のパフォーマンスをサポートする MVAPICH2 などの標準ライブラリを高度なコンピューティング コミュニティに提供することです。私たちは、Rockport Networks の新しいスイッチレス アーキテクチャのような革新的なアプローチでライブラリを最新の状態に保つことを最優先にしています。 」と、オハイオ州立大学の教授兼コンピューター サイエンスの著名な学者であり、ネットワークベース コンピューティング研究グループの責任者である DK パンダ氏は述べています。 「今後のリリースの新しい標準を定義するために、Rockport との継続的なパートナーシップを楽しみにしています。」