IntelのマルチチップCascade Lakeの蓋をこじ開ける - 濰坊フステラトリス株式会社

少しの間、あなたがインテルであると想像してみてください。

市場に残っている少数のサーバー CPU メーカー (AMD、IBM、Marvell、Ampere) は、ソケット上にあなたよりも多くのメモリコントローラーを搭載しています。彼らはすべて、ダイ上に多くのコアを詰め込むことになる 7 ナノメートルのチップに向けて取り組んでいます。チップをエッチングするための 10 ナノメートルのプロセスは、台湾積体電路製造公司が提供し、これらのベンダーのうち 3 社 (サムスンを利用した IBM ではない) が使用している 7 ナノメートル技術に類似していますが、予定より遅れており、コーヒーをこぼしてしまいました。湖の国を通るロードマップ。しかし、2018 年の第 4 四半期にハイパースケーラーやクラウドビルダーがブレーキを踏んだとしても、データセンターグループのビジネスは好調です。そして、「Ice Lake」Xeon SP が稼働する 2020 年前半まではまだ長い道のりです。暴走すること。

職業はなんですか？

あなたはそれを最大限に活用します。顧客の動きを維持するために、Skylake アーキテクチャをさまざまな方法で次々と微調整します。これはまさにインテルが今日 Cascade Lake チップで行ったことであり、ここで詳しく説明しました。 Intel は、洗練された 14 ナノメートルプロセスを使用して、Skylake コアのクロック速度をさらに絞り出し、機械学習の推論を高速化するために新しい DL Boost 命令を追加し、Spectre/Meltdown/Foreshadow 投機的実行の脆弱性によるセキュリティ保持の一部を修正し、不安定な動作を行いました。 SKU スタックのおかげで、ほぼ 2 年前に発売されたオリジナルの Skylake Xeon SP チップの特定の価格帯で、Cascade Lake Xeon SP にはさらにいくつかのコアが搭載されていました。

しかし、この戦略には 1 つだけ問題があります。インテルは、上で概説したことだけを行っても、パフォーマンスのリーダーシップについて語ることはできません。インテルにはさらに何かが必要です。 10年前、Intelが現在のCascade Lakeの祖先である「Nehalem」Xeonで勢いに乗っていたときに、AMDがOpteron 6100でそうしたのと同じだ。 AMD は、ダイ上に 2 つの 6 コアチップを搭載し、8 ソケットまで拡張できるチップセットを備え、HyperTransport NUMA インターコネクトを介して論理的にリンクされた 8 つのプロセッサから物理クアッドソケットサーバーを作成しました。

AMDは当時、性能を主張するためにソケット内のチップを2倍にしていたが、Intelは現在それを行っている。 Cascade Lake-AP プロセッサでは、Intel は独自の NUMA 接着剤である UltraPath Interconnect を使用して 4 つの Cascade Lake チップをクロスカップリングし、この論理 4 ソケットマシンが巨大なチップを搭載した物理 2 ソケットサーバーのように見えるようにパッケージ化しています。最大 56 個のコアを単一のボールグリッドアレイ (BGA) 表面実装パッケージに詰め込むことで、Intel は、AMD の「Rome」 Epyc サーバープロセッサの発売に先立って、2 ソケットマシンでのパフォーマンスのリーダーシップと、おそらくまともな価格/パフォーマンスについても語ることができます。うまくいけば6月にはそうなるだろう。

Cascade Lake-AP チップとして正式に知られている Xeon SP 9200 Platinum シリーズのプロセッサを使用して、Intel はマルチチップモジュールの設計と製造を行う経験を少し得ました。これは良いことであり、おそらく、物事が最終的にどのようになるかについてのプレビューでもあります。それほど遠くない将来に完了します。大規模なモノリシックプロセッサを作るのは、より小さなプロセッサをたくさん作るよりもはるかにコストがかかります。そして、世界が複数のサーバーで構成される分散システムのプログラミングに慣れる必要があるのと同じように、コンパイラーやプログラマーも分散システムでの作業に慣れる必要があるでしょう。単一サーバー内。

将来の CPU が単なるチップの寄せ集めではなく、各機能に最適なプロセスでエッチングされたチップになることは誰の心にも疑問の余地はありません。 I/O および通信回路が 16 ナノメートル (インテルのトランジスタゲートサイズの数え方では 14 ナノメートル) を下回ることはなく、CPU コアは可能な限り縮小し続け、これらのコンポーネントは今後も縮小される可能性が非常に高いです。さまざまな種類の相互接続およびパッケージング手法を使用して、個別のチップをつなぎ合わせて作成することができます。 Intel が Cascade Lake-AP チップでとったように見える方法だけでなく、Ice Lake Xeon SP チップが実際にこれを実行したとしても、私たちはまったく驚かないでしょう。おそらく、Intel は TSMC が 7 ナノメートルの機能を実現できるとは信じていなかったので、AMD には Rome Epyc プロセッサを使用する機会がなかったのでしょうか? 言うのは難しいです。

しかし現時点では、TSMCがその7ナノメートルファブを使用するために並んでいる多くのベンダー向けにチップを製造できないという兆候はなく、AMDはローマに対して若干のリードを持ちそうだ。 Ice Lake – 確かに市場投入までの時間という点で、おそらくコア数と全体の点で。見てみなければなりません。

したがって、Cascade Lake-AP は未来を垣間見るもの、または少なくとも計算密度が重要であり、マルチチップモジュールを手頃な価格で作成できることがさらに重要になるものであると考えてください。

Xeon SP 9200 シリーズチップは 4 つあり、ここでは残りの Cascade Lake ラインナップと比較しました。昨年 11 月に 24 コア Cascade Lake チップをベースにした 2 チップモジュールについてすでにお伝えしましたが、インテルがプロセッサのクロック速度に何をしたかに応じて、チップの消費電力は 275 ワットから 350 ワットの間になると予想していました。結局のところ、この 48 コアパーツ (現在は Xeon SP-9242 Platinum と呼ばれています) のクロック速度は、ベース 2.3 GHz、ターボブースト速度 3.8 GHz で、多くの予想よりも少し高いです。下位ビンの Cascade Lake-AP チップである Xeon SP-9221 と Xeon SP-9222 は、どちらも消費電力が 250 ワットで、ベースクロック速度がそれぞれ 2.1 GHz と 2.3 GHz で、最大 3.7 GHz のターボを備えています。これらの 32 コアの Cascade Lake-AP パーツにはさらに 4 つのコアがあり、したがってさらに 8 つのスレッドがあり、これは特定のワークロードにとって重要である可能性がありますが、Skylake ファミリの Xeon SP-8180 またはプレーンバニラ Cascade の Xeon SP-8280 Lake ファミリでは 28 コアと 56 スレッドが提供されますが、これは十分近い値です。また、コアあたりの価格差は、コア数がわずかに少ない通常の SKU よりも AP バリアントの方が若干高いと考えられます。 (繰り返しになりますが、AMD が Epyc チップで確実に行っているように、競合他社がビジネスの混乱に油を注いで摩擦を軽減しようとしている場合を除き、チップに関しては無料のものはありません。)

最上位のビン Xeon SP-9282 には、BGA パッケージ内に 2 つの 28 コア Cascade Lake チップが共存しています。基本 2.6 GHz で動作し、可能な場合は最大 3.8 GHz までターボし、400 ワットを消費します。 Cascade Lake-AP の亜種の価格が 1 個あたり 20,000 ドルを超えるという噂を聞いたときに、これが誰もが話題にしていたチップだと思います。インテルは、Xeon SP-9200 モデルの定価を公表していません。これは、自社製マザーボードを含む、インテルが設計した完全なシステムでのみ入手可能であるためです。これは非常に異なる種類のマシンであるため、特別な扱いが必要であると、S9200WK サーバーノードとそれを使用するサーバーシャーシ FC2000 エンクロージャを担当するインテルのシニアプリンシパルエンジニアである Kartik Ananth 氏は The Next Platform に語ります。 (Nvidia は、DGX-2 ハイブリッド CPU-GPU コンポーネントの NVSwitch インターコネクトとシステムボードに対しても同じアプローチを採用しています。これらは Nvidia 自体からのみ入手可能です。)

250 ワットの熱エンベロープを持つことはそれほど大したことではありません。加速器は 10 年間その範囲にありましたが、350 ワットではそれを少し伸ばしており、400 ワットの Cascade Lake-AP がその範囲にあることを知っても驚くことではありません。水冷プロセッサーとして利用可能。これらのうち 2 つを 1 つのコンピューティングスレッドに搭載し、そのうちの 4 つを 2U エンクロージャに搭載すると、コンピューティングと熱の点でかなり高密度になります。これは、エンタープライズデータセンターにある通常の 2U エンクロージャと同じサイズで 3,200 ワット、448 コアに相当し、コア数が 1 桁少ないことがよくあります。これらのラックにフルパワーを供給できた場合、それを実行するには 64 キロワットから 122 キロワットが必要になる可能性がありますが、ラックあたり 8,960 個のコアが存在することになります。控えめなメモリ構成の場合は 200 万ドル程度、強力なセットアップの場合は 300 万ドル近くかかる可能性があります。（これは教養はありますが、明らかにワイルドだと思います。）

以下は、Xeon SP-9200 が 2 ソケットサーバーにどのように論理的にリンクされているかを示すブロック図です。

Cascade Lake-AP のボールグリッドアレイには、なんと 5,903 個のボールが搭載されており、デバイスの熱を取り除くことができる巨大なヒートスプレッダーがあります。 BGA の各 Cascade Lake チップには 6 つのメモリチャネルがあり、ソケットごとに合計 12 のメモリチャネルがあるため、現時点では Intel が「ソケット」レベルでのメモリチャネルとメモリ帯域幅の戦いに何らかの形で勝利しています。ただし、考慮すべきことが 2 つあります。まず、Cascade Lake アーキテクチャがサポートする高速 2.93 GHz メモリを実行するには、チャネルごとに 1 つの DDR4 DIMM しか搭載できず、ソケット内のこれらのチップとコントローラを 2 倍にしても、コアあたりのメモリ帯域幅はわずか 1 ビットも変わりません。むしろ、コアあたりの帯域幅を増やす必要がありますが、これではこれを達成できません。他の CPU アーキテクチャでも、コアは追加しますが、大量の電力を消費し、大量の熱を発生するメモリコントローラーを駆動するために電源ピンを追加したくないため、同様の取引を行う必要があります。

それぞれの Cascade Lake-AP チップレット – このような野獣をチップレットと呼ぶことができるでしょうか? – 他の Cascade Lake パーツと同様に 3 つの UPI リンクがあり、最高速度 10.4 GT/秒で動作します。リンクは相互結合されているため、1 つのレーンが各 BGA パッケージ内の各チップを他のチップにリンクするために使用され、残りの 4 つは 2 つの論理ソケット間の NUMA リンクを作成するために使用されます。上記のトポロジは、クアッドソケットサーバーで UPI リンクを使用する場合と何ら変わりません。 Ananth氏によると、BGA内の一方のプロセッサに接続されたメモリにもう一方のプロセッサからアクセスするには約70ナノ秒かかるが、NUMA方式でもう一方のBGAパッケージにジャンプするには約130ナノ秒かかるという。これがパフォーマンスにどのような影響を与えるかは明らかではありませんが、一般的に言えば、2 倍のプロセッサが 2 倍の帯域幅を駆動するということで、数値はほぼ予想どおりのようです。 Skylake Xeon SP-8180 と Cascade Lake-AP Xeon SP-9282 の比較は次のとおりです。

ここでは、Cascade Lake-AP の販売ピッチの重要な側面であるため、メモリ帯域幅テストについて詳しく説明します。以下のグラフは、STREAM メモリテストの帯域幅と 2 ソケット Cascade Lake のコア数の相互作用を示しています。 APシステム:

ちなみに、Xeon SP-9200 Platinum プロセッサは、通常の Cascade Lake プロセッサを使用する通常の「Purley」サーバープラットフォームのメモリ拡張機能として宣伝されている Optane 3D XPoint 永続メモリモジュールをサポートしていません。実際、これらのプロセッサはソケットあたり最大 768 GB しかサポートしておらず、Skylake および Cascade Lake ファミリの他の Platinum および Gold シリーズプロセッサの一部がサポートするより大きな DDR4 メモリ容量さえもサポートしません。今年初めに、一部の顧客がソケットの 12 チャネルのうち 8 チャネルを DDR4 メモリ用に使用し、残りの 4 チャネルを Optane PMM に使用したいと考えている可能性があることを示唆するプレゼンテーションを目にしましたが、どうやらこれはカスタム SKU である必要があるようです。私たちが知る限り、Cascade Lake-AP プロセッサが Optane PMM をサポートできない技術的な理由はありません。

検索エンジンを実行している場合、一般に単一のシステムイメージにできるだけ多くのコアを含めることを好むことを考えると、これが検索エンジン SKU として提案されていないことは、私たちにとって興味深いことです。 (汎用 Cascade Lake チップの記事で指摘したように、特別な検索エンジン SKU がありますが、その価格はトップビンの 2 倍のチップに比べて 10 分の 1 で、コア数は 3 分の 1 しかないと考えられます。

Xeon SP 9200 プロセッサをベースにしたサーバーを誰が販売するかはまだ明らかではありませんが、このマシンはインテルの設計であり、OEM および ODM はほぼそれをそのまま受け入れる必要があり、自社製のエンタープライズ向けサーバーをサポートするスペースがありません。グレードのBMC。一部の OEM がカスタムエンゲージメントを行う可能性がありますが、ここでは大きなアクションは期待できません。これは、ODM が販売を行う場所である可能性があり、特に中国では 4 ソケットマシンがハイパースケーラーやクラウドビルダーの間で人気があります。ただし、これは、長年にわたって提供されてきた 4 つのソケットを備えた 2U サーバーと同じくらいコンパクトではありません。すべては価格と、今から Ice Lake までの間に誰がインテルに自慢の権利を与えるかということになるだろう。

いずれにしても、S9200WK エンクロージャの技術仕様は次のとおりです。

エンクロージャに組み込まれるスレッドの仕様は次のとおりです。

コンピューティング密度は、ノードに必要なペリフェラルインターコネクトとローカルストレージの量、および 400 ワットの部品があるかどうかによって異なります。おそらく、効率を高めるために 250 ワットまたは 350 ワットの部品を水冷したい場合は、そうすることができます。

しかし、ここからが問題です。ソフトウェアの価格がソケットによって決まり、論理的には実際には 4 ソケットのサーバーである Cascade Lake-AP マシンを商用ソフトウェアベンダーが 2 ソケットのサーバーとして扱うのであれば、それは素晴らしいことです。これにより、VMware と Red Hat の料金は確実に下がり、ソケットベースの価格設定のものでは半額になるはずです。しかし、ソフトウェアの価格がコアによって決まるのであれば、AP プロセッサへの移行は何の役にも立ちませんし、自社開発のコードでは何の違いもありません。

今週のハイライト、分析、ストーリーを、何も挟むことなく直接あなたの受信箱にお送りします。今すぐ購読してください。