1400RISC - 濰坊フステラトリス株式会社

カナダの Untether AI は、「アットメモリ」コンピューティング向けに、Boqueria と呼ばれる 1,400 個を超える RISC-V プロセッサを搭載した AI デバイスを開発しました。

本日の HotChips Conference で議論された Boqueria は、238MB の SRAM を搭載した TSMC の 7nm プロセス上に構築されています。このデバイスは、FP8 8 ビット AI データタイプに対して 2 ペタフロップスのパフォーマンスを備え、729 個のデュアル RISC-V メモリバンクを備えた AI コアに近い処理を維持することで、30 TFLOPs/W の消費電力を実現します。

アットメモリコンピューティングは従来のフォンノイマンアーキテクチャよりもエネルギー効率が大幅に高いため、特定の電力エンベロープに対してより多くの TFlops を実行できます。 2020 年の runAI デバイスの導入により、Untether AI は INT8 データ型で 8 TOPs/W のエネルギー効率レベルを達成しました。

Boqueria で使用されている SpeedAI アーキテクチャはこれを改良し、30 TFlops/W を実現します。このエネルギー効率は、第 2 世代のアットメモリコンピューティングアーキテクチャ、カスタム命令を備えた 1,400 を超える最適化された RISC-V プロセッサ、エネルギー効率の高いデータフロー、および新しい FP8 データ型の採用の成果であり、これらすべてにより効率が 4 倍向上します。前世代の runAI デバイス。

SpeedAI アーキテクチャの各メモリバンクには、専用 SRAM に直接接続された 512 個の処理要素があります。これらの処理要素は、INT4、FP8、INT8、および BF16 データ型をサポートするとともに、エネルギー節約のためのゼロ検出回路と 2:1 構造化スパース性のサポートをサポートします。

64 個の処理要素からなる 8 行に配置され、各行には独自の専用行コントローラーとハードワイヤードリデュース機能があり、プログラミングの柔軟性と Softmax や LayerNorm などの変圧器ネットワーク関数の効率的な計算が可能になります。行は、推論高速化のために設計された 20 を超えるカスタム命令を備えた 2 つの RISC-V プロセッサによって管理されます。メモリバンクの柔軟性により、線形代数モデルだけでなく、畳み込みネットワーク、トランスフォーマーネットワーク、推奨ネットワークなど、さまざまなニューラルネットワークアーキテクチャに適応できます。

ファミリの最初のメンバーであるspeedAI240は、2ペタフロップのFP8パフォーマンスと1ペタフロップのBF16パフォーマンスを提供します。これは、パフォーマンスの向上につながります。たとえば、BERT フレームワークを 750 クエリ/秒/ワット (qps/w) 以上で実行できます。これは、主要な GPU の現在の状態より 15 倍です。

Untether AI の調査により、2 つの異なる FP8 フォーマットが精度、範囲、効率の最適な組み合わせを提供することが判明しました。 4 仮数バージョン (「精度」の FP8p) と 3 仮数バージョン (「範囲」の FP8r) は、さまざまな異なるネットワークにわたる推論の最高の精度とスループットを提供しました。 ResNet-50 のような畳み込みネットワークと BERT-Base のような変換ネットワークの両方で、Untether AI による FP8 の実装により、BF16 データ型を使用する場合と比較して精度の損失が 1 パーセントの 1/10 未満となり、スループットとエネルギー効率が 4 倍向上します。。

SpeedAI240 デバイスは、大規模なモデルに拡張できるように設計されています。メモリアーキテクチャはマルチレベルで、処理要素専用の 238MB の SRAM が 1 ペタバイト/秒のメモリ帯域幅、4 つの 1MB スクラッチパッド、および 2 つの 64 ビット幅の LPDDR5 ポートを備え、最大 32GB の外部 DRAM を提供します。

63 GB/秒でのホスト接続用に 16 レーンの PCIe Gen5 があり、チップ間およびカード間の接続用に 3 つの PCIe Gen5 x8 ポートがあり、それぞれが 31.5 GB/秒を提供します。

Untether AI の CEO、Arun Iyengar 氏は次のように述べています。「アットメモリコンピューティングの利点は、第 1 世代の runAI デバイスで証明されており、第 2 世代の SpeedAI アーキテクチャにより、当社製品のエネルギー効率、スループット、精度、拡張性が向上します。」「speedAI デバイスは、市場の他の推論製品に匹敵しない能力を提供します。」

Untether AI には、imAIgine と呼ばれるソフトウェア開発キット (SDK) があり、ボタンを押すだけの量子化、最適化、物理割り当て、およびマルチチップパーティショニングを備えた、ネットワークを高パフォーマンスで実行するためのパスを提供します。 imAIgine SDK は、広範な視覚化ツールキット、サイクル精度の高いシミュレーター、簡単に統合できるランタイム API も提供しており、現在利用可能です。

SpeedAI デバイスは、スタンドアロンチップとして、またさまざまな m.2 および PCI-Express フォームファクターカードとして提供されます。 SpeedAI240 デバイスとカードの早期アクセス顧客へのサンプル提供は、2023 年前半に開始される予定です。