1400RISC
カナダの Untether AI は、「アット メモリ」コンピューティング向けに、Boqueria と呼ばれる 1,400 個を超える RISC-V プロセッサを搭載した AI デバイスを開発しました。
本日の HotChips Conference で議論された Boqueria は、238MB の SRAM を搭載した TSMC の 7nm プロセス上に構築されています。 このデバイスは、FP8 8 ビット AI データ タイプに対して 2 ペタフロップスのパフォーマンスを備え、729 個のデュアル RISC-V メモリ バンクを備えた AI コアに近い処理を維持することで、30 TFLOPs/W の消費電力を実現します。
アットメモリ コンピューティングは従来のフォン ノイマン アーキテクチャよりもエネルギー効率が大幅に高いため、特定の電力エンベロープに対してより多くの TFlops を実行できます。 2020 年の runAI デバイスの導入により、Untether AI は INT8 データ型で 8 TOPs/W のエネルギー効率レベルを達成しました。
Boqueria で使用されている SpeedAI アーキテクチャはこれを改良し、30 TFlops/W を実現します。 このエネルギー効率は、第 2 世代のアットメモリ コンピューティング アーキテクチャ、カスタム命令を備えた 1,400 を超える最適化された RISC-V プロセッサ、エネルギー効率の高いデータフロー、および新しい FP8 データ型の採用の成果であり、これらすべてにより効率が 4 倍向上します。前世代の runAI デバイス。
SpeedAI アーキテクチャの各メモリ バンクには、専用 SRAM に直接接続された 512 個の処理要素があります。 これらの処理要素は、INT4、FP8、INT8、および BF16 データ型をサポートするとともに、エネルギー節約のためのゼロ検出回路と 2:1 構造化スパース性のサポートをサポートします。
64 個の処理要素からなる 8 行に配置され、各行には独自の専用行コントローラーとハードワイヤード リデュース機能があり、プログラミングの柔軟性と Softmax や LayerNorm などの変圧器ネットワーク関数の効率的な計算が可能になります。 行は、推論高速化のために設計された 20 を超えるカスタム命令を備えた 2 つの RISC-V プロセッサによって管理されます。 メモリ バンクの柔軟性により、線形代数モデルだけでなく、畳み込みネットワーク、トランスフォーマー ネットワーク、推奨ネットワークなど、さまざまなニューラル ネットワーク アーキテクチャに適応できます。
ファミリの最初のメンバーであるspeedAI240は、2ペタフロップのFP8パフォーマンスと1ペタフロップのBF16パフォーマンスを提供します。 これは、パフォーマンスの向上につながります。たとえば、BERT フレームワークを 750 クエリ/秒/ワット (qps/w) 以上で実行できます。これは、主要な GPU の現在の状態より 15 倍です。
Untether AI の調査により、2 つの異なる FP8 フォーマットが精度、範囲、効率の最適な組み合わせを提供することが判明しました。 4 仮数バージョン (「精度」の FP8p) と 3 仮数バージョン (「範囲」の FP8r) は、さまざまな異なるネットワークにわたる推論の最高の精度とスループットを提供しました。 ResNet-50 のような畳み込みネットワークと BERT-Base のような変換ネットワークの両方で、Untether AI による FP8 の実装により、BF16 データ型を使用する場合と比較して精度の損失が 1 パーセントの 1/10 未満となり、スループットとエネルギー効率が 4 倍向上します。 。
SpeedAI240 デバイスは、大規模なモデルに拡張できるように設計されています。 メモリ アーキテクチャはマルチレベルで、処理要素専用の 238MB の SRAM が 1 ペタバイト/秒のメモリ帯域幅、4 つの 1MB スクラッチパッド、および 2 つの 64 ビット幅の LPDDR5 ポートを備え、最大 32GB の外部 DRAM を提供します。
63 GB/秒でのホスト接続用に 16 レーンの PCIe Gen5 があり、チップ間およびカード間の接続用に 3 つの PCIe Gen5 x8 ポートがあり、それぞれが 31.5 GB/秒を提供します。
Untether AI の CEO、Arun Iyengar 氏は次のように述べています。「アットメモリ コンピューティングの利点は、第 1 世代の runAI デバイスで証明されており、第 2 世代の SpeedAI アーキテクチャにより、当社製品のエネルギー効率、スループット、精度、拡張性が向上します。」 「speedAI デバイスは、市場の他の推論製品に匹敵しない能力を提供します。」
Untether AI には、imAIgine と呼ばれるソフトウェア開発キット (SDK) があり、ボタンを押すだけの量子化、最適化、物理割り当て、およびマルチチップ パーティショニングを備えた、ネットワークを高パフォーマンスで実行するためのパスを提供します。 imAIgine SDK は、広範な視覚化ツールキット、サイクル精度の高いシミュレーター、簡単に統合できるランタイム API も提供しており、現在利用可能です。
SpeedAI デバイスは、スタンドアロン チップとして、またさまざまな m.2 および PCI-Express フォーム ファクター カードとして提供されます。 SpeedAI240 デバイスとカードの早期アクセス顧客へのサンプル提供は、2023 年前半に開始される予定です。
www.untether.ai