NVIDIA DGX™ A100 は、最新のアーキテクチャ “Ampere” を採用した NVIDIA A100 Tensor コア GPU を8基搭載したサーバです。新 Tensor コアを採用し、「TF32」と呼ばれる、FP32 と FP16 のハイブリッド方式で FP32 演算を行える仕組みを採用しています。前世代の NVIDIA V100 と比較すると約 20 倍の性能を実現しています。(FP32 演算 V100:15.7TFLOPS、A100:312TFLOPS)
また、A100 GPU に搭載された 40GB の HBM2 メモリを第3世代 NVLink でそれぞれ接続し、合計 320GB のメモリ容量と 12.4TB/s の帯域幅を利用できます。プロセッサに AMD EPYC 7742 を 2基搭載しており PCI-Express gen 4.0 をフル活用できます。ストレージには NVMe Gen 4.0 SSD を搭載、外部インターコネクトには Mellanox HDR 200Gbps を搭載しています。
これらを備えた NVIDIA DGX A100 の AI 性能は 1ノードで 5PFLOPS に達します。
詳しくは担当までお問い合わせください。 お問い合わせフォーム TEL:03-5643-2681
Data Center GPU | NVIDIA V100 | NVIDIA A100 |
GPU Codename | GV100 | GA100 |
GPU Architecture | NVIDIA Volta | NVIDIA Ampere |
GPU Board Form Factor | SXM2 | SXM4 |
SMs | 80 | 108 |
TPCs | 40 | 54 |
FP32 Cores / SM | 64 | 64 |
FP32 Cores / GPU | 5120 | 6912 |
FP64 Cores / SM | 32 | 32 |
FP64 Cores / GPU | 2560 | 3456 |
INT32 Cores / SM | 64 | 64 |
INT32 Cores / GPU | 5120 | 6912 |
Tensor Cores / GPU | 640 | 432 |
GPU Boost Clock | 1530 MHz | 1410 MHz |
Peak FP16 Tensor TFLOPS with FP16 Accumulate |
125 | 312/624 |
Peak FP16 Tensor TFLOPS with FP32 Accumulate |
125 | 312/624 |
Peak BF16 Tensor TFLOPS with FP32 Accumulate |
NA | 312/624 |
Peak TF32 Tensor TFLOPS | NA | 156/312 |
Peak FP64 Tensor TFLOPS | NA | 19.5 |
Peak INT8 Tensor TOPS | NA | 624/1248 |
Peak INT4 Tensor TOPS | NA | 1248/2496 |
Peak FP16 TFLOPS | 31.4 | 78 |
Peak BF16 TFLOPS | NA | 39 |
Peak FP32 TFLOPS | 15.7 | 19.5 |
Peak FP64 TFLOPS | 7.8 | 9.7 |
Peak INT32 TOPS | 15.7 | 19.5 |
Texture Units | 320 | 432 |
Memory Interface | 4096-bit HBM2 | 5120-bit HBM2 |
Memory Size | 32 GB / 16 GB | 40 GB |
Memory Data Rate | 877.5 MHz DDR | 1215 MHz DDR |
Memory Bandwidth | 900 GB/sec | 1.6 TB/sec |
L2 Cache Size | 6144 KB | 40960 KB |
Shared Memory Size / SM | Configurable up to 96 KB |
Configurable up to 164 KB |
Register File Size / SM | 256 KB | 256 KB |
Register File Size / GPU | 20480 KB | 27648 KB |
TDP | 300 Watts | 400 Watts |
Transistors | 21.1 billion | 54.2 billion |
GPU Die Size | 815 mm2 | 826 mm2 |
HPC、AI 分野は成長し続け、直面する問題はますます複雑になり、より多くの GPU メモリ容量とより高いメモリ帯域幅が必要となっています。NVIDIA P100は、高帯域幅の HBM2 メモリテクノロジーをサポートする世界初の GPU アーキテクチャでした。次の NVIDIA V100は、より高速で効率的で大容量の HBM2 実装を提供しました。 そして A100 は、HBM2 の性能と容量をさらに引き上げます。 HBM2 メモリを GPU と同じ物理パッケージに配置し、従来の GDDR5 / 6 メモリデザインと比較して大幅な電力と面積を削減する事でより多くの GPU をシステムに実装しています。
A100 GPU は、SXM4 スタイルの回路基板に 40GB の高速 HBM2 DRAM メモリを搭載しています。メモリは、スタックごとに8つのメモリダイを備えた5つのアクティブな HBM2 スタックとして構成され、 1215MHz(DDR)のデータレートで、A100 HBM2 は 1.6TB/s のメモリ帯域幅を提供します。これは V100 メモリ帯域幅の 1.7 倍以上です。A100 HBM2 メモリサブシステムは、シングルエラー修正ダブルエラー検出(SECDED)エラー修正コード(ECC)をサポートして、データを保護します。 ECC は GPU が大規模なデータセットを処理したり、アプリケーションを長期間実行する大規模なクラスターコンピューティング環境で特に重要です。 L1 キャッシュや L2 キャッシュ、SM 内のレジスタファイルなど、A100 の主要なメモリ構造も SECDED ECC で保護されています。
A100 GPU には、40MB の L2 キャッシュが搭載されており、V100 L2 キャッシュと比べて約 6.7 倍です。L2 キャッシュは2つのパーティションに分割されており、パーティションに直接接続されている GPC 内の SM からのメモリアクセスのデータをローカライズしてキャッシュします。この構造により、A100 は V100 と比較して2.3倍の L2 帯域幅を提供します。ハードウェアキャッシュコヒーレンスは GPU 全体にわたって CUDA プログラミングモデルを維持しており、新しい L2 キャッシュの帯域幅とレイテンシの利点を自動的に活用します。大幅な増加した L2 キャッシュの恩恵は、データセットとモデルの大部分をキャッシュすることで HBM2 メモリよりもはるかに高速な繰り返しアクセスが可能になり、多くの HPC および AI ワークロードのパフォーマンスが向上します。 たとえば、DL 推論ワークロードの場合、ピンポンバッファーを永続的に L2 にキャッシュして、DRAM へのライトバックを回避しながら、より高速なデータアクセスを実現できます。プロデューサ-コンシューマチェーンについては、DLトレーニングで見られるような L2 キャッシュコントロールは、書き込みと読み取りのデータ依存関係全体でキャッシュを最適化できます。 LSTM ネットワークでは、繰り返しの重みを優先的にキャッシュし、L2 で再利用できます。
NVIDIA Ampere アーキテクチャは、計算データ圧縮を追加して、非構造化スパースやその他の圧縮可能なデータパターンを加速します。L2 での圧縮により、DRAM 読み取り/書き込み帯域幅が最大4倍、L2読み取り帯域幅が最大4倍、L2 容量が最大2倍向上します。
マルチインスタンス GPU(MIG)機能により、A100 Tensor コア GPU を CUDA アプリケーション用の最大7つの個別の GPU インスタンスに分割し、複数のユーザーに個別の GPU リソースを提供できます。
MIG は、定義された QoS と VM、コンテナ、プロセスなどの異なるクライアント間の分離を提供し GPU ハードウェアの使用率を向上させます。MIG を使用すると、各インスタンスのプロセッサには、メモリシステム全体を通る個別の分離されたパスがあります。オンチップクロスバーポート、L2 キャッシュバンク、メモリコントローラー、DRAM アドレスバスはすべて、個々のインスタンスに一意に割り当てられます。これにより他のタスクが自分のキャッシュをスラッシングしたり、DRAM インターフェイスを飽和させた場合でも、個々のユーザーのワークロードは同じ L2 キャッシュ割り当てと DRAM 帯域幅で予測可能なスループットとレイテンシで実行できます。これにより、1つのクライアントが他のクライアントの作業やスケジューリングに影響を与えることがなくなり、セキュリティが強化され GPU 使用率が保証されます。
A100 GPU に実装された第3世代の NVIDIA NVLink インターコネクトと NVIDIA NVSwitch は、マルチ GPU のスケーラビリティ、パフォーマンス、信頼性を大幅に向上させます。GPU とスイッチあたりのリンク数が増えるため、GPU-GPU の通信帯域幅を大幅に向上させエラー検出および回復機能を改善します。第3世代の NVLink は信号ペアあたり 50Gb/s データレートを備えており、これは V100 の 25.78Gb/s のほぼ倍です。単一の A100 NVLink は V100 と同様に各方向に 25GB/s の帯域幅ですが、V100 と比較してリンクあたりの信号ペアの数は半分しか使用しません。このため V100 の 6link、300GB/s に対して 12link、600GB/s の合計帯域幅が得られます。
A100 Tensor コア GPU は、NVIDIA Magnum IO および Mellanox の最新の InfiniBand及びeEthernetと完全に互換性があるマルチノード間の相互接続ソリューションです。Magnum IO API は、コンピューティング、ネットワーキング、ファイルシステム、およびストレージを統合して、マルチ GPU、マルチノードアクセラレーションシステムの I/O パフォーマンスを最大化します。このインターフェイスと CUDA-X ライブラリは AI やデータ分析から視覚化まで幅広いワークロードの I/O を加速します。
A100 GPU は、PCI Express Gen 4(PCIe Gen 4)をサポートします。x16 接続で 31.5GB/s となり、PCIe 3.0 / 3.1 の帯域幅である 15.75GB/s の2倍になります。PCIe 4.0 の帯域幅は CPU に接続する A100 GPU や、200Gb/s の InfiniBand など高速ネットワークインターフェイスをサポートする場合はとても有益です。また A100 は SR-IOV もサポートします。これにより複数のプロセスまたは VM の単一の PCIe 接続を共有および仮想化できます。
GPUs | 8x NVIDIA A100 Tensor Core GPUs | |
GPU Memory | 320GB total | |
Performance | 5petaFLOPS AI 10petaOPS INT8 |
|
NVIDIA NVSwitches | 6 | |
System Power Usage | 6.5kW max | |
CPU | Dual AMD rome 7742 (128Core Total, 2.25GHz) | |
System Memory | 1TB | |
Networking |
・8x Single-port Mellanox ConnectX-6 VPI 10/25/50/100/200Gb/s Ethernet |
|
Storage | ・OS : 2x 1.92TB M.2 NVMe Drives ・Internal Storage : 15TB (4x 3.84TB) U.2 NVMe Drives |
|
Software | Ubuntu Linux OS | |
System Weight | 123Kg | |
System Dimensions | H264, W482.3, D897.1 (mm) | |
Operating Temperture Range | 5℃ - 35℃ |