高度計算機はHPCテックにお任せください。

03-5643-2681
お問い合わせ
English

GPUラインナップ:NVLink

NVIDIA DGX A100

 

DGX A100 : 最新 Ampere アーキテクチャ採用 A100 GPU 搭載サーバ

 

NVIDIA DGX A100

 

 NVIDIA DGX A100 は、最新のアーキテクチャ “Ampere” を採用した A100 GPU を8基搭載したサーバです。新 Tensor コアを採用し、「TF32」と呼ばれる、FP32 と FP16 のハイブリッド方式で FP32 演算を行える仕組みを採用しています。前世代の TESLA V100 と比較すると約 20 倍の性能を実現しています。(FP32 演算 V100:15.7TFLOPS、A100:312TFLOPS)

また、A100 GPU に搭載された 40GB の HBM2 メモリを第3世代 NVLink でそれぞれ接続し、合計 320GB のメモリ容量と 12.4TB/s の帯域幅を利用できます。プロセッサに AMD EPYC 7742 を 2基搭載しており PCI-Express gen 4.0 をフル活用できます。ストレージには NVMe Gen 4.0 SSD を搭載、外部インターコネクトには Mellanox HDR 200Gbps を搭載しています。
これらを備えた NVIDIA DGX A100 の AI 性能は 1ノードで 5PFLOPS に達します。

 

 詳しくは担当までお問い合わせください。  お問い合わせフォーム  TEL:03-5643-2681

 

 

NVIDIA TESLA V100 vs NVIDIA A100 比較

Data Center GPU NVIDIA TESLA V100 NVIDIA A100
GPU Codename GV100 GA100
GPU Architecture NVIDIA Volta NVIDIA Ampere
GPU Board Form Factor SXM2 SXM4
SMs 80 108
TPCs 40 54
FP32 Cores / SM 64 64
FP32 Cores / GPU 5120 6912
FP64 Cores / SM 32 32
FP64 Cores / GPU 2560 3456
INT32 Cores / SM 64 64
INT32 Cores / GPU 5120 6912
Tensor Cores / GPU 640 432
GPU Boost Clock 1530 MHz 1410 MHz
Peak FP16 Tensor TFLOPS with
FP16 Accumulate
125 312/624
Peak FP16 Tensor TFLOPS with
FP32 Accumulate
125 312/624
Peak BF16 Tensor TFLOPS with
FP32 Accumulate
NA 312/624
Peak TF32 Tensor TFLOPS NA 156/312
Peak FP64 Tensor TFLOPS NA 19.5
Peak INT8 Tensor TOPS NA 624/1248
Peak INT4 Tensor TOPS NA 1248/2496
Peak FP16 TFLOPS 31.4 78
Peak BF16 TFLOPS NA 39
Peak FP32 TFLOPS 15.7 19.5
Peak FP64 TFLOPS 7.8 9.7
Peak INT32 TOPS 15.7 19.5
Texture Units 320 432
Memory Interface 4096-bit HBM2 5120-bit HBM2
Memory Size 32 GB / 16 GB 40 GB
Memory Data Rate 877.5 MHz DDR 1215 MHz DDR
Memory Bandwidth 900 GB/sec 1.6 TB/sec
L2 Cache Size 6144 KB 40960 KB
Shared Memory Size / SM Configurable up to
96 KB
Configurable up to
164  KB
Register File Size / SM 256 KB 256 KB
Register File Size / GPU 20480 KB 27648 KB
TDP 300 Watts 400 Watts
Transistors 21.1 billion 54.2 billion
GPU Die Size 815 mm2 826 mm2

 

 

A100 HBM2 DRAM サブシステム

HPC、AI 分野は成長し続け、直面する問題はますます複雑になり、より多くの GPU メモリ容量とより高いメモリ帯域幅が必要となっています。TESLA P100は、高帯域幅の HBM2 メモリテクノロジーをサポートする世界初の GPU アーキテクチャでした。次の TESLA V100は、より高速で効率的で大容量の HBM2 実装を提供しました。 そして A100 は、HBM2 の性能と容量をさらに引き上げます。 HBM2 メモリを GPU と同じ物理パッケージに配置し、従来の GDDR5 / 6 メモリデザインと比較して大幅な電力と面積を削減する事でより多くの GPU をシステムに実装しています。

 

A100 GPU は、SXM4 スタイルの回路基板に 40GB の高速 HBM2 DRAM メモリを搭載しています。メモリは、スタックごとに8つのメモリダイを備えた5つのアクティブな HBM2 スタックとして構成され、 1215MHz(DDR)のデータレートで、A100 HBM2 は 1.6TB/s のメモリ帯域幅を提供します。これは V100 メモリ帯域幅の 1.7 倍以上です。A100 HBM2 メモリサブシステムは、シングルエラー修正ダブルエラー検出(SECDED)エラー修正コード(ECC)をサポートして、データを保護します。 ECC は GPU が大規模なデータセットを処理したり、アプリケーションを長期間実行する大規模なクラスターコンピューティング環境で特に重要です。 L1 キャッシュや L2 キャッシュ、SM 内のレジスタファイルなど、A100 の主要なメモリ構造も SECDED ECC で保護されています。

 

 

A100 L2 キャッシュ

A100 GPU には、40MB の L2 キャッシュが搭載されており、V100 L2 キャッシュと比べて約 6.7 倍です。L2 キャッシュは2つのパーティションに分割されており、パーティションに直接接続されている GPC 内の SM からのメモリアクセスのデータをローカライズしてキャッシュします。この構造により、A100 は V100 と比較して2.3倍の L2 帯域幅を提供します。ハードウェアキャッシュコヒーレンスは GPU 全体にわたって CUDA プログラミングモデルを維持しており、新しい L2 キャッシュの帯域幅とレイテンシの利点を自動的に活用します。大幅な増加した L2 キャッシュの恩恵は、データセットとモデルの大部分をキャッシュすることで HBM2 メモリよりもはるかに高速な繰り返しアクセスが可能になり、多くの HPC および AI ワークロードのパフォーマンスが向上します。 たとえば、DL 推論ワークロードの場合、ピンポンバッファーを永続的に L2 にキャッシュして、DRAM へのライトバックを回避しながら、より高速なデータアクセスを実現できます。プロデューサ-コンシューマチェーンについては、DLトレーニングで見られるような L2 キャッシュコントロールは、書き込みと読み取りのデータ依存関係全体でキャッシュを最適化できます。 LSTM ネットワークでは、繰り返しの重みを優先的にキャッシュし、L2 で再利用できます。
NVIDIA Ampere アーキテクチャは、計算データ圧縮を追加して、非構造化スパースやその他の圧縮可能なデータパターンを加速します。L2 での圧縮により、DRAM 読み取り/書き込み帯域幅が最大4倍、L2読み取り帯域幅が最大4倍、L2 容量が最大2倍向上します。

 

 

マルチインスタンス GPU

マルチインスタンス GPU(MIG)機能により、A100 Tensor コア GPU を CUDA アプリケーション用の最大7つの個別の GPU インスタンスに分割し、複数のユーザーに個別の GPU リソースを提供できます。

MIG は、定義された QoS と VM、コンテナ、プロセスなどの異なるクライアント間の分離を提供し GPU ハードウェアの使用率を向上させます。MIG を使用すると、各インスタンスのプロセッサには、メモリシステム全体を通る個別の分離されたパスがあります。オンチップクロスバーポート、L2 キャッシュバンク、メモリコントローラー、DRAM アドレスバスはすべて、個々のインスタンスに一意に割り当てられます。これにより他のタスクが自分のキャッシュをスラッシングしたり、DRAM インターフェイスを飽和させた場合でも、個々のユーザーのワークロードは同じ L2 キャッシュ割り当てと DRAM 帯域幅で予測可能なスループットとレイテンシで実行できます。これにより、1つのクライアントが他のクライアントの作業やスケジューリングに影響を与えることがなくなり、セキュリティが強化され GPU 使用率が保証されます。

 

 

第3世代 NVIDIA NVLink

A100 GPU に実装された第3世代の NVIDIA NVLink インターコネクトと NVIDIA NVSwitch は、マルチ GPU のスケーラビリティ、パフォーマンス、信頼性を大幅に向上させます。GPU とスイッチあたりのリンク数が増えるため、GPU-GPU の通信帯域幅を大幅に向上させエラー検出および回復機能を改善します。第3世代の NVLink は信号ペアあたり 50Gb/s データレートを備えており、これは V100 の 25.78Gb/s のほぼ倍です。単一の A100 NVLink は V100 と同様に各方向に 25GB/s の帯域幅ですが、V100 と比較してリンクあたりの信号ペアの数は半分しか使用しません。このため V100 の 6link、300GB/s に対して 12link、600GB/s の合計帯域幅が得られます。

 

 

NVIDIA Magnum IO および Mellanox 相互接続ソリューションのサポート

A100 Tensor コア GPU は、NVIDIA Magnum IO および Mellanox の最新の InfiniBand及びeEthernetと完全に互換性があるマルチノード間の相互接続ソリューションです。Magnum IO API は、コンピューティング、ネットワーキング、ファイルシステム、およびストレージを統合して、マルチ GPU、マルチノードアクセラレーションシステムの I/O パフォーマンスを最大化します。このインターフェイスと CUDA-X ライブラリは AI やデータ分析から視覚化まで幅広いワークロードの I/O を加速します。

 

 

SR-IOV を備えた PCIe Gen 4

A100 GPU は、PCI Express Gen 4(PCIe Gen 4)をサポートします。x16 接続で 31.5GB/s となり、PCIe 3.0 / 3.1 の帯域幅である 15.75GB/s の2倍になります。PCIe 4.0 の帯域幅は CPU に接続する A100 GPU や、200Gb/s の InfiniBand など高速ネットワークインターフェイスをサポートする場合はとても有益です。また A100 は SR-IOV もサポートします。これにより複数のプロセスまたは VM の単一の PCIe 接続を共有および仮想化できます。

 

 

Performance

 

NVIDIA DGX A100 Performance

 

NVIDIA DGX A100 Performance

 

NVIDIA DGX A100 Performance

 

 

HPC Benchmark

 

NVIDIA DGX A100 Performance

 

 

NVIDIA DGX A100 : SYSTEM SPECIFICATIONS

GPUs 8x NVIDIA A100 Tensor Core GPUs
GPU Memory 320GB total
Performance 5petaFLOPS AI
10petaOPS INT8
NVIDIA NVSwitches 6
System Power Usage 6.5kW max
CPU Dual AMD rome 7742 (128Core Total, 2.25GHz)
System Memory 1TB
Networking

・8x Single-port Mellanox ConnectX-6 VPI
200Gb/s HDR InfiniBand
・1x Dual-Port Mellanox ConnectX-6 VPI

10/25/50/100/200Gb/s Ethernet

Storage ・OS : 2x 1.92TB M.2 NVMe Drives
・Internal Storage : 15TB (4x 3.84TB) U.2 NVMe Drives
Software Ubuntu Linux OS
System Weight 123Kg
System Dimensions H264, W482.3, D897.1 (mm)
Operating Temperture Range 5℃ - 35℃

 

 

 

カタログダウンロード

 

NVIDIA DGX A100

 

 

 

 

 

 

弊社では、科学技術計算や解析などの各種アプリケーションについて動作検証を行い、
すべてのセットアップをおこなっております。

お客様が必要とされる環境にあわせた最適なシステム構成をご提案いたします。

各種カスタマイズ・詳細なお見積はこちらからお問い合わせください。

製品案内