NVIDIA A100 Tensor Core GPU

トップ
GPU・FPGA・Accelerator
NVIDIA A100 Tensor Core GPU

GPU・FPGA・Accelerator

Ampere Architecture
HPC and AI

80GB HBM2e Memory
SXM 400W, PCIe 300W

NVIDIA A100 Tensor Core GPU PCI-Express 接続版にメモリ容量を 2倍にした NVIDIA A100-PCIe 80GB HBM2e が追加されました。メモリ帯域は約 25％拡張され 1,935GB/sに達し、今まで以上のモデルやデータセットにも対応します。
NVIDIA A100-PCIe 80GB HBM2e と NVIDIA A100-PCIe 40GB HBM2 はあらゆる規模で高速化を実現し、AI、データ分析、HPC に最高のパフォーマンスをもたらします。
NVIDIA Ampere アーキテクチャで設計された NVIDIA A100 は、前世代と比較して最大 20倍のパフォーマンスを発揮し、7つの GPUインスタンスに分割して変化する需要に合わせて動的に調整できます。

製品仕様

	NVIDIA A100 for NVLink		NVIDIA A100 for PCIe
Peak FP64	9.7 TF
Peak FP64 Tensor Core	19.5 TF
Peak FP32	19.5 TF
Peak TF32 Tensor Core	156 TF \| 312 TF*
Peak BFLOAT16 Tensor Core	312 TF \| 624 TF*
Peak FP16 Tensor Core	312 TF \| 624 TF*
Peak INT8 Tensor Core	624 TOPS \| 1,248 TOPS*
Peak INT4 Tensor Core	1,248 TOPS \| 2,496 TOPS*
GPU Memory	40 GB	80 GB	40 GB	80 GB
GPU Memory Bandwidth	1,555 GB/s	2,039 GB/s	1,555 GB/s	1,935 GB/s
Interconnect	NVIDIA NVLink 600 GB/s** PCIe Gen4 64 GB/s		NVIDIA NVLink 600 GB/s** PCIe Gen4 64 GB/s
Multi-instance GPUs	Up to 7MIGs @5GB	Up to 7MIGs @10GB	Up to 7MIGs @5GB	Up to 7MIGs @10GB
Form Factor	SXM		PCIe
Max TDP Power	400W		250W	300W

* With sparsity
** SXM GPUs via HGX A100 server boards, PCIe GPUs via NVLink Bridge for up to 2-GPUs

ディープラーニングトレーニング

対話型 AIといった次のレベルの課題に挑む AIモデルは、爆発的に複雑化しており、モデルのトレーニングには、大規模な計算処理能力とスケーラビリティが必要になります。
NVIDIA A100の Tensorコアと Tensor Float (TF32) を利用することで、NVIDIA Voltaと比較して最大 20倍のパフォーマンスがコードを変更することなく得られます。加えて、Automatic Mixed Precisionと FP16の活用でさらに 2倍の高速化が可能になります。

最大級のモデルで最大 3倍高速な AIトレーニング

ディープラーニング推論

A100には、推論ワークロードを最適化する画期的な機能が導入されています。FP32から INT4まであらゆる精度を加速します。マルチインスタンス GPU (MIG) テクノロジにより、1個の A100で複数のネットワークを同時に動作できるため、コンピューティングリソースの使用率が最適化されます。また、構造化スパース性により、A100による数々の推論性能の高速化に加え、最大 2倍のパフォーマンスがもたらされます。メモリ容量の大きな A100 80GBでは各 MIGのサイズが 2倍になり、自動音声認識用の RNN-Tといった、バッチサイズが制約された非常に複雑なモデルでは、A100 40GBに比べて最大 1.25倍のスループットが得られます。

CPUと比較して最大 249倍高速な AI推論パフォーマンス

A100 40GBと比較して最大 1.25倍高速な AI推論パフォーマンス

ハイパフォーマンスコンピューティング

科学者たちは日々、私たちを取り巻いている世界をより良く理解し、その謎を解き明かすためのシミュレーションに関心を向けています。NVIDIA A100は、Tensorコアを導入することで HPCパフォーマンスの飛躍を実現しています。80GBのGPUメモリとNVIDIA A100を組み合わせることで、研究者は10時間かかる倍精度シミュレーションをわずか4時間たらずに短縮できます。HPCアプリケーションで TF32を活用すれば、単精度の密行列積演算のスループットが最大 11倍向上します。
　大規模データセットを扱う HPC アプリケーションでは、メモリが追加された A100 80GBにより、マテリアルシミュレーションの Quantum Espressoにおいて最大 2倍のスループットの増加を実現します。この膨大なメモリ量とメモリ帯域幅により、A100 80GBは次世代のワークロードに最適なプラットフォームとなっています。

4年間で 11倍の HPCパフォーマンス

HPCアプリケーションで最大 1.8倍高速なパフォーマンス

ハイパフォーマンスデータ分析

A100 80GBはビッグデータ分析ベンチマークで、CPUの 83倍高いスループット、A100 40GBに対しては 2倍高いスループットでインサイトをもたらします。データセットサイズが爆発的に増える今のワークロードに最適です。

ビッグデータ分析ベンチマークで CPUより最大 83倍、A100 40GBより 2倍高速

企業で効率的に利用

A100と MIGの組み合わせにより、GPU活用インフラストラクチャを最大限に利用できます。MIGを利用することで、A100 GPUを 7つもの独立したインスタンスに分割できます。複数のユーザーが GPUアクセラレーションを利用できます。A100 40GBでは、各 MIGインスタンスに最大 5GBまで割り当てることができ、A100 80GBではメモリ容量が増えたことで、そのサイズは 2倍の 10GBになります。