NVIDIA® A100 Tensor Core GPUs は、あらゆるスケールで高速化を実現し、AI やデータ分析 及び HPC の困難な計算に挑むことができます。第 3世代 Tensor Core と Tensor Float(TF32)を利用することで、コードを変更することなく前世代と比較して約最大 20倍のパフォーマンスが得られます。また、Automatic Mixed Precision (AMP) と FP16 の活用でさらに 2倍の高速化が可能になります。単純な性能の向上だけでなく、A100 GPU と MIG(Multi-Instance GPU)の組み合わせにより、GPU 対応インフラストラクチャを最大限に活用できます。A100 GPU を 7個のインスタンスに分割し、それぞれに高帯域幅のメモリやキャッシュ、コンピューティングコアを割り当てたうえで完全に分離することができます。すべてのジョブについてサービス品質 (QoS) が保証された適切なサイズの GPU を提供することで多様なワークロードに対して柔軟に対応できます。
BERT Training
BERT pre-training throughput using Pytorch, including (2/3) Phase 1 and (1/3) Phase 2 | Phase 1 Seq Len = 128, Phase 2 Seq Len = 512; V100: NVIDIA DGX-1™ server with 8x V100 using FP32 precision; A100: DGX A100 Server with 8x A100 using TF32 precision.
BERT Large Inference
BERT Large Inference | NVIDIA T4 Tensor Core GPU: NVIDIA TensorRT™ (TRT) 7.1, precision = INT8, batch size = 256 | V100: TRT 7.1, precision = FP16, batch size = 256 | A100 with 7 MIG instances of 1g.5gb: pre-production TRT, batch size = 94, precision = INT8 with sparsity.
上位 HPC アプリケーションのスループット
Geometric mean of application speedups vs. P100: benchmark application: Amber [PME-Cellulose_NVE], Chroma [szscl21_24_128], GROMACS [ADH Dodec], MILC [Apex Medium], NAMD [stmv_nve_cuda], PyTorch (BERT Large Fine Tuner], Quantum Espresso [AUSURF112-jR]; Random Forest FP32 [make_blobs (160000 x 64 : 10)], TensorFlow [ResNet-50], VASP 6 [Si Huge], | GPU node with dual-socket CPUs with 4x NVIDIA P100, V100, or A100 GPUs.
BERT Large Inference
BERT Large Inference | NVIDIA TensorRT™ (TRT) 7.1 | NVIDIA T4 Tensor Core GPU: TRT 7.1, precision = INT8, batch size = 256 | V100: TRT 7.1, precision = FP16, batch size = 256 | A100 with 1 or 7 MIG instances of 1g.5gb: batch size = 94, precision = INT8 with sparsity.
ーーーーーー CSP Multi-Instance GPU(MIG)ーーーーーー
NVIDIA A100 |
NVIDIA A100 |
|
![]() |
![]() |
|
Peak FP64 | 9.7 TF | 9.7 TF |
Peak FP64 Tensor Core | 19.5 TF | 19.5 TF |
Peak FP32 | 19.5 TF | 19.5 TF |
Peak TF32 Tensor Core | 156 TF | 312 TF* | 156 TF | 312 TF* |
Peak BFLOAT16 Tensor Core | 312 TF | 624 TF* | 312 TF | 624 TF* |
Peak FP16 Tensor Core | 312 TF | 624 TF* | 312 TF | 624 TF* |
Peak INT8 Tensor Core | 624 TOPS | 1,248 TOPS* | 624 TOPS | 1,248TOPS* |
Peak INT4 Tensor Core | 1,248 TOPS | 2,496 TOPS* | 1,248 TOPS | 2,496 TOPS* |
GPU Memory | 40 GB | 40 GB |
GPU Memory Bandwidth | 1,555 GB/s | 1,555 GB/s |
Interconnect | NVIDIA NVLink 600 GB/s** PCIe Gen4 64 GB/s |
NVIDIA NVLink 600 GB/s** PCIe Gen4 64 GB/s |
Multi-instance GPUs |
Various instance sizes with up to 7MIGs @5GB |
Various instance sizes with up to 7MIGs @5GB |
Form Factor | 4/8 SXM on NVIDIA HGX A100 | PCIe |
Max TDP Power | 400W | 250W |
Delivered Performance of Top Apps | 100% | 90% |
* With sparsity
** SXM GPUs via HGX A100 server boards, PCIe GPUs via NVLink Bridge for up to 2-GPUs