高度計算機はHPCテックにお任せください。

03-5643-2681
お問い合わせ
English

GPU Solution:NVIDIA GPU

NVIDIA A100 Tensor Core GPU

 NVIDIA® A100 Tensor Core GPUs は、あらゆるスケールで高速化を実現し、AI やデータ分析 及び HPC の困難な計算に挑むことができます。第 3世代 Tensor Core と Tensor Float(TF32)を利用することで、コードを変更することなく前世代と比較して約最大 20倍のパフォーマンスが得られます。また、Automatic Mixed Precision (AMP) と FP16 の活用でさらに 2倍の高速化が可能になります。単純な性能の向上だけでなく、A100 GPU と MIG(Multi-Instance GPU)の組み合わせにより、GPU 対応インフラストラクチャを最大限に活用できます。A100 GPU を 7個のインスタンスに分割し、それぞれに高帯域幅のメモリやキャッシュ、コンピューティングコアを割り当てたうえで完全に分離することができます。すべてのジョブについてサービス品質 (QoS) が保証された適切なサイズの GPU を提供することで多様なワークロードに対して柔軟に対応できます。

 

 

 

 

 

AI トレーニング向けの TF32 を使用して、設定不要で最大 6倍高速な性能を実現

BERT Training

BERT pre-training throughput using Pytorch, including (2/3) Phase 1 and (1/3) Phase 2 | Phase 1 Seq Len = 128, Phase 2 Seq Len = 512; V100: NVIDIA DGX-1™ server with 8x V100 using FP32 precision; A100: DGX A100 Server with 8x A100 using TF32 precision.

 

 

 

AI 推論のためのマルチインスタンス GPU (MIG) により最大 7倍高速な性能を実現

BERT Large Inference

BERT Large Inference | NVIDIA T4 Tensor Core GPU: NVIDIA TensorRT™ (TRT) 7.1, precision = INT8, batch size = 256 | V100: TRT 7.1, precision = FP16, batch size = 256 | A100 with 7 MIG instances of 1g.5gb: pre-production TRT, batch size = 94, precision = INT8 with sparsity.

 

 

 

4年間で 9倍の HPC パフォーマンス

上位 HPC アプリケーションのスループット

Geometric mean of application speedups vs. P100: benchmark application: Amber [PME-Cellulose_NVE], Chroma [szscl21_24_128], GROMACS  [ADH Dodec], MILC [Apex Medium], NAMD [stmv_nve_cuda], PyTorch (BERT Large Fine Tuner],  Quantum Espresso [AUSURF112-jR]; Random Forest FP32 [make_blobs (160000 x 64 : 10)], TensorFlow [ResNet-50], VASP 6  [Si Huge], | GPU node with dual-socket CPUs with 4x NVIDIA P100, V100, or A100 GPUs.

 

 

 

マルチインスタンス GPU (MIG) による 7倍の推論スループット

BERT Large Inference

BERT Large Inference | NVIDIA TensorRT™ (TRT) 7.1 | NVIDIA T4 Tensor Core GPU: TRT 7.1, precision = INT8, batch size = 256 | V100: TRT 7.1, precision = FP16, batch size = 256 | A100 with 1 or 7 MIG instances of 1g.5gb: batch size = 94, precision = INT8 with sparsity.

 

 

CSP Multi-Instance GPU(MIG)

 

 

製品仕様

NVIDIA A100
for HGX

NVIDIA A100
for PCIe

Peak FP64 9.7 TF 9.7 TF
Peak FP64 Tensor Core 19.5 TF 19.5 TF
Peak FP32 19.5 TF 19.5 TF
Peak TF32 Tensor Core 156 TF | 312 TF* 156 TF | 312 TF*
Peak BFLOAT16 Tensor Core 312 TF | 624 TF* 312 TF | 624 TF*
Peak FP16 Tensor Core 312 TF | 624 TF* 312 TF | 624 TF*
Peak INT8 Tensor Core 624 TOPS | 1,248 TOPS* 624 TOPS | 1,248TOPS*
Peak INT4 Tensor Core 1,248 TOPS | 2,496 TOPS* 1,248 TOPS | 2,496 TOPS*
GPU Memory 40 GB 40 GB
GPU Memory Bandwidth 1,555 GB/s 1,555 GB/s
Interconnect NVIDIA NVLink 600 GB/s**
PCIe Gen4 64 GB/s
NVIDIA NVLink 600 GB/s**
PCIe Gen4 64 GB/s
Multi-instance GPUs

Various instance sizes with up to 7MIGs @5GB

Various instance sizes with up to 7MIGs @5GB
Form Factor 4/8 SXM on NVIDIA HGX A100 PCIe
Max TDP Power 400W 250W
Delivered Performance of Top Apps 100% 90%

* With sparsity
** SXM GPUs via HGX A100 server boards, PCIe GPUs via NVLink Bridge for up to 2-GPUs

 

 

 

NVIDIA A100 Tensor Core GPU Architecture - WHITEPAPER

 

 

 

弊社では、科学技術計算や解析などの各種アプリケーションについて動作検証を行い、
すべてのセットアップをおこなっております。

お客様が必要とされる環境にあわせた最適なシステム構成をご提案いたします。

各種カスタマイズ・詳細なお見積はこちらからお問い合わせください。

製品案内