高度計算機はHPCテックにお任せください。

03-5643-2681
お問い合わせ
English

GPU Solution:NVIDIA GPU

NVIDIA H100 Tensor Core GPU

 

NVIDIA H100 Tensor Core GPU Architecture

 

 

 

 NVIDIA H100 Tensor Core GPUは、最先端の TSMC 4Nプロセスを使用し 800億のトランジスタで構築された世界で最も先進的な Hopperベース の GPUです。PCIe Gen5や HBM3を利用した最初の GPUでもあり 3TB/sのメモリ帯域を実現し、FP64や FP16等に加え FP8で大規模な AIと HPCを加速します。また、メモリは SXM版 PCIe版 どちらも 80GBを搭載し SXM版では HBM3、PCIe版では HBM2eを利用しています。

 

 

 

製品仕様

NVIDIA H100
SXM
NVIDIA H100
PCIe
GPU Architecture NVIDIA Hopper NVIDIA Hopper
GPU Board Form Factor SXM5 PCIe Gen 5
SMs 132 114
TPCs 66 57
FP64 30 teraFLOPS 24 teraFLOPS
FP64 Tensor コア 60 teraFLOPS 48 teraFLOPS
FP32 60 teraFLOPS 48 teraFLOPS
TF32 Tensor コア 1,000 teraFLOPS* | 500 teraFLOPS 800 teraFLOPS* | 400 teraFLOPS
BFLOAT16 Tensor コア 2,000 teraFLOPS* | 1,000 teraFLOPS 1,600 teraFLOPS* | 800 teraFLOPS
FP16 Tensor コア 2,000 teraFLOPS* | 1,000 teraFLOPS 1,600 teraFLOPS* | 800 teraFLOPS
FP8 Tensor コア 4,000 teraFLOPS* | 2,000 teraFLOPS 3,200 teraFLOPS* | 1,600 teraFLOPS
INT8 Tensor コア 4,000 TOPS* | 2,000 TOPS 3,200 TOPS* | 1,600 TOPS
メモリインターフェース 5120-bit HBM3 5120-bit HBM2e
GPU メモリ 80 GB 80 GB
GPU メモリ帯域幅 3000 GB/sec 2000 GB/sec
L2 Cache Size 50 MB 50 MB
Shared Memory Size / SM Configurable
up to 228 KB
Configurable
up to 228 KB
Register File Size / SM 256 KB 256 KB
Register File Size / GPU 33792 KB 29184 KB
TDP 700 W 350 W
Transistors 80 billion 80 billion
マルチインスタンス GPU 最大 7 個の MIG @ 10GB
相互接続 NVLink: 900GB/秒 PCIe Gen5: 128GB/秒 NVLINK: 600GB/秒 PCIe Gen5: 128GB/秒

*スパース行列の場合

 

 

 

画期的なイノベーションと強化ポイント

・Transformerネットワークを前世代よりも 6倍高速化する新しい Transformer Engine
・第 2世代の Secure Multi Instance GPU
・処理中に AIモデルと顧客データを保護するコンフィデンシャルコンピューティング
・第 4世代 NVIDIA NVLink
・新しい DPX命令

 

NVIDIA H100 Tensor Core GPU Architecture

DPX Instructions Accelerate Dynamic Programming

 

 

 H100は、第 4世代の Tensorコア と新たに搭載された Transformer Engineと FP8の採用によって、Mixture of Experts(MoE)の学習は前世代よりも最大 9倍に、5,300億パラメータからなる Megatron Chatbotの推論は遅延を最小に抑えながら最大 30倍に加速されます。

 

NVIDIA H100 Tensor Core GPU Architecture

New Hopper FP8 Precisions - 2x throughput and half the footprint of H100 FP16 / BF16

 

 

・演算ユニット SMが増加
・L1キャッシュが 256KB、L2キャッシュ が 50MB増加
・第 4世代 Tensorコア は FP8を新しくサポート
・FP32や FP64の FMAが 2倍高速に
・Thread Block Cluster導入(新しい CUDA仕組み)
・TMA(Tensor Memory Accelerator)の導入(非同期データ転送の仕組み)
・第 4世代の NVSwitchに対応(NVLinkだけで最大 256のGPUを接続可)
・世界初の HBM3 GPUメモリアーキテクチャ、帯域幅は前世代の 2倍

 

NVIDIA H100 Tensor Core GPU Architecture

World's First HBM3 GPU Memory Architecture, 2x Delivered Bandwidth

 

 

 

NVIDIA H100 データシート

 

 

 

 

NVIDIA H100 Tensor Core GPU Architecture V1.02

NVIDIA H100 Tensor Core GPU Architecture

 

 

弊社では、科学技術計算や解析などの各種アプリケーションについて動作検証を行い、
すべてのセットアップをおこなっております。

お客様が必要とされる環境にあわせた最適なシステム構成をご提案いたします。

各種カスタマイズ・詳細なお見積はこちらからお問い合わせください。

製品案内