もっと詳しく

GeForce RTX 40シリーズグラフィックスカードを搭載するNVIDIA Ada Lovelace Gaming GPUに関する詳細が明らかになりました。新情報はKopte7kimiからのもので、次世代アーキテクチャのブロック図について語られています。

NVIDIA GeForce Ada Lovelace GPU SMブロックダイアグラム詳細。より大きく、より良く、ゲーマーのために

NVIDIA Ada Lovelace GPUのアーキテクチャは、もはや謎ではありません。

GeForce RTX 40シリーズグラフィックスカードの次世代AD10*シリーズSKUを駆動する具体的な構成が判明し、ラインナップの仕様もリークされています。

さて、そろそろ純粋に次世代グラフィックスチップそのものについて語りたいところです。

NVIDIA AD102「Ada Lovelace」Gaming GPU「SM」ブロック図(ソース:Kopite7kimi):

※ 画像をクリックすると別Window・タブで拡大します

 

NVIDIA GA102 「Ampere」ゲーミングGPU「SM」ブロック図:

※ 画像をクリックすると別Window・タブで拡大します

 

GPUの構成から、Kopite7kimiは、トップのAD102 GPUを、グリーンチームの他の様々なGPUと比較しています。

ゲーミングに特化した「Ampere GA102」や「Turing TU102」、HPCに特化した「Hopper GH100」や「Ampere GA100」などが追加されています。

HPCに特化した設計は、消費者向けの製品とは大きく異なるため、ここでは、AD102をゲーム用の先行製品と比較することにします。

NVIDIA Ada Lovelace AD102 GPUは、最大12 GPC (Graphics Processing Clusters)を搭載する予定です。

これは、GA102が7GPCしか搭載していないのに対し、70%増となる。各GPUは、6つのTPCと2つのSMで構成され、これは従来のチップと同じ構成です。

各SM(Streaming Multiprocessor)には4つのサブコアが搭載されますが、これもGA102 GPUと同じです。

変更点は、FP32とINT32のコア構成です。

各サブコアには128個のFP32が搭載されるが、FP32+INT32を合わせると最大192個になる。

これは、FP32ユニットがIN32ユニットと同じサブコアを共有しないためだ。

128個のFP32コアは、64個のINT32コアとは別になっている。

つまり、各サブコアは、128個のFP32ユニットと64個のINT32ユニットで構成され、合計で192個となる。

各SMは、FP32ユニット512個+INT32ユニット256個、合計768個を搭載することになる。そして、SMは合計24基(GPCあたり2基)なので、FP32ユニット12,288基、INT32ユニット6,144基、合計18,432基のコアを持つことになる。

また、各SMには2つのWrap Schedules(32スレッド/CLK)が含まれ、SMあたり64ラップになります。

これはGA102 GPUと比較して、コア数(FP32+INT32)で50%、Wraps/Threadsで33%の増加となっています。

NVIDIA Ada Lovelace GPUのスペック「速報値」

GPU名 AD102 GA102 TU102 GA100 GH100
GPC 12 (Per GPU) 1.7x 2x 1.5x 1.5x
TPC 6 (Per GPC) 同じ 同じ 0.75x 0.67x
SM 2 (Per TPC) 同じ 同じ 同じ 同じ
サブコア 4 (Per SM) 同じ 同じ 同じ 同じ
FP32 128 (Per SM) Same 2x 2x 同じ
FP32+INT32 192 (Per SM) 1.5x 1.5x 1.5x 同じ
ワープ数 64 (Per SM) 1.33x 2x 同じ 同じ
スレッド 2048 (Per SM) 1.33x 2x 同じ 同じ
L1キャッシュ 192 KB (Per SM) 1.5x 2x 同じ 0.75x
L2キャッシュ 96 MB (Per GPU) 16x 16x 2.4x 1.6x
ROP数 32 (Per GPC) 2x 2x 2x 2x

キャッシュに話を移すと、ここもNVIDIAが既存のAmpere GPUに対して大きなブーストをかけたセグメントだ。

Ada Lovelace GPUは、SMあたり192KBのL1キャッシュを搭載し、Ampereから50%増となる。

これは、トップのAD102 GPUでは、合計4.5MBのL1キャッシュを搭載することになる。

L2キャッシュは、リークにあるように96MBに増量される。

これは、6MBのL2キャッシュを搭載するAmpere GPUの16倍に相当する。

キャッシュはGPU全体で共有される。

最後にROPですが、こちらも1GPCあたり32個と、Ampereの2倍になっています。

Ampereの最速GPUであるRTX 3090 Tiでは112個しかなかったROPが、次世代フラッグシップでは最大で384個になります。

また、Ada Lovelace GPUには、最新の第4世代Tensorコアと第3世代RT(Raytracing)コアが搭載されており、DLSSとRaytracingのパフォーマンスを次のレベルに引き上げるのに役立ちます。

Ada Lovelace AD102 GPUは、全体として以下のような特徴を備えています。

  • 2倍速GPC(対Ampere比)
  • 50%増のコア数(対Ampere比)
  • 50%増のL1キャッシュ(対Ampere比)
  • 16倍のL2キャッシュ(対Ampere比)
  • 2倍のROP(対Ampere比)
  • 第4世代Tensorコアと第3世代RTコア

2~3GHz台と言われるクロックは方程式に取り込まれないので、対Ampereのコアあたりの性能向上にも大きな役割を果たすことになることに注意してください。

次世代ゲーミングGPU「Ada Lovelace」を搭載したNVIDIA GeForce RTX 40シリーズグラフィックスカードは、2022年後半に発売予定&Hopper H100 GPUと同じTSMC 4Nプロセスノードを利用すると言われています。

NVIDIA CUDA GPU (噂) 暫定版:

GPU TU102 GA102 AD102
アーキテクチャー Turing Ampere Ada Lovelace
製造プロセス TSMC
12nm NFF
Samsung 8nm 5nm
画像処理
クラス
タ(GPC)
6 7 12
テクスチャ
処理クラスタ
(TPC)
36 42 72
ストリーミング
マルチプロセッサー
(SM)
72 84 144
CUDAコア数 4608 10752 18432
理論演算値
TFLOPs
16.1 37.6 ~90 TFLOPs?
メモリ種類 GDDR6 GDDR6X GDDR6X
メモリバス幅 384-bit 384-bit 384-bit
メモリ容量 11 GB (2080 Ti) 24 GB (3090) 24 GB (4090?)
フラッグシップ
SKU
RTX 2080 Ti RTX 3090 RTX 4090?
TGP 250W 350W 450-850W?
発売日 2018年9月 2020年9月 2022年下半期
(不明)

ソース:wccftech – NVIDIA Ada Lovelace ‘GeForce RTX 40’ Gaming GPU Detailed: Double The ROPs, Huge L2 Cache & 50% More FP32 Units Than Ampere, 4th Gen Tensor & 3rd Gen RT Cores

 

 

 

解説:

LovelaceのGPUコンフィギュレーションがリーク

個人的に気になる個所は

「FP32ユニットがIN32ユニットと同じサブコアを共有しない」です。

AmpereはFP32演算性能の割にはゲーム性能が低かったのですが、根拠はないのですが、ここが関係しているのではないかと思っていました。

L2キャッシュについてですが、どこかに64bitバス幅当り16MBとあっと記憶しているのですが、全体で共有できるとのことでこれも過去に間違いを書いてしまったような気がします。

どうも「64bitバス幅で16MBを共有する」と言う意味ではなかったようです。

私はそう言う意味だと思っていたのですが、どうもこれも違うようですね。

INT32はGPUにはあまり重要ではないと思うのですが、これでドカンとゲーム性能が上がれば、「FP32ユニットがIN32ユニットと同じサブコアを共有しない」と言う部分が生きてきている証拠だと思います。

何れにしても大容量キャッシュとINT32コア問題を解決したLovelaceがどのくらいの性能を発揮するのか興味が尽きません。

 

 

 

 

nVidia RTX3000シリーズGPU

RTX3090

 

RTX3080Ti

 

RTX3080 10GB LHR

 

RTX3070Ti

 

Geforce RTX3070 8GB GDDR6 LHR

created by Rinker
ZOTAC(ゾタック)
¥135,197
(2022/05/14 03:34:11時点 Amazon調べ-詳細)

created by Rinker
ZOTAC(ゾタック)
¥100,184
(2022/05/14 03:34:11時点 Amazon調べ-詳細)

 

RTX3060Ti 8GB GDDR6

 

RTX3060 12GB GDDR6

 

RTX2000シリーズ

RTX2060 12GB

RTX2060が12GBメモリを搭載して復刻

created by Rinker
ZOTAC(ゾタック)
¥64,380
(2022/05/14 03:54:32時点 Amazon調べ-詳細)

 

nVidia Geforce RTX1600シリーズ

GTX1650SUPER

 

GTX1650 GDDR6

 

 

 

 

 

Copyright © 2022 自作ユーザーが解説するゲーミングPCガイド All Rights Reserved.