NVIDIA Ada Lovelace「GeForce RTX 40」ゲーミングGPUの詳細。アンペール、第4世代Tensor、第3世代RTコアの2倍のROPs、巨大なL2キャッシュ、50%増のFP32ユニット

GeForce RTX 40シリーズグラフィックスカードを搭載するNVIDIA Ada Lovelace Gaming GPUに関する詳細が明らかになりました。新情報はKopte7kimiからのもので、次世代アーキテクチャのブロック図について語られています。

NVIDIA GeForce Ada Lovelace GPU SMブロックダイアグラム詳細。より大きく、より良く、ゲーマーのために

NVIDIA Ada Lovelace GPUのアーキテクチャは、もはや謎ではありません。

GeForce RTX 40シリーズグラフィックスカードの次世代AD10*シリーズSKUを駆動する具体的な構成が判明し、ラインナップの仕様もリークされています。

さて、そろそろ純粋に次世代グラフィックスチップそのものについて語りたいところです。

NVIDIA AD102「Ada Lovelace」Gaming GPU「SM」ブロック図（ソース：Kopite7kimi）:

※　画像をクリックすると別Window・タブで拡大します

NVIDIA GA102 「Ampere」ゲーミングGPU「SM」ブロック図：

※　画像をクリックすると別Window・タブで拡大します

GPUの構成から、Kopite7kimiは、トップのAD102 GPUを、グリーンチームの他の様々なGPUと比較しています。

ゲーミングに特化した「Ampere GA102」や「Turing TU102」、HPCに特化した「Hopper GH100」や「Ampere GA100」などが追加されています。

HPCに特化した設計は、消費者向けの製品とは大きく異なるため、ここでは、AD102をゲーム用の先行製品と比較することにします。

NVIDIA Ada Lovelace AD102 GPUは、最大12 GPC (Graphics Processing Clusters)を搭載する予定です。

これは、GA102が7GPCしか搭載していないのに対し、70％増となる。各GPUは、6つのTPCと2つのSMで構成され、これは従来のチップと同じ構成です。

各SM（Streaming Multiprocessor）には4つのサブコアが搭載されますが、これもGA102 GPUと同じです。

変更点は、FP32とINT32のコア構成です。

各サブコアには128個のFP32が搭載されるが、FP32+INT32を合わせると最大192個になる。

これは、FP32ユニットがIN32ユニットと同じサブコアを共有しないためだ。

128個のFP32コアは、64個のINT32コアとは別になっている。

つまり、各サブコアは、128個のFP32ユニットと64個のINT32ユニットで構成され、合計で192個となる。

各SMは、FP32ユニット512個＋INT32ユニット256個、合計768個を搭載することになる。そして、SMは合計24基(GPCあたり2基)なので、FP32ユニット12,288基、INT32ユニット6,144基、合計18,432基のコアを持つことになる。

また、各SMには2つのWrap Schedules（32スレッド/CLK）が含まれ、SMあたり64ラップになります。

これはGA102 GPUと比較して、コア数(FP32+INT32)で50%、Wraps/Threadsで33%の増加となっています。

NVIDIA Ada Lovelace GPUのスペック「速報値」

GPU名	AD102	GA102	TU102	GA100	GH100
GPC	12 (Per GPU)	1.7x	2x	1.5x	1.5x
TPC	6 (Per GPC)	同じ	同じ	0.75x	0.67x
SM	2 (Per TPC)	同じ	同じ	同じ	同じ
サブコア	4 (Per SM)	同じ	同じ	同じ	同じ
FP32	128 (Per SM)	Same	2x	2x	同じ
FP32+INT32	192 (Per SM)	1.5x	1.5x	1.5x	同じ
ワープ数	64 (Per SM)	1.33x	2x	同じ	同じ
スレッド	2048 (Per SM)	1.33x	2x	同じ	同じ
L1キャッシュ	192 KB (Per SM)	1.5x	2x	同じ	0.75x
L2キャッシュ	96 MB (Per GPU)	16x	16x	2.4x	1.6x
ROP数	32 (Per GPC)	2x	2x	2x	2x

キャッシュに話を移すと、ここもNVIDIAが既存のAmpere GPUに対して大きなブーストをかけたセグメントだ。

Ada Lovelace GPUは、SMあたり192KBのL1キャッシュを搭載し、Ampereから50%増となる。

これは、トップのAD102 GPUでは、合計4.5MBのL1キャッシュを搭載することになる。

L2キャッシュは、リークにあるように96MBに増量される。

これは、6MBのL2キャッシュを搭載するAmpere GPUの16倍に相当する。

キャッシュはGPU全体で共有される。

最後にROPですが、こちらも1GPCあたり32個と、Ampereの2倍になっています。

Ampereの最速GPUであるRTX 3090 Tiでは112個しかなかったROPが、次世代フラッグシップでは最大で384個になります。

また、Ada Lovelace GPUには、最新の第4世代Tensorコアと第3世代RT（Raytracing）コアが搭載されており、DLSSとRaytracingのパフォーマンスを次のレベルに引き上げるのに役立ちます。

Ada Lovelace AD102 GPUは、全体として以下のような特徴を備えています。

2倍速GPC（対Ampere比）
50%増のコア数（対Ampere比）
50%増のL1キャッシュ(対Ampere比)
16倍のL2キャッシュ(対Ampere比)
2倍のROP（対Ampere比）
第4世代Tensorコアと第3世代RTコア

2～3GHz台と言われるクロックは方程式に取り込まれないので、対Ampereのコアあたりの性能向上にも大きな役割を果たすことになることに注意してください。

次世代ゲーミングGPU「Ada Lovelace」を搭載したNVIDIA GeForce RTX 40シリーズグラフィックスカードは、2022年後半に発売予定＆Hopper H100 GPUと同じTSMC 4Nプロセスノードを利用すると言われています。

NVIDIA CUDA GPU (噂) 暫定版：

GPU	TU102	GA102	AD102
アーキテクチャー	Turing	Ampere	Ada Lovelace
製造プロセス	TSMC 12nm NFF	Samsung 8nm	5nm
画像処理クラスタ(GPC)	6	7	12
テクスチャ処理クラスタ (TPC)	36	42	72
ストリーミングマルチプロセッサー (SM)	72	84	144
CUDAコア数	4608	10752	18432
理論演算値 TFLOPs	16.1	37.6	~90 TFLOPs?
メモリ種類	GDDR6	GDDR6X	GDDR6X
メモリバス幅	384-bit	384-bit	384-bit
メモリ容量	11 GB (2080 Ti)	24 GB (3090)	24 GB (4090?)
フラッグシップ SKU	RTX 2080 Ti	RTX 3090	RTX 4090?
TGP	250W	350W	450-850W?
発売日	2018年9月	2020年9月	2022年下半期 (不明)

ソース：wccftech – NVIDIA Ada Lovelace ‘GeForce RTX 40’ Gaming GPU Detailed: Double The ROPs, Huge L2 Cache & 50% More FP32 Units Than Ampere, 4th Gen Tensor & 3rd Gen RT Cores

解説：

LovelaceのGPUコンフィギュレーションがリーク

個人的に気になる個所は

「FP32ユニットがIN32ユニットと同じサブコアを共有しない」です。

AmpereはFP32演算性能の割にはゲーム性能が低かったのですが、根拠はないのですが、ここが関係しているのではないかと思っていました。

L2キャッシュについてですが、どこかに64bitバス幅当り16MBとあっと記憶しているのですが、全体で共有できるとのことでこれも過去に間違いを書いてしまったような気がします。

どうも「64bitバス幅で16MBを共有する」と言う意味ではなかったようです。

私はそう言う意味だと思っていたのですが、どうもこれも違うようですね。

INT32はGPUにはあまり重要ではないと思うのですが、これでドカンとゲーム性能が上がれば、「FP32ユニットがIN32ユニットと同じサブコアを共有しない」と言う部分が生きてきている証拠だと思います。

何れにしても大容量キャッシュとINT32コア問題を解決したLovelaceがどのくらいの性能を発揮するのか興味が尽きません。

nVidia　RTX3000シリーズGPU

RTX3090

ASUS NVIDIA GeForce RTX 3090 搭載トリプルファンモデル 24G TUF-RTX3090-O24G-GAMING

created by Rinker

ASUSTek

¥294,300
(2022/05/14 18:45:35時点 Amazon調べ-詳細)

RTX3080Ti

ZOTAC GAMING GeForce RTX 3080 Ti Trinity グラフィックスボード ZT-A30810D-10P VD7694

created by Rinker

ZOTAC

¥209,800
(2022/05/14 03:34:09時点 Amazon調べ-詳細)

RTX3080 10GB LHR

ZOTAC GAMING GeForce RTX 3080 Trinity OC LHR グラフィックスボード ZT-A30800J-10PLHR VD7781

created by Rinker

ZOTAC

¥144,000
(2022/05/14 03:34:10時点 Amazon調べ-詳細)

RTX3070Ti

ASUS TUF Gaming NVIDIA® GeForce RTX

3070 Ti 搭載ビデオカード OC/ PCIe 4.0 / 8GB GDDR6X / HDMI 2.1 / DisplayPort 1.4a /デュアルボールファンベアリング, ミリタリーグレードのコンデンサ/ GPU Tweak II TUF-RTX3070TI-O8G-GAMING

created by Rinker

ASUSTek

¥112,880
(2022/05/14 02:07:15時点 Amazon調べ-詳細)

Geforce RTX3070 8GB GDDR6 LHR

ZOTAC GAMING GeForce RTX 3070 AMP Holo LHR グラフィックスカード 8GB GDDR6

created by Rinker

ZOTAC(ゾタック)

¥135,197
(2022/05/14 03:34:11時点 Amazon調べ-詳細)

ZOTAC GAMING GeForce RTX 3070 Twin Edge OC LHR グラフィックスカード 8GB GDDR6

created by Rinker

ZOTAC(ゾタック)

¥100,184
(2022/05/14 03:34:11時点 Amazon調べ-詳細)

RTX3060Ti 8GB GDDR6

ZOTAC GAMING GeForce RTX 3060 Ti Twin Edge OC LHR グラフィックスカード 8GB GDDR6

created by Rinker

ZOTAC(ゾタック)

RTX3060 12GB GDDR6

ZOTAC GeForce RTX 3060 Twin Edge OC グラフィックスボード ZT-A30600H-10M VD7558

created by Rinker

ZOTAC

¥60,790
(2022/05/14 10:17:59時点 Amazon調べ-詳細)

RTX2000シリーズ

RTX2060 12GB

RTX2060が12GBメモリを搭載して復刻

ZOTAC GAMING GeForce RTX 2060 Twin Fan グラフィックスカード 12GB GDDR6 ZT-T20620F-10M

created by Rinker

ZOTAC(ゾタック)

¥64,380
(2022/05/14 03:54:32時点 Amazon調べ-詳細)

nVidia Geforce RTX1600シリーズ

GTX1650SUPER

ASUS NVIDIA GeForce GTX 1650 SUPER 搭載デュアルファンモデル 4G TUF-GTX1650S-O4G-GAMING

created by Rinker

ASUS

¥43,000
(2022/05/14 03:54:32時点 Amazon調べ-詳細)

GTX1650 GDDR6

ZOTAC GeForce GTX 1650 OC グラフィックスボード ZT-T16520F-10L VD7269

created by Rinker

ZOTAC

¥32,000
(2022/05/14 03:34:12時点 Amazon調べ-詳細)

Gadget Gate

NVIDIA Ada Lovelace「GeForce RTX 40」ゲーミングGPUの詳細。アンペール、第4世代Tensor、第3世代RTコアの2倍のROPs、巨大なL2キャッシュ、50%増のFP32ユニット

Archives