Ada Lovelace (microarchitecture)

Un article de Wikipédia, l'encyclopédie libre.
Ada Lovelace
Description de l'image Nvidia (logo).svg.
Caractéristiques
Date de sortie 12 octobre 2022
Procédé TSMC 4N
Interfaces supportées
DirectX DirectX 12 Ultimate (12.2)
Direct3D Direct3D 12
OpenCL OpenCL 3.0
OpenGL OpenGL 4.6
Vulkan Vulkan 1.3
CUDA (Compute Capability) 8.9
Historique
Variantes Hopper (datacenter)
Prédécesseur Ampere
Successeur Blackwell

Ada Lovelace, appelée également Lovelace[1], est le nom de code d'une microarchitecture de processeur graphique (GPU) développée par Nvidia pour succéder à l'architecture Ampere, annoncée officiellement le 20 septembre 2022. Elle est nommée d'après la mathématicienne anglaise Ada Lovelace[2] qui est souvent considérée comme la première programmeuse d'ordinateur et est la première architecture de Nvidia à comprendre le nom et le prénom de l'éponyme. Nvidia a annoncé l'architecture en même temps que les nouveaux GPU grand public GeForce 40 series[3] et les cartes graphiques pour stations de travail RTX 6000 Ada Generation[4]. Les nouveaux GPU utilisent le nouveau procédé 5 nm "4N" de TSMC qui offre une meilleure efficacité par rapport aux procédés précédents Samsung 8 nm et TSMC N7 utilisés par Nvidia sur sa précédente génération d'architecture, Ampere[5].

Daguerreotype d'Ada Lovelace, éponyme de l'architecture

Historique[modifier | modifier le code]

L'architecture Ada Lovelace succède à l'architecture Ampere qui avait été introduite en 2020. L'architecture Ada Lovelace a été annoncée par le CEO de Nvidia Jensen Huang lors d'une "keynote" au GTC 2022 le 20 septembre 2022, architecture équipant les futurs GPU Nvidia pour les cartes graphiques pour jeux vidéo, les stations de travail et les centres de données[6].

Détails architecturaux[modifier | modifier le code]

Les améliorations architecturales de l'architecture Ada Lovelace sont les suivantes[7] :

  • CUDA Compute Capability 8.9[8]
  • Procédé TSMC 4N (conçu spécialement pour NVIDIA) - à ne pas confondre avec le procédé standard N4 de TSMC
  • Coeurs Tensor de 4ème génération supportant les formats FP8, FP16, bfloat16, TensorFloat-32 (TF32) et l'accélération du traitement des matrices creuses
  • Coeurs Ray Tracing de 3ème génération, avec ray tracing concurrent, ombrage et calcul
  • Shader Execution Reordering (SER)[9]
  • Codeur/décodeur vidéo Nvidia (NVENC/NVDEC) avec codage matériel à fonction fixe de AV1 en 8K 10-bit 60 FPS[10],[11]
  • Pas de support de NVLink (en)[12],[13]

Streaming multiprocessors (SMs)[modifier | modifier le code]

Coeurs CUDA[modifier | modifier le code]

128 coeurs CUDA sont présents dans chaque SM.

Coeurs RT[modifier | modifier le code]

Ada Lovelace possède des coeurs RT de troisième génération. La carte RTX 4090 possède 128 coeurs RT, à comparer aux 84 de la génération précédente RTX 3090 Ti. Ces 128 coeurs RT peuvent fournir une puissance de calcul allant jusqu'à 191 TFLOPS, avec 1,49 TFLOPS par coeur RT[14]. Un nouvel étage dans le pipeline de ray tracing appelé Shader Execution Reordering (SER) est ajouté dans l'architecture Lovelace, pour lequel Nvidia revendique une augmentation de la performance d'un facteur deux dans les taches de ray tracing[6].

Coeurs Tensor[modifier | modifier le code]

La 4ème génération de coeurs Tensor de Lovelace supporte la technologie IA utilisée dans les techniques de génération d'images DLSS 3. Tout comme Ampere, chaque SM contient 4 coeurs Tensor mais au total Lovelace contient un plus grand nombre de coeurs Tensor, étant donné son nombre plus important de SM.

Fréquence d'horloge[modifier | modifier le code]

Il y a une augmentation significative des fréquences d'horloge avec l'architecture Ada Lovelace, la fréquence d'horloge de base de la RTX 4090 étant plus élevée que la fréquence d'horloge Boost de la RTX 3090 Ti.

RTX 2080 Ti RTX 3090 Ti RTX 4090
Architecture Turing Ampere Ada Lovelace
Fréquence horloge de base
(MHz)
1350 1560 2235
Fréquence horloge Boost
(MHz)
1635 1860 2520

Sous-système mémoire et mémoire cache[modifier | modifier le code]

RTX 2080 Ti RTX 3090 Ti RTX 4090
Architecture Turing Ampere Ada Lovelace
Cache de données L1 6.375 MB
(96 kB par SM)
10.5 MB
(128 kB par SM)
16 MB
(128 kB par SM)
Cache L2 5.5 MB 6 MB 72 MB

La puce AD102 Lovelace pleinement fonctionnelle possède 96 MB de cache L2, une augmentation d'un facteur 16 par rapport aux 6 MB dans la puce GA102 basée sur Ampere[15]. Le GPU ayant accès à une grande quantité de cache L2, cela avantage les opérations complexes comme le ray tracing comparé à un GPU recherchant ses données dans la mémoire vidéo GDDR qui est plus lente. Reposant moins sur des accès mémoire pour stocker des données volumineuses et fréquemment accédées signifie qu'un bus mémoire plus étroit peut être utilisé en tandem avec un grand cache L2.

Chaque contrôleur mémoire utilise une connexion 32 bits, avec un nombre maximum de 12 contrôleurs, donnant une largeur de bus mémoire combinée de 384 bits. L'architecture Lovelace peut utiliser soit la mémoire GDDR6, soit la GDDR6X. La mémoire GDDR6X est présente dans les modèles GeForce RTX 40 series (ordinateurs fixes) tandis que la mémoire GDDR6 plus sobre en énergie est utilisée dans les versions correspondantes pour portables et dans les GPU pour stations de travail RTX A6000.

Efficacité énergétique et procédé de fabrication[modifier | modifier le code]

L'architecture Ada Lovelace peut utiliser des tensions d'alimentation plus faibles que son prédécesseur[6]. Nvidia revendique une augmentation de performance d'un facteur deux pour la carte RTX 4090 au même niveau de puissance 450 W, par rapport au vaisseau amiral de la génération précédente RTX 3090 Ti[16].

La meilleure efficacité énergétique peut être attribuée en partie au procédé de fabrication ("process node") plus fin utilisé par l'architecture Lovelace. L'architecture Ada Lovelace est fabriquée avec le procédé de pointe 4N de TSMC, un procédé customisé pour Nvidia. L'architecture de la génération précédente Ampere utilisait le procédé 8N de Samsung datant de 2018, qui était déjà âgée de deux ans lors du lancement d'Ampere[17],[18]. La puce AD102 avec ses 76,3 milliards de transistors a une densité de transistors de 125,5 millions par mm2, une augmentation de 178 % de la densité par rapport aux 45,1 millions par mm2 du GA102.

Moteur multimédia[modifier | modifier le code]

L'architecture Lovelace utilise le nouveau codeur vidéo de 8ème génération de Nvidia NVENC (en) et le décodeur vidéo de 7ème génération NVDEC introduit par Ampere[19].

Le codage matériel de AV1 supportant jusqu'à une résolution 8K à 60 FPS en couleur 10 bits a été rajouté dans NVENC, permettant une meilleure qualité vidéo avec un débit binaire plus faible comparé aux codecs H.264 et H.265[20]. Nvidia estime que son codeur de AV1 dans NVENC intégré dans l'architecture Lovelace est 40 % plus efficace que le codeur H.264 de l'architecture Ampere[21].

L'architecture Lovelace a été critiquée pour ne pas supporter la connexion DisplayPort 2.0 qui permet une bande passante plus élevée et utilise à la place la version plus ancienne DisplayPort 1.4a qui est limitée à une bande passante maximale de 32 Gbps[22]. En conséquence, les GPU Lovelace pourraient être limités par le débit maximal de DisplayPort 1.4a malgré la capacité du GPU à supporter des débits plus élevés. Les GPU Intel Arc qui sont également sortis en octobre 2022 supportent DisplayPort 2.0. L'architecture RDNA 3 (en) concurrente d'AMD sortie juste deux mois plus tard que Lovelace supporte DisplayPort 2.1[23].

Puces Ada Lovelace[modifier | modifier le code]

Comparison des puces Ada Lovelace
Puce[24] AD102[25] AD103[26] AD104[27] AD106[28] AD107[29]
Taille de puce (mm2) 609 379 294 188 159
Nb. transistors (G) 76.3 45.9 35.8 22.9 18.9
Densité de transistors
(MTr/mm2)
125.3 121.1 121.8 121.8 118.9
Nb. Graphics processing
clusters (GPC)
12 7 5 3 2
Nb. Streaming
multiprocessors (SM)
144 80 60 36 24
Nb. coeurs CUDA 18432 10240 7680 4608 3072
Nb. TMU 576 320 240 144 96
Nb. ROP 192 112 80 64 32
Nb. coeurs tenseur (en) 576 320 240 144 96
Nb. coeurs RT 144 80 60 36 24
Cache L1 18 MB 10 MB 7.5 MB 4.5 MB 3 MB
128 kB par SM
Cache L2 (MB) 96 64 48 32

Produits basés sur Ada Lovelace[modifier | modifier le code]

Cartes graphiques pour jeux vidéo[modifier | modifier le code]

  • GeForce 40 series
    • GeForce RTX 4050 (mobile) (AD107)
    • GeForce RTX 4060 (mobile) (AD107)
    • GeForce RTX 4060 Ti (AD106)
    • GeForce RTX 4070 (mobile) (AD106)
    • GeForce RTX 4070 (AD104)
    • GeForce RTX 4070 Ti (AD104)
    • GeForce RTX 4080 (mobile) (AD104)
    • GeForce RTX 4080 (AD103)
    • GeForce RTX 4090 (mobile) (AD103)
    • GeForce RTX 4090 (AD102)

Domaine professionnel[modifier | modifier le code]

Stations de travail de bureau[modifier | modifier le code]

Modèle Date de lancement Prix de lancement
(USD)
Nom de code Transistors (milliards) Taille
de puce (mm2)
Configuration
des coeurs[note 1]
Nombre de SM[note 2] Cache Fréq. horloge[note 3] Fillrate[note 4],[note 5] Mémoire Puissance de calcul (TFLOPS) TDP (W)
L1 (MB) L2 (MB) Coeurs
(MHz)
Mémoire
(Gb/s)
Pixel
(GPx/s)
Texture
(GTex/s)
Type Taille (GB) Bande passante
(GB/s)
Largeur de bus (bits) Demi-précision
(boost)
Simple
précision

(boost)
Double
précision

(boost)
Calcul
tensoriel
[sparse]

RTX 4000 SFF
Ada Generation[30]
21 mars 2023 1250 AD104-400 35.8 294.5 6144
192:80:48:192
48 6 48 1290
(1565)
16 103.2
(125.2)
247.68
(300.48)
GDDR6 20 320 160
(19.2)
153.4
[306.8]
70
RTX 6000
Ada Generation[31]
20 janvier 2023 6799 AD102-300 76.3 608.4 18176
568:192:142:568
142 17.75 96 915
(2505)
20 175.68
(480.96)
519.72
(1422.84)
48 960 384
(91.1)
728.5
[1457.0]
300
  1. Nb. coeurs CUDA : Nb. TMU : Nb. ROP : Nb. coeurs Ray tracing : Nb. coeurs Tensor (en)
  2. Nombre de Streaming multi-processors dans le GPU.
  3. Les valeurs Core boost (si disponibles) sont indiquées sous la valeur de base entre parenthèses.
  4. Le taux de remplissage des pixels (Pixel fillrate) est obtenu en faisant le produit du nombre de render output units (ROP) et de la fréquence d'horloge de base (ou de boost).
  5. Le taux de remplissage des textures (Texture fillrate) est obtenu en faisant le produit du nombre de texture mapping units (TMU) et de la fréquence d'horloge de base (ou de boost).

Stations de travail portables[modifier | modifier le code]

Modèle Date de lancement Nom de code Transistors (milliards) Taille
de puce (mm2)
Configuration
des coeurs[note 1]
Nombre de SM[note 2] Cache Fréq. horloge[note 3] Fillrate[note 4],[note 5] Mémoire Puissance de calcul (TFLOPS) TGP (W)
L1 (Mo) L2 (Mo) Coeurs
(MHz)
Mémoire
(Gb/s)
Pixel
(GPx/s)
Texture
(GTex/s)
Type Taille (Go) Bande passante
(GB/s)
Largeur
de bus (bits)
Demi-précision
(boost)
Simple
précision

(boost)
Double
précision

(boost)
Calcul
tensoriel
[sparse]

RTX 2000 Max-Q
Ada Laptop
21 mars 2023 AD107 146 3072
96:32:24:96
24 3 12 930
(1455)
14 29.76
(46.56)
89.28
(139.68)
GDDR6 8 224 128 35
RTX 2000
Ada Laptop
1635
(2115)
16 52.32
(67.68)
156.96
(203.04)
256
(14.5)
115.8
[231.6]
35–140
RTX 3000
Ada Laptop
AD106 22.9 190 4608
144:48:36:144
36 4.5 32 1395
(1695)
66.96
(81.36)
200.88
(244.08)

(19.9)
159.3
[318.6]
RTX 3500
Ada Laptop
AD104 35.8 294.5 5120
160:64:40:160
40 5 48 1290
(1665)
18 82.56
(106.56)
206.4
(266.4)
12 432 192
(23.0)
184.3
[368.6]
60–140
RTX 4000
Ada Laptop
7424
232:80:58:232
58 7.25 1290
(1665)
103.2
(133.2)
299.28
(386.28)

(33.6)
269.0
[538.0]
80–175
RTX 5000
Ada Laptop
AD103 45.9 378.6 9728
304:112:76:304
76 9.5 64 1335
(1695)
149.52
(189.84)
405.84
(515.28)
16 576 256
(42.6)
340.9
[681.8]
  1. Nb. coeurs CUDA : Nb. TMU : Nb. ROP : Nb. coeurs Ray tracing : Nb. coeurs Tensor (en)
  2. Nombre de Streaming multi-processors dans le GPU.
  3. Les valeurs Core boost (si disponibles) sont indiquées sous la valeur de base entre parenthèses.
  4. Le taux de remplissage des pixels (Pixel fillrate) est obtenu en faisant le produit du nombre de render output units (ROP) et de la fréquence d'horloge de base (ou de boost).
  5. Le taux de remplissage des textures (Texture fillrate) est obtenu en faisant le produit du nombre de texture mapping units (TMU) et de la fréquence d'horloge de base (ou de boost).

Centre de données[modifier | modifier le code]

Modèle Date de lancement Prix de
lancement
(USD)
Nom de code Transistors (milliards) Taille de
puce (mm2)
Configuration
des coeurs[note 1]
Nombre de SM[note 2] Cache Fréq. horloge[note 3] Fillrate[note 4],[note 5] Mémoire Puissance de calcul (TFLOPS) TBP (W)
L1 (Mo) L2 (Mo) Coeurs
(MHz)
Mémoire
(MHz)
Pixel
(GPx/s)
Texture
(GTex/s)
Type Taille (Go) Bande passante
(GB/s)
Largeur
de bus (bits)
Demi-précision
(boost)
Simple
précision

(boost)
Double
précision

(boost)
Calcul
tensoriel
[sparse]

L4 21 mars 2023 $ AD104-???-A1 35.8 295 7680
240:80:60:240
60 7.5 48 795
(2040)
1313 63.6
(163.2)
190.8
(489.6)
GDDR6X 24 504.2 192 285
L40 [32] 13 octobre 2022 $ AD102-895-A1 76.3 608.4 18176
568:192:142:568
142 17.75 96 735
(2490)
2250 58.8
(199.2)
176.4
(597.6)
GDDR6 48 864 384 300
L40G $ AD102-???-A1 48 1005
(2475)
80.4
(198.0)
241.2
(594.0)
24
L40 CNX $ AD102-???-A1
  1. Nb. coeurs CUDA : Nb. texture mapping units : Nb. ROP : Nb. coeurs Ray tracing : Nb. coeurs Tensor (en)
  2. Nombre de Streaming multi-processors dans le GPU.
  3. Les valeurs Core boost (si disponibles) sont indiquées sous la valeur de base entre parenthèses.
  4. Le taux de remplissage des pixels (Pixel fillrate) est obtenu en faisant le produit du nombre de render output units (ROP) et de la fréquence d'horloge de base (ou devboost).
  5. Le taux de remplissage des textures (Texture fillrate) est obtenu en faisant le produit du nombre de texture mapping units (TMU) et de la fréquence d'horloge de base (ou decboost).

Références[modifier | modifier le code]

  1. (en-US) Karl Freund, « NVIDIA Launches Lovelace GPU, Cloud Services, Ships H100 GPUs, New Drive Thor », sur Forbes, (consulté le )
  2. (en-US) Hassan Mujtaba, « NVIDIA's Next-Gen Ada Lovelace Gaming GPU Architecture For GeForce RTX 40 Series Confirmed », Wccftech, (consulté le )
  3. (en-US) « NVIDIA Delivers Quantum Leap in Performance, Introduces New Era of Neural Rendering with GeForce RTX 40 Series », sur NVIDIA Newsroom, (consulté le )
  4. (en-US) « NVIDIA's New Ada Lovelace RTX GPU Arrives for Designers and Creators », sur Nvidia Newsroom, (consulté le )
  5. (en-US) Sam Machkovec, « Nvidia's Ada Lovelace GPU generation: $1,599 for RTX 4090, $899 and up for 4080 », Ars Technica, (consulté le )
  6. a b et c (en-US) Marco Chiappetta, « NVIDIA GeForce RTX 40 Architecture Overview: Ada's Special Sauce Unveiled », sur HotHardware, (consulté le )
  7. (en-US) « NVIDIA Ada Lovelace Architecture », sur NVIDIA, (consulté le )
  8. (en) « CUDA C++ Programming Guide », sur docs.nvidia.com (consulté le )
  9. (en-US) « Improve Shader Performance and In-Game Frame Rates with Shader Execution Reordering », sur NVIDIA Technical Blog, (consulté le )
  10. (en-US) Gerado Deigado, « Creativity At The Speed of Light: GeForce RTX 40 Series Graphics Cards Unleash Up To 2X Performance in 3D Rendering, AI, and Video Exports For Gamers and Creators », sur NVIDIA, (consulté le )
  11. (en-US) « Nvidia Video Codec SDK », sur NVIDIA Developer, (consulté le )
  12. (en) Chuong Nguyen, « Nvidia kills off NVLink on RTX 4090 », sur Windows Central, (consulté le )
  13. (en-US) btarunr, « Jensen Confirms: NVLink Support in Ada Lovelace is Gone », sur TechPowerUp, (consulté le )
  14. (en-US) « Nvidia Ada Lovelace GPU Architecture: Designed to deliver outstanding gaming and creating, professional graphics, AI, and compute performance », sur Nvidia (consulté le ), p. 30
  15. (en-US) « Nvidia Ada Lovelace GPU Architecture: Designed to deliver outstanding gaming and creating, professional graphics, AI, and compute performance », sur Nvidia (consulté le ), p. 12
  16. (en-US) « Nvidia Ada Lovelace GPU Architecture: Designed to deliver outstanding gaming and creating, professional graphics, AI, and compute performance », sur Nvidia (consulté le ), p. 12
  17. (en-US) Dave James, « Nvidia confirms Samsung 8nm process for RTX 3090, RTX 3080, and RTX 3070 », sur PC Gamer, (consulté le )
  18. (en-US) Dominik Bosnjak, « Samsung's old 8nm tech at the heart of NVIDIA's monstrous Ampere cards », sur SamMobile, (consulté le )
  19. (en-US) « Nvidia Ada Lovelace GPU Architecture: Designed to deliver outstanding gaming and creating, professional graphics, AI, and compute performance », sur Nvidia (consulté le ), p. 25
  20. (en-US) Prathap Muthana, Sampurnananda Mishra et Abhijit Patait, « Improving Video Quality and Performance with AV1 and NVIDIA Ada Lovelace Architecture », sur Nvidia Developer, (consulté le )
  21. (en-US) « Nvidia Ada Science: How Ada advances the science of graphics with DLSS 3 », sur Nvidia (consulté le ), p. 13
  22. (en-US) Anthony Garreffa, « NVIDIA's next-gen GeForce RTX 40 series lack DP2.0 connectivity, silly », sur TweakTown, (consulté le )
  23. (en-GB) Will Judd, « AMD announces 7900 XTX and 7900 XT graphics cards with FSR 3 », sur Eurogamer, (consulté le )
  24. (en-US) « NVIDIA confirms Ada 102/103/104 GPU specs, AD104 has more transistors than GA102 », sur VideoCardz, (consulté le )
  25. (en-US) « NVIDIA AD102 GPU Specs », sur TechPowerUp (consulté le )
  26. (en-US) « NVIDIA AD103 GPU Specs », sur TechPowerUp (consulté le )
  27. (en-US) « NVIDIA AD104 GPU Specs », sur TechPowerUp (consulté le )
  28. (en-US) « NVIDIA AD106 GPU Specs », sur TechPowerUp (consulté le )
  29. (en-US) « NVIDIA AD107 GPU Specs », sur TechPowerUp (consulté le )
  30. (en-US) « NVIDIA RTX 4000 SFF Ada Generation: Power for endless possibilities », sur Nvidia (consulté le )
  31. (en-US) « RTX 6000 Ada Generation: Power for endless possibilities », sur Nvidia (consulté le )
  32. (en-US) « Nvidia L40 GPU Accelerator Product Brief », sur Nvidia (consulté le )