Aller au contenu

Blackwell (microarchitecture)

Un article de Wikipédia, l'encyclopédie libre.
NVIDIA Blackwell
Description de l'image Nvidia (logo).svg.
Caractéristiques
Date de sortie 18 mars 2024 (annonce)
Q4 2024 (sortie)
Procédé TSMC 4NP
Nombre de
transistors
  • 104,0 G (GB100, GB102, GB200)
  • 92,2 G (GB202)
  • 45,6 G (GB203)
  • 31,0 G (GB205)
  • 21,9 G (GB206)
  • 16,9 G (GB207)
Mémoire HBM3
GDDR7
Interfaces supportées
DirectX DirectX 12 Ultimate (12.2)
Direct3D Direct3D 12
Shader Model Shader Model 6.8
OpenCL OpenCL 3.0
OpenGL OpenGL 4.6
Vulkan Vulkan 1.3
CUDA (Compute Capability) CUDA 10.x
Historique
Prédécesseur Ada Lovelace (grand public)
Hopper (datacenter)
Successeur Rubin (datacenter)

Blackwell est une microarchitecture de processeur graphique (GPU) développée par Nvidia pour succéder à la microarchitecture Hopper et à la microarchitecture Ada Lovelace.

Nommée d’après le statisticien et mathématicien David Blackwell, l’architecture Blackwell a fait l’objet d’une fuite en 2022 et les GPU B100 et B40 ont été officiellement révélés en octobre 2023 dans une feuille de route officielle de Nvidia lors d’une présentation aux investisseurs de Nvidia[1] et ont été officiellement annoncés lors de la keynote Nvidia GTC 2024 le 18 mars 2024[2].

David Blackwell (1919-2010), éponyme de l'architecture.

En mars 2022, Nvidia a annoncé l'architecture Hopper destinée au centres de données des accélérateurs d'IA. La demande pour les produits Hopper a été élevée tout au long de l’engouement pour l’IA en 2023[3]. Le délai entre la commande et la livraison des serveurs basés sur H100 était compris entre 36 et 52 semaines en raison des pénuries et de la forte demande[4]. Nvidia aurait vendu 500 000 accélérateurs H100 basés sur Hopper au cours du seul troisième trimestre 2023[4]. La domination de Nvidia sur l’IA avec les produits Hopper a conduit à l'augmentation de la capitalisation boursière de la société à plus de 2 000 milliards de dollars, derrière Microsoft et Apple[5].

L’architecture Blackwell porte le nom du mathématicien américain David Blackwell, connu pour ses contributions aux domaines mathématiques de la théorie des jeux, de la théorie des probabilités, de la théorie de l'information et des statistiques. Blackwell a été le premier universitaire afro-américain à être intronisé à l’Académie nationale des sciences[6].

Lors de la présentation aux investisseurs de Nvidia en octobre 2023, sa feuille de route pour les centres de données a été mise à jour pour inclure une référence à ses accélérateurs B100 et B40 et à l’architecture Blackwell[7],[8]. Auparavant, le successeur de Hopper était simplement nommé sur les feuilles de route comme « Hopper-Next ». La feuille de route mise à jour de Nvidia a mis l'accent sur le passage d’une cadence de sortie de deux ans pour les produits de centre de données à des versions annuelles ciblées pour les systèmes x86 et ARM.

Lors de la Graphics Technology Conference (GTC) du 18 mars 2024, Nvidia a officiellement annoncé l'architecture Blackwell en mettant l’accent sur ses accélérateurs pour centres de données B100 et B200 et les produits associés, tels que la carte graphique HGX B200 à huit GPU et le système en rack NVL72 à 72 GPU[9]. Le PDG de Nvidia, Jensen Huang, a déclaré qu'avec Blackwell, « nous avons créé un processeur pour l'ère de l'IA générative » et a mis l'accent sur la plate-forme globale Blackwell combinant les accélérateurs Blackwell avec le processeur Grace basé sur ARM de Nvidia[10],[11]. Nvidia a vanté les soutiens de Blackwell de la part des PDG de Google, Meta, Microsoft, OpenAI et Oracle[11].

Architecture

[modifier | modifier le code]

Blackwell est une architecture conçue à la fois pour les applications de calcul de centre de données et pour les applications de jeu et de station de travail avec des puces dédiées à chaque usage. La puce GB100 est destinée aux produits de centre de données Blackwell, tandis que la puce de la série GB200 sera utilisée pour les cartes graphiques GeForce RTX série 50.

Procédé de fabrication (process node)

[modifier | modifier le code]

Blackwell est fabriqué avec le procédé 4NP personnalisé de TSMC. 4NP est une amélioration du nœud 4N utilisé pour les architectures Hopper et Ada Lovelace avec une augmentation de la densité de transistors. Avec le nœud amélioré 4NP, la puce GB100 contient 104 milliards de transistors, soit une augmentation de 30 % par rapport aux 80 milliards de transistors de la puce Hopper GH100 de la génération précédente[12]. Étant donné que Blackwell ne peut pas tirer parti des avantages qui découlent d’une avancée majeure en matière de process node, elle doit réaliser des gains d’efficacité énergétique et de performance grâce à des modifications architecturales internes[13].

La puce GB100 est à la limite de réticule de la fabrication de semi-conducteurs[14]. La limite de réticule dans la fabrication de semi-conducteurs est la limite de taille physique des puces de silicium que les machines de lithographie peuvent graver. Auparavant, Nvidia avait presque atteint la limite de réticule de TSMC avec la matrice de 814 mm2 du GH100. Afin de ne pas être limité par la taille de la puce, l’accélérateur B100 de Nvidia utilise deux puces GB100 dans un seul boîtier, connectées par une liaison à 10 To/s que Nvidia appelle l’interface NV-High Bandwidth Interface (NV-HBI). NV-HBI est basé sur le protocole NVLink 5.0. L’ensemble à double puce totalise 208 milliards de transistors[14]. Ces deux puces GB100 sont placées sur le dessus d'un interposeur (en) en silicium produit à l’aide de la technique d'encapsulation CoWoS-L 2.5D de TSMC[15].

Cœurs CUDA

[modifier | modifier le code]

CUDA Compute Capability 10.0 ainsi que 12.0 sont ajoutés avec Blackwell. L'architecture SIMD16 à double voie initiée depuis Ampère disparait au profil d'un bloc SIMD32 prenant en compte le FP32 et INT32. Autre changement important : les coeurs Tensors ne sont plus séparés des unités shaders, ce qui fait que les opérations vectorielles et matricielles peuvent être exécutés en parallèle.

Cœurs Tensor

[modifier | modifier le code]

L’architecture Blackwell introduit des cœurs Tensor de cinquième génération pour le calcul de l’IA et l’exécution de calculs en virgule flottante. Pour les centres de données, Blackwell ajoute la prise en charge des types de données FP4 et FP6 avec un traitement en virgule flottante en octuple précision[16]. L’architecture Hopper précédente introduisait le moteur de transformeur (Transformer Engine) pour diviser les données FP32 en FP8 afin d’augmenter le débit de calcul de pointe. Le moteur de transformateur de deuxième génération de Blackwell permet de diviser davantage le FP32, ce qui permet de doubler les performances de calcul en FP8. L’utilisation de données 4 bits permet d’améliorer l’efficacité et le débit d'inférence du modèle lors de l’entraînement de l’IA générative[13]. Nvidia revendique 20 pétaflops de calcul en FP4 avec l’accélérateur B100 à double puce GB100[17].

Puces Blackwell

[modifier | modifier le code]

Centre de données

Puce GB100[18] GB102[19] GB200[20]
Variante(s) Inconnu Inconnu Inconnu
Date de sortie Décembre 2024 Novembre 2024 Inconnu
Nb coeurs Coeurs CUDA 18432
TMU 576
ROP 24
Coeurs RT Inconnu Inconnu Inconnu
Coeurs Tensor 576
Multiprocesseurs de flux (SM) Inconnu Inconnu Inconnu
Cache L1 (Mo) 8,25
L2 (Mo) 60
Interface mémoire (bits) 8192
Taille de puce Inconnu Inconnu Inconnu
Nombre de transistors (G) 104
Densité de transistors Inconnu Inconnu Inconnu
Socket SXM6
Produits B200 SXM 192GB B100 Inconnu

Grand public

Puce GB202[21] GB203[22] GB205[23] GB206[24] GB207[25]
Variante(s) GB202-300-A1 GB203-200-A1
GB203-300-A1
GB203-400-A1
GB205-300-A1 GB206-250-A1
GB206-300-A1
GB207-300-A1
Date de sortie 30 janvier 2025 30 janvier 2025 4 mars 2025 16 avril 2025 24 juin 2025
Nb coeurs Coeurs CUDA 24576 10752 6400 4608 2560
TMU 768 336 200 144 80
ROP 192 112 80 48 32
Coeurs RT 192 84 50 36 20
Coeurs Tensor 768 336 200 144 80
Nb SM 192 84 50 36 20
Nb GPC (en) 12 7 5 3 2
Cache L1 (Mo) 24 10,5 6,25 4,5 2,5
L2 (Mo) 128 64 48 32 32
Interface mémoire (bits) 512 256 192 128 128
Taille de puce (mm2) 750 378 263 181 149
Nombre de transistors (G) 92,2 45,6 31,1 21,9 16,9
Densité de transistors (MTr/mm2) 122,6 120,6 118,3 121,0 113,4
Produits
Grand public Bureau RTX 5090
RTX 5090 D
RTX 5070 Ti
RTX 5080   
RTX 5070 RTX 5060
RTX 5060 Ti
RTX 5050
Portable NC RTX 5080 Laptop
RTX 5090 Laptop
RTX 5070 Ti Laptop RTX 5060 Laptop
RTX 5070 Laptop
RTX 5050 Laptop
Station de travail Bureau RTX PRO 5000
RTX PRO 6000
RTX PRO 4000
RTX PRO 4500
NC NC NC
Portable NC RTX PRO 4000 Mobile
RTX PRO 5000 Mobile
RTX PRO 3000 Mobile RTX PRO 2000 Mobile RTX PRO 500 Mobile
RTX PRO 1000 Mobile
Serveur RTX PRO 6000 NC NC NC NC

Références

[modifier | modifier le code]
  1. (en-US) « NVIDIA Corporation - NVIDIA Investor Presentation October 2023 », sur investor.nvidia.com (consulté le )
  2. (en-US) « NVIDIA Blackwell Platform Arrives to Power a New Era of Computing », sur NVIDIA Newsroom (consulté le )
  3. (en-US) Chris Szewczyk, « The AI hype means Nvidia is making shiploads of cash », sur Tom's Hardware, (consulté le )
  4. a et b (en-US) Anton Shilov, « Nvidia sold half a million H100 AI GPUs in Q3 thanks to Meta, Facebook — lead times stretch up to 52 weeks: Report », sur Tom's Hardware, (consulté le )
  5. (en-GB) Ian King, « Nvidia Looks to Extend AI Dominance With New Blackwell Chips », sur Yahoo! Finance, (consulté le )
  6. (en-GB) Jane Lanhee Lee, « Why Nvidia’s New Blackwell Chip Is Key to the Next Stage of AI », sur Bloomberg, (consulté le )
  7. (en-US) « Investor Presentation » [PDF], sur Nvidia, (consulté le )
  8. (en-US) Anthony Garreffa, « Nvidia's next-gen GB200 'Blackwell' GPU listed on its 2024 data center roadmap », sur TweakTown, (consulté le )
  9. (en-US) « Nvidia GB200 NVL72 », sur Nvidia (consulté le )
  10. (en-US) Kif Leswing, « Nvidia CEO Jensen Huang announces new AI chips: 'We need bigger GPUs' », sur CNBC, (consulté le )
  11. a et b (en-US) Brian Caulfield, « 'We Created a Processor for the Generative AI Era,' Nvidia CEO Says », sur Nvidia, (consulté le )
  12. (en-US) Ryan Smith, « Nvidia Blackwell Architecture and B200/B100 Accelerators Announced: Going Bigger With Smaller Data », sur AnandTech, (consulté le )
  13. a et b (en-US) Timothy Prickett Morgan, « With Blackwell GPUs, AI Gets Cheaper and Easier, Competing with Nvidia Gets Harder », sur The Next Platform, (consulté le )
  14. a et b (en-US) « Nvidia Blackwell Platform Arrives to Power a New Era of Computing », sur Nvidia Newsroom, (consulté le )
  15. (en-US) « Nvidia Blackwell "B100" to feature 2 dies and 192GB of HBM3e memory, B200 with 288GB », sur VideoCardz, (consulté le )
  16. (en-US) Benj Edwards, « Nvidia unveils Blackwell B200, the "world's most powerful chip" designed for AI », sur Ars Technica, (consulté le )
  17. (en-US) « Introducing the New Nvidia Blackwell: A Technical Breakdown », sur BIOS IT, (consulté le )
  18. « GB100 », sur techpowerup (consulté le )
  19. « GB102 », sur techpowerup (consulté le )
  20. « GB200 », sur techpowerup (consulté le )
  21. « GB202 », sur techpowerup (consulté le )
  22. « GB203 », sur techpowerup (consulté le )
  23. « GB205 », sur techpowerup (consulté le )
  24. « GB206 », sur techpowerup (consulté le )
  25. « GB207 », sur techpowerup (consulté le )