Aller au contenu

Utilisateur:Jithel/Brouillon

Une page de Wikipédia, l'encyclopédie libre.

La page suivante s'appuie sur le calcul présenté ici : https://cs.iupui.edu/~fgsong/cs590HPC/how2decide_peak.pdf (document anglais).

Note : les puissances calculées pour le mode turbo sont non atteignables en théorie. En effet, le mode turbo est la fréquence MAXIMALE que peut atteindre UN cœur du processeur. Dans les calculs suivants, il est considéré que le mode turbo s'applique sur TOUS les cœurs et que la fréquence maximale est atteinte. Il faudrait améliorer la précision du calcul pour le mode turbo pour déterminer la fréquence maximale en fonction du nombre de cœurs utilisés et donc déterminer la puissance de calcul associée. Ici, le mode turbo nous permet d'avoir une idée de la puissance maximale (non atteignable donc) du processeur. De même, il existe une fréquence turbo pour les calculs de chaque jeu d'instruction (en particulier, AVX2). Il sera considéré que celle-ci vaut la fréquence turbo annoncée par Intel (prévue pour les instructions non-AVX). Cette fréquence est généralement plus faible mais peut s'appliquer sur tous les cœurs.

Pentium III[modifier | modifier le code]

Les Pentium III implémente le jeu d'instruction SSE.

Calcul du multiplicateur spécifique au jeu d'instruction[modifier | modifier le code]

Les fonctions du jeu d'instruction SSE concernant les opérations à virgule flottante ont toutes un seul opérateur (ajouter, multiplier, diviser, soustraire). Il n'y a pas d'opération à plusieurs opérateurs. Le multiplicateur "flop / operation" vaut donc 1.

Les opérations à virgule flottante SSE existent en deux modes : scalaire (opération entre deux nombres) ou vectoriel (opération entre deux vecteurs). Ici, le mode vectoriel accepte des vecteurs comme opérande constitué de 4 nombres à virgule flottante en simple précision. Le multiplicateur "operations / instruction" vaut donc 1 pour le mode scalaire et 4 pour le mode vectoriel.

Formules[modifier | modifier le code]

Tous les processeurs de cette famille ont un cœur et pas de multi-thread possible pour les opérations flottantes.

Calculer le nombre de FLOPS pour les opérations scalaires du jeu d'instruction SSE :

Calculer le nombre de FLOPS pour les opérations vectorielles du jeu d'instruction SSE :

Application : puissance MIN / MAX[modifier | modifier le code]

Les formules ne dépendent que de la fréquence du processeur. Pour trouver le minimum / maximum en terme de puissance pour cette famille, il suffit de regarder les fréquences des processeurs.

Le processeur le moins puissant de cette famille est le "Mobile Intel® Pentium® III Processor 400 MHz, 256K Cache, 100 MHz FSB" cadencé à 400 MHz.

Puissance de calcul du Mobile Intel® Pentium® III Processor 400 MHz, 256K Cache, 100 MHz FSB
Opération flottante Puissance en GFLOPS
SSE scalaire 0.4
SSE vectoriel 1.6

Le processeur le plus puissant de cette est le "Intel® Pentium® III Processor 1.40 GHz, 256K Cache, 133 MHz FSB" (puissance égale : "Intel® Pentium® III Processor - S 1.40 GHz, 512K Cache, 133 MHz FSB") cadencé à 1.40 GHz. Sa puissance est de 1.40 GFLOPS pour les opérations scalaires du jeu d'instruction SSE et de 5.60 GFLOPS pour les opérations vectorielles du jeu d'instruction SSE.

Puissance de calcul du Intel® Pentium® III Processor 1.40 GHz, 256K Cache, 133 MHz FSB
Opération flottante Puissance en GFLOPS
SSE scalaire 1.40
SSE vectoriel 5.60

Pentium 4[modifier | modifier le code]

Les Pentium 4 implémentent le jeu d'instruction SSE, SSE2 à partir de la famille Willamette et SSE3 à partir de la famille Prescott. La technologie "Hyper-Threading" est implémentée plus tard.

Calcul du multiplicateur spécifique au jeu d'instruction[modifier | modifier le code]

Pour le jeu d'instruction SSE, les multiplicateurs n'ont pas changé.

Pour le jeu d'instruction SSE2, les opérations à virgule flottante sont possibles en double précision aussi. Pour l'opération en double précision scalaire, le multiplicateur ne change pas car un opérande et une opération. Par contre, pour l'opération en double précision vectoriel, les opérandes sont des vecteurs de deux éléments donc le multiplicateur est de 2 (et non 4 comme SSE vectoriel).

Pour le jeu d'instruction SSE3, une opération permet d'effectuer à la fois des additions mais aussi des soustractions entre deux vecteurs de nombres flottants en simple et double précision. Le multiplicateur est inchangé car cette opération effectue une moitié des opérations en addition et une autre en soustraction sur les moitiés des opérandes. Le multiplicateur reste à 4 en simple précision sur des vecteurs de 128 bits et à 2 en double précision.

Formules[modifier | modifier le code]

Tous les processeurs de cette famille ont un cœur. L'HTT est implémenté en partie.

si la technologie HyperThreading est disponible sur le processeur (0, sinon)

Calculer le nombre de FLOPS pour les opérations scalaires :

Calculer le nombre de FLOPS pour les opérations vectorielles en double précision :

Calculer le nombre de FLOPS pour les opérations vectorielles en simple précision :

Application : puissance MIN / MAX[modifier | modifier le code]

Les formules dépendent de la fréquence du processeur et de la disponibilité de la technologie HyperThreading.

Le processeur le moins puissant de cette famille est le "Intel® Pentium® 4 Processor 1.30 GHz, 256K Cache, 400 MHz FSB" cadencé à 1.30 GHz ne supportant pas l'HTT.

Puissance de calcul du Intel® Pentium® 4 Processor 1.30 GHz, 256K Cache, 400 MHz FSB
Opération flottante Puissance en GFLOPS
SSE / SSE2 / SSE3 scalaire 1.30
SSE2 / SSE3 vectoriel (DP) 2.60
SSE / SSE2 / SSE3 vectoriel (SP) 5.20

Le processeur le plus puissant de cette famille est le "Intel® Pentium® 4 Processor supporting HT Technology 4.00 GHz, 2M Cache, 1066 MHz FSB" cadencé à 4.00 GHz supportant l'HTT.

Puissance de calcul du Intel® Pentium® 4 Processor supporting HT Technology 4.00 GHz, 2M Cache, 1066 MHz FSB
Opération flottante Puissance en GFLOPS
SSE / SSE2 / SSE3 scalaire 8.00
SSE2 / SSE3 vectoriel (DP) 16.00
SSE / SSE2 / SSE3 vectoriel (SP) 32.00

Pentium D[modifier | modifier le code]

Les Pentium D implémentent les jeux d'instruction SSE / SSE2 et SSE3. Ils ne disposent pas de la technologie HyperThreading mais sont la première implémentation d'architecture à deux cœurs (dual-core).

Calcul du multiplicateur spécifique au jeu d'instruction[modifier | modifier le code]

Les multiplicateurs sont identiques à ceux de la famille Pentium 4 car les jeux d'instructions sont identiques. Il y a donc trois multiplicateurs : 1 (SSE / SSE2 scalaire), 2 (SSE2 vectoriel / SSE3 scalaire) et 4 (SSE / SSE3 vectoriel).

Formules[modifier | modifier le code]

Tous les processeurs de cette famille sont dual-core (2 cœurs physiques). Pas de multi-thread possible.

Calculer le nombre de FLOPS pour les opérations scalaires :

Calculer le nombre de FLOPS pour les opérations vectorielles en double précision :

Calculer le nombre de FLOPS pour les opérations vectorielles en simple précision :

Application : puissance MIN / MAX[modifier | modifier le code]

Les formules ne dépendent que de la fréquence du processeur. Pour trouver le minimum / maximum en terme de puissance pour cette famille, il suffit de regarder les fréquences des processeurs.

Le processeur le moins puissant de cette famille est le "Intel® Pentium® D Processor 805" cadencé à 2.66 GHz.

Puissance de calcul du Intel® Pentium® D Processor 805
Opération flottante Puissance en GFLOPS
SSE / SSE2 / SSE3 scalaire 5.32
SSE2 / SSE3 vectoriel (DP) 10.64
SSE / SSE2 / SSE3 vectoriel (SP) 21.28

Le processeur le plus puissant de cette famille est le "Intel® Pentium® D Processor 960" cadencé à 3.60 GHz.

Puissance de calcul du Intel® Pentium® D Processor 960
Opération flottante Puissance en GFLOPS
SSE / SSE2 / SSE3 scalaire 7.20
SSE2 / SSE3 vectoriel (DP) 14.40
SSE / SSE2 / SSE3 vectoriel (SP) 28.80

Core 2[modifier | modifier le code]

Les Intel Core 2 implémentent les jeux d'instruction SSSE et SSE4.1 selon les processeurs. De plus, les processeurs de cette famille peuvent être de un à quatre cœurs. Il semblerait que les processeurs de cette famille n'implémentent pas la technologie HyperThreading (à confirmer).

Calcul du multiplicateur spécifique au jeu d'instruction[modifier | modifier le code]

Le jeu d'instruction SSSE3 ne rajoute pas d'opération flottante. Le jeu d'instruction SSE4.1 est similaire aux jeux d'instruction SSE2 / SSE3.

Il n'y a donc pas de nouveaux multiplicateurs de la part des jeux d'instruction SSSE3 et SSE4.1.

Formules[modifier | modifier le code]

L'HTT n'est pas disponible sur cette famille. De plus, le nombre de cœur varie en fonction du processeur (solo, dual voire quad-core).

désigne le nombre de coeurs du processeur. Cette valeur ne peut être que 1, 2 ou 4 dans la famille Intel Core 2.

Calculer le nombre de FLOPS pour les opérations scalaires :

Calculer le nombre de FLOPS pour les opérations vectorielles en double précision :

Calculer le nombre de FLOPS pour les opérations vectorielles en simple précision :

Application : puissance MIN / MAX[modifier | modifier le code]

Les formules dépendent de la fréquence du processeur mais aussi du nombre de cœurs.

Le processeur le moins puissant de cette famille est le "Intel® Core™2 Solo Processor U2100" cadencé à 1.06 GHz avec un cœur.

Puissance de calcul du Intel® Core™2 Solo Processor U2100
Opération flottante Puissance en GFLOPS
SSE / SSE2 / SSE3 scalaire 1.06
SSE2 / SSE3 / SSE4.1 vectoriel (DP) 2.12
SSE / SSE2 / SSE3 / SSE4.1 vectoriel (SP) 4.24

Le processeur le plus puissant de cette famille est le "Intel® Core™2 Extreme Processor QX9770" (identique au "Intel® Core™2 Extreme Processor QX9775") cadencé à 3.20 GHz avec 4 cœurs.

Puissance de calcul du Intel® Core™2 Extreme Processor QX9770
Opération flottante Puissance en GFLOPS
SSE / SSE2 / SSE3 scalaire 12.80
SSE2 / SSE3 / SSE4.1 vectoriel (DP) 25.60
SSE / SSE2 / SSE3 / SSE4.1 vectoriel (SP) 51.20

Note : bien que le U2100 soit plus récent que le Pentium D 805, les calculs montrent que le U2100 est moins puissant que son antécédent. En effet, on retrouve la cohérence de ce résultat ici : https://www.cpubenchmark.net/compare/Intel-Pentium-D-805-vs-Intel-Core2-Solo-U2100/1125vs1051. Le D 805 serait 52% plus puissant que le U2100. L'écart n'est pas similaire d'après les calculs (rapport x5). Le résultat du U2100 a une haute marge d'erreur sur le site à cause du manque de benchmark effectué (uniquement réalisé sur 2 machines).

Nehalem Core (1st generation)[modifier | modifier le code]

La première famille de Intel Core (génération 1). Elle introduit le jeu d'instruction SSE4.2 mais réintroduit aussi l'HTT.

Calcul du multiplicateur spécifique au jeu d'instruction[modifier | modifier le code]

Le jeu d'instruction SSE4.2 n'apporte aucune nouveauté sur les opérations flottantes. Les multiplicateurs sont donc 1 (SSE / SSE2 scalaire), 2 (SSE2 vectoriel, SSE3 scalaire, SSE4.1 vectoriel DP) et 4 (SSE / SSE3 vectoriel, SSE4.1 vectoriel SP).

Formules[modifier | modifier le code]

L'HTT est implémenté en partie et le nombre de cœurs est variable. Ainsi :

désigne le nombre de cœurs du processeur. Cette valeur ne peut être que 2 ou 4.

si la technologie HyperThreading est disponible sur le processeur (0, sinon)

Calculer le nombre de FLOPS pour les opérations scalaires :

Calculer le nombre de FLOPS pour les opérations vectorielles en double précision :

Calculer le nombre de FLOPS pour les opérations vectorielles en simple précision :

Application sur la famille Bloomfield[modifier | modifier le code]

Ici, et . La formule dépend uniquement de la fréquence du processeur.

Le processeur le moins puissant de cette famille est le "Intel® Core™ i7-920" (identique au "Intel® Xeon® Processor W3520") cadencé à 2.66 GHz (mode turbo 2.93 GHz).

Puissance de calcul du Intel® Core™ i7-920
Opération flottante Puissance en GFLOPS
Mode normal Mode turbo
SSE / SSE2 / SSE3 scalaire 21.28 23.44
SSE2 / SSE3 / SSE4.1 vectoriel (DP) 42.56 46.88
SSE / SSE2 / SSE3 / SSE4.1 vectoriel (SP) 85.12 93.76

Le processeur le plus puissant de cette famille est le "Intel® Core™ i7-975" (identique au "Intel® Xeon® Processor W3580") cadencé à 3.33 GHz (mode turbo 3.60 GHz).

Puissance de calcul du Intel® Core™ i7-975
Opération flottante Puissance en GFLOPS
Mode normal Mode turbo
SSE / SSE2 / SSE3 scalaire 26.64 28.80
SSE2 / SSE3 / SSE4.1 vectoriel (DP) 53.28 57.60
SSE / SSE2 / SSE3 / SSE4.1 vectoriel (SP) 106.56 115.20

Application sur la famille Lynnfield[modifier | modifier le code]

Ici, . La formule dépend donc de l'implémentation de l'HTT et de la fréquence du processeur.

Le processeur le moins puissant de cette famille est le "Intel® Xeon® Processor X3430" cadencé à 2.40 GHz (mode turbo 2.80 GHz) sans la technologie HyperThreading.

Puissance de calcul du Intel® Xeon® Processor X3430
Opération flottante Puissance en GFLOPS
Mode normal Mode turbo
SSE / SSE2 / SSE3 scalaire 9.60 11.20
SSE2 / SSE3 / SSE4.1 vectoriel (DP) 19.20 22.40
SSE / SSE2 / SSE3 / SSE4.1 vectoriel (SP) 38.40 44.80

Le processeur le plus puissant de cette famille est le "Intel® Core™ i7-880" (identique au "Intel® Xeon® Processor X3480") cadencé à 3.06 GHz (mode turbo 3.73 GHz) avec la technologie HyperThreading.

Puissance de calcul du "Intel® Core™ i7-880
Opération flottante Puissance en GFLOPS
Mode normal Mode turbo
SSE / SSE2 / SSE3 scalaire 24.48 29.84
SSE2 / SSE3 / SSE4.1 vectoriel (DP) 48.96 59.68
SSE / SSE2 / SSE3 / SSE4.1 vectoriel (SP) 97.92 119.36

Application sur la famille Gainestown (ou Nehalem-EP)[modifier | modifier le code]

Le processeur le moins puissant de cette famille est le "Intel® Xeon® Processor E5502" cadencé à 1.86 GHz (pas de mode turbo) avec deux cœurs sans HTT.

Puissance de calcul du Intel® Xeon® Processor E5502
Opération flottante Puissance en GFLOPS
SSE / SSE2 / SSE3 scalaire 3.72
SSE2 / SSE3 / SSE4.1 vectoriel (DP) 7.44
SSE / SSE2 / SSE3 / SSE4.1 vectoriel (SP) 14.88

Le processeur le plus puissant de cette famille est le "Intel® Xeon® Processor W5590" cadencé à 3.33 GHz (mode turbo 3.60 GHz) avec quatre cœurs avec HTT.

Puissance de calcul du Intel® Xeon® Processor W5590
Opération flottante Puissance en GFLOPS
Mode normal Mode turbo
SSE / SSE2 / SSE3 scalaire 26.64 28.80
SSE2 / SSE3 / SSE4.1 vectoriel (DP) 53.28 57.60
SSE / SSE2 / SSE3 / SSE4.1 vectoriel (SP) 106.56 115.20

Application sur la famille Beckton[modifier | modifier le code]

Le processeur le moins puissant de cette famille est le "Intel® Xeon® E7520" cadencé à 1.87 GHz (pas de mode turbo) avec quatre cœurs avec HTT.

Puissance de calcul du Intel® Xeon® E7520
Opération flottante Puissance en GFLOPS
SSE / SSE2 / SSE3 scalaire 14.96
SSE2 / SSE3 / SSE4.1 vectoriel (DP) 29.92
SSE / SSE2 / SSE3 / SSE4.1 vectoriel (SP) 59.84

Le processeur le plus puissant de cette famille est le "Intel® Xeon® X7560" cadencé à 2.27 GHz (mode turbo 2.67 GHz) avec huit cœurs avec HTT.

Puissance de calcul du Intel® Xeon® X7560
Opération flottante Puissance en GFLOPS
Mode normal Mode turbo
SSE / SSE2 / SSE3 scalaire 36.32 42.72
SSE2 / SSE3 / SSE4.1 vectoriel (DP) 72.64 85.44
SSE / SSE2 / SSE3 / SSE4.1 vectoriel (SP) 145.28 170.88

Application sur la famille Clarksfield[modifier | modifier le code]

Ici, et . La formule dépend uniquement de la fréquence du processeur.

Le processeur le moins puissant de cette famille est le "Intel® Core™ i7-720QM" cadencé à 1.60 GHz (mode turbo 2.80 GHz).

Puissance de calcul du Intel® Core™ i7-720QM
Opération flottante Puissance en GFLOPS
Mode normal Mode turbo
SSE / SSE2 / SSE3 scalaire 6.40 11.20
SSE2 / SSE3 / SSE4.1 vectoriel (DP) 12.80 22.40
SSE / SSE2 / SSE3 / SSE4.1 vectoriel (SP) 25.60 44.80

Le processeur le plus puissant de cette famille est le "Intel® Core™ i7-940XM Extreme Edition" cadencé à 2.13 GHz (mode turbo 3.33 GHz).

Puissance de calcul du Intel® Core™ i7-940XM Extreme Edition
Opération flottante Puissance en GFLOPS
Mode normal Mode turbo
SSE / SSE2 / SSE3 scalaire 8.52 13.32
SSE2 / SSE3 / SSE4.1 vectoriel (DP) 17.04 26.64
SSE / SSE2 / SSE3 / SSE4.1 vectoriel (SP) 34.08 53.28

Application sur la famille Jasper Forest[modifier | modifier le code]

Le processeur le moins puissant de cette famille est le "Intel® Xeon® LC3518" cadencé à 1.73 GHz (pas de mode turbo) avec un cœur pas d'HTT.

Puissance de calcul du Intel® Xeon® LC3518
Opération flottante Puissance en GFLOPS
SSE / SSE2 / SSE3 scalaire 1.73
SSE2 / SSE3 / SSE4.1 vectoriel (DP) 3.46
SSE / SSE2 / SSE3 / SSE4.1 vectoriel (SP) 6.92

Le processeur le plus puissant de cette famille est le "Intel® Xeon® EC5549" cadencé à 2.53 GHz (mode turbo 2.93 GHz) avec quatre cœurs et HTT.

Puissance de calcul du Intel® Xeon® EC5549
Opération flottante Puissance en GFLOPS
Mode normal Mode turbo
SSE / SSE2 / SSE3 scalaire 20.24 23.44
SSE2 / SSE3 / SSE4.1 vectoriel (DP) 40.48 46.88
SSE / SSE2 / SSE3 / SSE4.1 vectoriel (SP) 80.96 93.76

Westmere Core (1st generation)[modifier | modifier le code]

Westmere est une deuxième version de Nehalem avec quelques améliorations. En particulier, des processeurs avec six et dix cœurs. La famille implémente deux jeux d'instructions : AES-NI et CLMUL qui n'apporte aucun changement sur les opérations à virgule flottante.

Les formules et les jeux d'instruction sont identiques à la génération sœur Nehalem.

Application sur la famille Westmere-EX[modifier | modifier le code]

Le processeur le moins puissant de cette famille est le "Intel® Xeon® Processor E7-2803" cadencé à 1.73 GHz (pas de mode turbo) avec six cœurs et HTT.

Puissance de calcul du Intel® Xeon® Processor E7-2803
Opération flottante Puissance en GFLOPS
SSE / SSE2 / SSE3 scalaire 20.76
SSE2 / SSE3 / SSE4.1 vectoriel (DP) 41.52
SSE / SSE2 / SSE3 / SSE4.1 vectoriel (SP) 83.04

Le processeur le plus puissant de cette famille est le "Intel® Xeon® Processor E7-8870" (identique au "Intel® Xeon® Processor E7-4870" et au "Intel® Xeon® Processor E7-2870") cadencé à 2.40 GHz (mode turbo 2.80 GHz) avec dix cœurs et HTT.

Puissance de calcul du Intel® Xeon® Processor E7-8870
Opération flottante Puissance en GFLOPS
Mode normal Mode turbo
SSE / SSE2 / SSE3 scalaire 48.00 56.00
SSE2 / SSE3 / SSE4.1 vectoriel (DP) 96.00 112.00
SSE / SSE2 / SSE3 / SSE4.1 vectoriel (SP) 192.00 224.00

Application sur la famille Westmere-EP[modifier | modifier le code]

Le processeur le moins puissant de cette famille est le "Intel® Xeon® L5603" cadencé à 1.60 GHz (pas de mode turbo) avec quatre cœurs et sans HTT.

Puissance de calcul du Intel® Xeon® L5603
Opération flottante Puissance en GFLOPS
SSE / SSE2 / SSE3 scalaire 6.40
SSE2 / SSE3 / SSE4.1 vectoriel (DP) 12.80
SSE / SSE2 / SSE3 / SSE4.1 vectoriel (SP) 25.60

Le processeur le plus puissant de cette famille est le "Intel® Xeon® W3690" (identique au "Intel® Core™ i7-990X Processor Extreme Edition") cadencé à 3.46 GHz (mode turbo 3.73 GHz) avec six cœurs et HTT.

Puissance de calcul du Intel® Xeon® Processor W3690
Opération flottante Puissance en GFLOPS
Mode normal Mode turbo
SSE / SSE2 / SSE3 scalaire 41.52 44.76
SSE2 / SSE3 / SSE4.1 vectoriel (DP) 83.04 89.52
SSE / SSE2 / SSE3 / SSE4.1 vectoriel (SP) 166.08 179.04

Application sur la famille Clarkdale[modifier | modifier le code]

Ici, . Les formules dépendent donc de l'implémentation de l'HTT et de la fréquence du processeur.

Le processeur le moins puissant de cette famille est le "Intel® Xeon® L3403" cadencé à 2.00 GHz (mode turbo inconnu) avec deux cœurs et sans HTT.

Puissance de calcul du Intel® Xeon® L3403
Opération flottante Puissance en GFLOPS
SSE / SSE2 / SSE3 scalaire 4.00
SSE2 / SSE3 / SSE4.1 vectoriel (DP) 8.00
SSE / SSE2 / SSE3 / SSE4.1 vectoriel (SP) 16.00

Le processeur le plus puissant de cette famille est le "Intel® Core™ i5-680" cadencé à 3.60 GHz (mode turbo 3.86 GHz) avec deux cœurs et HTT.

Puissance de calcul du Intel® Core™ i5-680
Opération flottante Puissance en GFLOPS
Mode normal Mode turbo
SSE / SSE2 / SSE3 scalaire 14.40 15.44
SSE2 / SSE3 / SSE4.1 vectoriel (DP) 28.80 30.88
SSE / SSE2 / SSE3 / SSE4.1 vectoriel (SP) 57.60 61.76

Application sur la famille Arrandale[modifier | modifier le code]

Ici, . Les formules dépendent donc de l'implémentation de l'HTT et de la fréquence du processeur.

Le processeur le moins puissant de cette famille est le "Intel® Celeron® Processor U3400" (identique au "Intel® Celeron® Processor U3405") cadencé à 1.06 GHz (pas de mode turbo) avec deux cœurs et sans HTT.

Puissance de calcul du Intel® Celeron® Processor U3400
Opération flottante Puissance en GFLOPS
SSE / SSE2 / SSE3 scalaire 2.12
SSE2 / SSE3 / SSE4.1 vectoriel (DP) 4.24
SSE / SSE2 / SSE3 / SSE4.1 vectoriel (SP) 8.48

Le processeur le plus puissant de cette famille est le "Intel® Core™ i7-640M" cadencé à 2.80 GHz (mode turbo 3.46 GHz) avec deux cœurs et HTT.

Puissance de calcul du Intel® Core™ i7-640M
Opération flottante Puissance en GFLOPS
Mode normal Mode turbo
SSE / SSE2 / SSE3 scalaire 11.20 13.84
SSE2 / SSE3 / SSE4.1 vectoriel (DP) 22.40 27.68
SSE / SSE2 / SSE3 / SSE4.1 vectoriel (SP) 44.80 55.36

Sandy Bridge (2nd generation)[modifier | modifier le code]

La seconde génération de Intel Core implémente le nouveau jeu d'instruction AVX.

Calcul du multiplicateur spécifique au jeu d'instruction[modifier | modifier le code]

Le jeu d'instruction AVX est une extension aux jeux d'instruction SSE. Il permet d'effectuer les opérations classiques de SSE avec des vecteurs deux fois plus grand (256 bits à la place de 128 bits). Le jeu d'instruction n'apporte aucune opération flottante.

Le multiplicateur d'une opération entre deux vecteurs de taille 128 bits est identique en simple et double précision à celui de SSE2 / SSE3 / SSE4.1 soit 2 pour double précision et 4 pour simple précision

Le multiplicateur d'une opération entre deux vecteurs de taille 256 bits est doublé par rapport à celui de SSE2 / SSE3 / SSE4.1 soit 4 pour double précision et 8 pour simple précision.

Formules[modifier | modifier le code]

L'HTT est implémenté en partie et le nombre de cœurs est variable. Ainsi :

désigne le nombre de cœurs du processeur. Cette valeur ne peut être que 2 ou 4.

si la technologie HyperThreading est disponible sur le processeur (0, sinon)

Calculer le nombre de FLOPS pour les opérations scalaires :

Calculer le nombre de FLOPS pour les opérations vectorielles en double précision :

Calculer le nombre de FLOPS pour les opérations vectorielles en simple précision (et AVX 256 bits en double précision) :

Calculer le nombre de FLOPS pour les opérations vectorielles en simple précision d'AVX 256 bits :

Application : puissance MIN / MAX[modifier | modifier le code]

Le processeur le moins puissant de cette famille est le "Intel® Celeron® Processor 807UE" cadencé à 1.00 GHz (pas de mode turbo) avec un cœur et sans HTT.

Puissance de calcul du Intel® Celeron® Processor 807UE
Opération flottante Puissance en GFLOPS
SSE / SSE2 / SSE3 scalaire 1.00
SSE2 / SSE3 / SSE4.1 vectoriel (DP) 2.00
SSE / SSE2 / SSE3 / SSE4.1 vectoriel (SP) et AVX vectoriel DP 4.00
AVX vectoriel SP 8.00

Le processeur le plus puissant de cette famille est le "Intel® Xeon® Processor E5-2687W" cadencé à 3.10 GHz (mode turbo 3.80 GHz) avec huit cœurs et avec HTT.

Puissance de calcul du Intel® Xeon® Processor E5-2687W
Opération flottante Puissance en GFLOPS
Mode normal Mode turbo
SSE / SSE2 / SSE3 scalaire 49.60 60.80
SSE2 / SSE3 / SSE4.1 vectoriel (DP) 99.20 121.60
SSE / SSE2 / SSE3 / SSE4.1 vectoriel (SP) et AVX vectoriel DP 198.40 243.20
AVX vectoriel SP 396.80 486.40

Ivy Bridge (3rd generation)[modifier | modifier le code]

Le processeur le moins puissant de cette famille est le "Intel® Celeron® Processor 927UE" cadencé à 1.50 GHz (pas de mode turbo) avec un cœur et sans HTT.

Puissance de calcul du Intel® Celeron® Processor 927UE
Opération flottante Puissance en GFLOPS
SSE / SSE2 / SSE3 scalaire 1.50
SSE2 / SSE3 / SSE4.1 vectoriel (DP) 3.00
SSE / SSE2 / SSE3 / SSE4.1 vectoriel (SP) et AVX vectoriel DP 6.00
AVX vectoriel SP 12.00

Le processeur le plus puissant de cette famille est le "Intel® Xeon® Processor E7-8895 v2" cadencé à 2.80 GHz (mode turbo 3.60 GHz) avec quinze cœurs et avec HTT.

Puissance de calcul du Intel® Xeon® Processor E7-8895 v2
Opération flottante Puissance en GFLOPS
Mode normal Mode turbo
SSE / SSE2 / SSE3 scalaire 84.00 108.00
SSE2 / SSE3 / SSE4.1 vectoriel (DP) 168.00 216.00
SSE / SSE2 / SSE3 / SSE4.1 vectoriel (SP) et AVX vectoriel DP 336.00 432.00
AVX vectoriel SP 672.00 864.00

Haswell (4th generation)[modifier | modifier le code]

Le jeu d'instruction AVX2 est implémenté dans cette génération de processeur mais n'apporte pas de nouveautés sur les opérations à virgule flottante. Cependant, le jeu d'instruction FMA apporte des opérations multiples.

Calcul du multiplicateur spécifique au jeu d'instruction[modifier | modifier le code]

Le jeu d'instruction FMA permet d'effectuer en une instruction deux opérations : une multiplication et une addition par exemple. Ce genre d'opération est possible en mode scalaire et en mode vectoriel en simple et double précision sur des variables d'une taille de 256 bits pour le vectoriel et 64 bits pour le mode scalaire.