Différences

Ci-dessous, les différences entre deux révisions de la page.

Lien vers cette vue comparative

Les deux révisions précédentes Révision précédente
Prochaine révision
Révision précédente
Prochaine révision Les deux révisions suivantes
developpement:activites:qualification:c4140 [2019/07/31 17:22]
equemene [Comment la Tesla Volta V100 va-t-elle se comporter face à ces rivales de moins d'un an ?]
developpement:activites:qualification:c4140 [2019/07/31 17:56]
equemene [Conclusion : un monstre polyvalent (mais pour les nantis)]
Ligne 1: Ligne 1:
 ====== Le C4140 : la puissance de 1 baie dans 1U, et de quoi effacer les autres C41 ====== ====== Le C4140 : la puissance de 1 baie dans 1U, et de quoi effacer les autres C41 ======
 +
 +En un coup d'​oeil,​ la comparaison de performance entre la Nvidia Tesla V100, le Dell C4140 qui en possède quatre et un noeud de calcul traditionnel.
  
 {{ :​developpement:​activites:​qualification:​surveyc4140_fp3264.png?​600|}} {{ :​developpement:​activites:​qualification:​surveyc4140_fp3264.png?​600|}}
Ligne 86: Ligne 88:
  
 Impossible de démarrer notre évaluation par autre chose que la multiplication matrice-matrice,​ la "​source"​ de la puissance calculatoire des GPU ! Si vous en doutez, jetez donc un coup d'oeil sur la méthode classique de CGI (Computing Generated Image) par shadering et les opérations de transformations Model2World et World2View ! Là, nous constatons le bon considérable de la Tesla V100 face à la P100. Nous dépassons les 15 TFlops en FP32 et les 7.5 TFlops en FP64. C'est donc d'un facteur 2 que la V100 enfonce la P100 en simple et presque un facteur 3 en double précision. Si la RTX 2080 Ti résiste en simple, elle s'​effondre en double, laissant les Tesla dépasser les 2 TFlops. La Radeon VII se contente d'​approcher cette barrière sans la dépasser. Les processeurs traditionnels,​ même les plus récents et équipés des dernières unités vectorielles peinent à dépasser le TFlops en double précision. Définitivement,​ les Tesla règnent sans partage génération après génération sur ce segment du calcul grande précision... Impossible de démarrer notre évaluation par autre chose que la multiplication matrice-matrice,​ la "​source"​ de la puissance calculatoire des GPU ! Si vous en doutez, jetez donc un coup d'oeil sur la méthode classique de CGI (Computing Generated Image) par shadering et les opérations de transformations Model2World et World2View ! Là, nous constatons le bon considérable de la Tesla V100 face à la P100. Nous dépassons les 15 TFlops en FP32 et les 7.5 TFlops en FP64. C'est donc d'un facteur 2 que la V100 enfonce la P100 en simple et presque un facteur 3 en double précision. Si la RTX 2080 Ti résiste en simple, elle s'​effondre en double, laissant les Tesla dépasser les 2 TFlops. La Radeon VII se contente d'​approcher cette barrière sans la dépasser. Les processeurs traditionnels,​ même les plus récents et équipés des dernières unités vectorielles peinent à dépasser le TFlops en double précision. Définitivement,​ les Tesla règnent sans partage génération après génération sur ce segment du calcul grande précision...
 +
  
 {{ :​developpement:​activites:​qualification:​xgemm_c4140.png?​600|}} {{ :​developpement:​activites:​qualification:​xgemm_c4140.png?​600|}}
 +
  
 === BLAS : pour élargir le spectre des fonctions algébriques === === BLAS : pour élargir le spectre des fonctions algébriques ===
Ligne 93: Ligne 97:
 Le test suivant intégre 5 fonctions BLAS (xGEMV, xTRSV, xAXPY, xDNRM2, xSWAP pour les curieux) assemblées pour offrir un test consistant. Les familiers auront reconnus notamment la multiplication matrice-vecteur et la résolution de systèmed triangulaired. La Tesla V100 reste la première devant toutes les autres cartes, avec 25% de plus que la RTX 2080 Ti et plus d'un facteur 2 par rapport à la Tesla P100 (ce qui reste parfaitement cohérent). Les processeurs les plus performants restent au sol, avec des performances au moins 20 fois inférieures. Confirmation donc : les Tesla en général (et la V100 en particulier) règnent sans partage sur le calcul matriciel. Le test suivant intégre 5 fonctions BLAS (xGEMV, xTRSV, xAXPY, xDNRM2, xSWAP pour les curieux) assemblées pour offrir un test consistant. Les familiers auront reconnus notamment la multiplication matrice-vecteur et la résolution de systèmed triangulaired. La Tesla V100 reste la première devant toutes les autres cartes, avec 25% de plus que la RTX 2080 Ti et plus d'un facteur 2 par rapport à la Tesla P100 (ce qui reste parfaitement cohérent). Les processeurs les plus performants restent au sol, avec des performances au moins 20 fois inférieures. Confirmation donc : les Tesla en général (et la V100 en particulier) règnent sans partage sur le calcul matriciel.
  
-{{ :​developpement:​activites:​qualification:​xtrsv_c4140.png?​600|}} +{{ :​developpement:​activites:​qualification:​xtrsv_c4140.png?​600 |}}
  
-=== Pi le classique à gros grain, offrant record ​première ===+=== Pi Monte Carlo, ​le classique à gros grain, offrant record ​et première ===
  
 Le calcul de Pi par Monte Carlo est toujours le premier test que nous lançons dès qu'un périphérique de calcul quelconque se présente. Simple et aisément parallélisable,​ il "​colle"​ plutôt très bien à la géométrie calculatoire d'un "​moteur"​ de traitement d'​information. Le résultat se présente comme un nombre équivalent d'​itérations par seconde. A l'​automne dernier, avec la RTX 2080 Ti, nous avions franchi un cap : celui des 500 Gitops (Giga ITerative Operations Per Second), soit 500 milliards d'​itérations par seconde. 5 ans auparavant, nous en avions 10 fois moins. Et il y a 40 ans,  avec un 6809 et un Basic interprété nous offraient 50 itérations par seconde : soit un facteur de 10 milliards entre 1978 et 2018. Avec la Tesla V100, nous nous attendions à dépasser 600 Gitops. C'est chose faite. Par contre, nous ne nous attentions pas à "​mettre"​ un facteur 3 à la Tesla P100 ! En double précision, étant donné que l'​essentiel de la "​charge"​ réside dans la génération de nombres aléatoires entiers sur 32 bits, les performances sont relativement comparables entre la simple et la double précision. Ce n'est pas le cas pour les GTX ou RTX, lesquelles "​conservent"​ une performance divisée par 20 pour des calculs doublant la précision. Le calcul de Pi par Monte Carlo est toujours le premier test que nous lançons dès qu'un périphérique de calcul quelconque se présente. Simple et aisément parallélisable,​ il "​colle"​ plutôt très bien à la géométrie calculatoire d'un "​moteur"​ de traitement d'​information. Le résultat se présente comme un nombre équivalent d'​itérations par seconde. A l'​automne dernier, avec la RTX 2080 Ti, nous avions franchi un cap : celui des 500 Gitops (Giga ITerative Operations Per Second), soit 500 milliards d'​itérations par seconde. 5 ans auparavant, nous en avions 10 fois moins. Et il y a 40 ans,  avec un 6809 et un Basic interprété nous offraient 50 itérations par seconde : soit un facteur de 10 milliards entre 1978 et 2018. Avec la Tesla V100, nous nous attendions à dépasser 600 Gitops. C'est chose faite. Par contre, nous ne nous attentions pas à "​mettre"​ un facteur 3 à la Tesla P100 ! En double précision, étant donné que l'​essentiel de la "​charge"​ réside dans la génération de nombres aléatoires entiers sur 32 bits, les performances sont relativement comparables entre la simple et la double précision. Ce n'est pas le cas pour les GTX ou RTX, lesquelles "​conservent"​ une performance divisée par 20 pour des calculs doublant la précision.
  
-{{ :​developpement:​activites:​qualification:​pi_c4140.png?​600|}}+{{ :​developpement:​activites:​qualification:​pi_c4140.png?​600 |}}
  
 Ce calcul simple nous offre un record, mais pas une "​première"​ ! Je recherche depuis longtemps un noeud (une machine à mémoire partagée) qui m'​offre une puissance supérieure à 1 Titops (soit 1000 milliards d'​itérations par seconde). En agrégeant la puissance de 2 RTX 2080 Ti, cela devait être possible à l'​automne 2018, mais mes versions Pthreads et MPI plafonnaient à 970 Gitops sans franchir ce plafond. Ici, en cumulant les 4 Tesla V100 du C4140, j'​obtiens près de 2.4 Titops : plafond pulvérisé. Je voulais aller sur la Lune, le C4140 m'​envoie vers Mars ! Ce calcul simple nous offre un record, mais pas une "​première"​ ! Je recherche depuis longtemps un noeud (une machine à mémoire partagée) qui m'​offre une puissance supérieure à 1 Titops (soit 1000 milliards d'​itérations par seconde). En agrégeant la puissance de 2 RTX 2080 Ti, cela devait être possible à l'​automne 2018, mais mes versions Pthreads et MPI plafonnaient à 970 Gitops sans franchir ce plafond. Ici, en cumulant les 4 Tesla V100 du C4140, j'​obtiens près de 2.4 Titops : plafond pulvérisé. Je voulais aller sur la Lune, le C4140 m'​envoie vers Mars !
Ligne 158: Ligne 161:
 ====== Conclusion : un monstre polyvalent (mais pour les nantis) ====== ====== Conclusion : un monstre polyvalent (mais pour les nantis) ======
  
-Il est clair que la mise à disposition de ce C4140 m'a réconcilié avec la série des C41. Exit les instabilités chroniques des C410X, terminé ces Xeon Phi inexploitables des C4130. Dans une unité de baie, il est possible de disposer de la puissance brute d'une baie entière de noeuds de calcul assez "​musclés",​ et ce pour un nombre croissant d'​applications dans de nombreux ​domaine.+Il est clair que la mise à disposition de ce C4140 m'a réconcilié avec la série des C41. Exit les instabilités chroniques des C410X, terminé ces Xeon Phi inexploitables des C4130. Dans une unité de baie, il est possible de disposer de la puissance brute d'une baie entière de noeuds de calcul assez "​musclés",​ et ce pour un nombre croissant d'​applications dans de nombreux ​domaines.
  
 Oui, la Nvidia Tesla V100 est un "​monstre",​ reléguant la précédente,​ la Tesla P100 (qui était déjà impressionnante en son temps) à un facteur 2. Si l'​efficacité en double précision est exigée, il n'y a pas d'​autre option. Le C4140, cette intégration de 4 Tesla V100 dans une unité de baie est un pari : en plaçant le ticket d'​entrée très haut (un ensemble à 45k€ minimum), il faut pouvoir justifier d'une utilisation efficace de tous ses composants et dans tous les cas. Malheureusement,​ les codes exploitant efficacement plusieurs GPU restent rares, et, quand ils le sont, leurs cas d'​usage anecdotiques. Oui, la Nvidia Tesla V100 est un "​monstre",​ reléguant la précédente,​ la Tesla P100 (qui était déjà impressionnante en son temps) à un facteur 2. Si l'​efficacité en double précision est exigée, il n'y a pas d'​autre option. Le C4140, cette intégration de 4 Tesla V100 dans une unité de baie est un pari : en plaçant le ticket d'​entrée très haut (un ensemble à 45k€ minimum), il faut pouvoir justifier d'une utilisation efficace de tous ses composants et dans tous les cas. Malheureusement,​ les codes exploitant efficacement plusieurs GPU restent rares, et, quand ils le sont, leurs cas d'​usage anecdotiques.
developpement/activites/qualification/c4140.txt · Dernière modification: 2019/08/02 17:09 par equemene