developpement:activites:qualification:c4140

Différences

Ci-dessous, les différences entre deux révisions de la page.

--- developpement:activites:qualification:c4140 [2019/07/31 17:09]
equemene créée
+++ developpement:activites:qualification:c4140 [2019/07/31 17:56]
equemene [Conclusion : un monstre polyvalent (mais pour les nantis)]
@@ Ligne 1: / Ligne 1: @@
 ====== Le C4140 : la puissance de 1 baie dans 1U, et de quoi effacer les autres C41 ======
+En un coup d'oeil, la comparaison de performance entre la Nvidia Tesla V100, le Dell C4140 qui en possède quatre et un noeud de calcul traditionnel.
+{{ :developpement:activites:qualification:surveyc4140_fp3264.png?600|}}
+{{ :developpement:activites:qualification:surveyc4140_applications.png?600|}}
 ===== Introduction =====
@@ Ligne 31: / Ligne 37: @@
 ==== SIDUS over Internet : pour ne plus jamais installer d'OS ====
-Au delà du simple test de matériel, la mise à disposition d'un C4140 dans les locaux de Dell à Austin a donc été l'occasion de tester l'approche SIDUS (Single Instance Distributing Universal System) distante. Dans sa dixième année d'exploitation au Centre Blaise Pascal à l'ENS-Lyon, dans sa huitième année au mésocentre lyonnais PSMN hébergé à l'ENS-Lyon sur plus de 500 noeuds, cette approche met à disposition une racine de système d'un unique NFS. Cela fonctionne comme avec un LiveCD en réseau, mais c'est reconfigurable "à chaud" et cela n'impose pas de "boot storm" au démarrage d'un cluster complet.
+Au delà du simple test de matériel, la mise à disposition d'un C4140 dans les locaux de Dell à Austin a donc été l'occasion de tester l'approche [[developpement:productions:sidus|SIDUS (Single Instance Distributing Universal System)]] distante. Dans sa dixième année d'exploitation au Centre Blaise Pascal à l'ENS-Lyon, dans sa huitième année au mésocentre lyonnais PSMN hébergé à l'ENS-Lyon sur plus de 500 noeuds, cette approche met à disposition une racine de système d'un unique NFS. Cela fonctionne comme avec un LiveCD en réseau, mais c'est reconfigurable "à chaud" et cela n'impose pas de "boot storm" au démarrage d'un cluster complet.
 J'ai toujours détesté cuisiner chez les autres : en effet, dans un environnement "maîtrisé" (au minimum), les facteurs de variabilité dans les expériences sont légions. Mais exploiter un OS installé par un tiers, qui plus est, un intégrateur avec ses recettes "maison", cela ne me convenait pas spécialement. Dell m'a alors proposé la mise à disposition directe d'une machine avec son Idrac pour y installer ce que je voulais. Dans mon optique, c'était aussi l'occasion de tester SIDUS dans un environnement plutôt très contraint.
@@ Ligne 45: / Ligne 51: @@
 L'examen de la machine commence alors par les traditionnels lscpu, lspci, lshw et, "last but not least" nvidia-smi. Pour la partie CPU, le noeud est équipé de 2 sockets Xeon Gold 6148 cadencés à 2400 MHz et disposant de 20 coeurs chacune.
 Pour la partie accélérateur, le nvidia-smi offre la délicate vision de 4 Tesla V100 équipée chacune de 32 GB de RAM. Bref, sur les 512GB de RAM dont la machine est équipée, 1/4 est située dans les accélérateurs : simplement monstrueux.
+{{ :developpement:activites:qualification:nvidia-smi_c4140.png?600 |}}
 ===== Le banc d'essai logiciel : pour se démarquer du LinPack =====
@@ Ligne 80: / Ligne 88: @@
 Impossible de démarrer notre évaluation par autre chose que la multiplication matrice-matrice, la "source" de la puissance calculatoire des GPU ! Si vous en doutez, jetez donc un coup d'oeil sur la méthode classique de CGI (Computing Generated Image) par shadering et les opérations de transformations Model2World et World2View ! Là, nous constatons le bon considérable de la Tesla V100 face à la P100. Nous dépassons les 15 TFlops en FP32 et les 7.5 TFlops en FP64. C'est donc d'un facteur 2 que la V100 enfonce la P100 en simple et presque un facteur 3 en double précision. Si la RTX 2080 Ti résiste en simple, elle s'effondre en double, laissant les Tesla dépasser les 2 TFlops. La Radeon VII se contente d'approcher cette barrière sans la dépasser. Les processeurs traditionnels, même les plus récents et équipés des dernières unités vectorielles peinent à dépasser le TFlops en double précision. Définitivement, les Tesla règnent sans partage génération après génération sur ce segment du calcul grande précision...
+{{ :developpement:activites:qualification:xgemm_c4140.png?600|}}
 === BLAS : pour élargir le spectre des fonctions algébriques ===
@@ Ligne 85: / Ligne 97: @@
 Le test suivant intégre 5 fonctions BLAS (xGEMV, xTRSV, xAXPY, xDNRM2, xSWAP pour les curieux) assemblées pour offrir un test consistant. Les familiers auront reconnus notamment la multiplication matrice-vecteur et la résolution de systèmed triangulaired. La Tesla V100 reste la première devant toutes les autres cartes, avec 25% de plus que la RTX 2080 Ti et plus d'un facteur 2 par rapport à la Tesla P100 (ce qui reste parfaitement cohérent). Les processeurs les plus performants restent au sol, avec des performances au moins 20 fois inférieures. Confirmation donc : les Tesla en général (et la V100 en particulier) règnent sans partage sur le calcul matriciel.
-=== Pi : le classique à gros grain, offrant record & première ===
+{{ :developpement:activites:qualification:xtrsv_c4140.png?600 |}}
+=== Pi Monte Carlo, le classique à gros grain, offrant record et première ===
 Le calcul de Pi par Monte Carlo est toujours le premier test que nous lançons dès qu'un périphérique de calcul quelconque se présente. Simple et aisément parallélisable, il "colle" plutôt très bien à la géométrie calculatoire d'un "moteur" de traitement d'information. Le résultat se présente comme un nombre équivalent d'itérations par seconde. A l'automne dernier, avec la RTX 2080 Ti, nous avions franchi un cap : celui des 500 Gitops (Giga ITerative Operations Per Second), soit 500 milliards d'itérations par seconde. 5 ans auparavant, nous en avions 10 fois moins. Et il y a 40 ans,  avec un 6809 et un Basic interprété nous offraient 50 itérations par seconde : soit un facteur de 10 milliards entre 1978 et 2018. Avec la Tesla V100, nous nous attendions à dépasser 600 Gitops. C'est chose faite. Par contre, nous ne nous attentions pas à "mettre" un facteur 3 à la Tesla P100 ! En double précision, étant donné que l'essentiel de la "charge" réside dans la génération de nombres aléatoires entiers sur 32 bits, les performances sont relativement comparables entre la simple et la double précision. Ce n'est pas le cas pour les GTX ou RTX, lesquelles "conservent" une performance divisée par 20 pour des calculs doublant la précision.
+{{ :developpement:activites:qualification:pi_c4140.png?600 |}}
 Ce calcul simple nous offre un record, mais pas une "première" ! Je recherche depuis longtemps un noeud (une machine à mémoire partagée) qui m'offre une puissance supérieure à 1 Titops (soit 1000 milliards d'itérations par seconde). En agrégeant la puissance de 2 RTX 2080 Ti, cela devait être possible à l'automne 2018, mais mes versions Pthreads et MPI plafonnaient à 970 Gitops sans franchir ce plafond. Ici, en cumulant les 4 Tesla V100 du C4140, j'obtiens près de 2.4 Titops : plafond pulvérisé. Je voulais aller sur la Lune, le C4140 m'envoie vers Mars !
@@ Ligne 94: / Ligne 110: @@
 Pour le code N-Corps, je m'attendais là encore à une démonstration. J'ai cependant été surpris lors de mes premières investigations. Généralement, je prenais comme référence un système de 32768 particules en intéraction gravitationnelle. Il est apparu que les cartes récentes n'atteignaient pas leur optimum de performance avec si peu de particules : j'ai donc "poussé" le nombre de particules à 1048576. Pour la petite histoire, à chaque pas, le nombre d'intéractions à cumuler dépasse les 1000 milliards, soit plus que le nombre de cellules que nous avons dans notre corps. Et une Tesla V100 effectue chaque pas en 19 secondes. Nous constatons par contre une explosion du ratio entre simple et double précision, même pour les Tesla ! Et, chose intéressante : si la Radeon VII reste un challenger crédible en double précision, Tesla V100 est toujours première.
+{{ :developpement:activites:qualification:nbody_c4140.png?600|}}
 === Splutter : une exploitation "atomique" moins efficace ===
@@ Ligne 100: / Ligne 118: @@
 C'est donc là que s'arrête les tests "maison" que j'exploite chaque fois que je souhaite comparer les "moteurs" de calcul scientifique. La Tesla V100 tient donc toutes ses promesses : elle offre un gain de performances cohérent par rapport à son aînée, la Tesla P100 et elle reste complètement hors d'atteinte de ses consoeurs dédiées au jeu. Seule la Radeon VII la talonne en double précision sur un test et la surclasse sur un autre.
+{{ :developpement:activites:qualification:splutter_c4140.png?600|}}
 Passons maintenant aux programmes "métier".
@@ Ligne 112: / Ligne 132: @@
 Néanmoins, si nous analysons la seconde exécution (accélérateur et un unique coeur utilisé), les performances restent comparables entre GTX 1080 Ti et Tesla P100. Cependant, la Tesla V100 accuse le coup : de 80% au dessus de la P100, elle se retrouve 40% au dessus. Face à la RTX 2080 Ti, elle passe de 40% au dessus à 20%. En fait, si nous avons une telle différence de puissance entre les configurations de la Tesla P100 et la Tesla V100, c'est essentiellement à cause de la différence des processeurs ! Il suffit de regarder la comparaison entre exécutions uniquement sur processeurs pour s'en convaincre ! A noter pour finir que le C4140 uniquement avec tous ses coeurs de processeur fait aussi bien qu'une unique Tesla V100 sur un coeur.
+{{ :developpement:activites:qualification:gromacs_c4140.png?600|}}
 Ainsi, quand un code "métier" est exploité comme comparateur entre accélérateur, veiller à ce que les configurations CPU soient comparables est une salutaire précaution !
@@ Ligne 122: / Ligne 144: @@
 Nos premières analyses confirment ce que nous avions observé sur Gromacs : Tensorflow est aussi un programme hybride et donc la part de performance à associer aux coeurs CPU n'est pas à négliger. Mais l'addition d'un accélérateur offre un gain très substantiel : 12x pour une GTX 1080Ti, 14x pour une RTX 2080Ti, 16x pour une Tesla P100 mais 25x pour une Tesla V100. Nous aurions pu nous attendre à mieux dans son match avec la P100, surtout étant donné la différence des processeurs de leurs systèmes respectifs, mais les mesures sont là !
+{{ :developpement:activites:qualification:tensorflow_c4140.png?600|}}
 Bien qu'il existe dans le dossier du test une version multiGPU de l'apprentissage, elle ne s'exécute pas correctement. Ainsi se termine notre test en Deep Learning. La Tesla V100 reste la meilleure carte (et de loin) pour des activités de Depp Learning, surtout si une grosse quantité de mémoire est requise pour "charger" les bases d'apprentissage.
@@ Ligne 130: / Ligne 154: @@
 Les 7 tests ont donc été exécutés 10 fois dans 5 configurations "système" différentes : pour les GTX 1080Ti, RTX 2080Ti, Tesla P100, Tesla V100 et les 4 Tesla V100 du C4140. Les valeurs ont été renormalisées à la Tesla P100 (la configuration "classique" présentée dans les benchmarks du site).
+{{ :developpement:activites:qualification:hoomd_c4140.png?600|}}
 Quelles conclusions pouvons-nous tirer de ces évaluations ? Tout d'abord, Les cartes de gamer GTX et RTX sont très rarement compétitives dans ce cas d'exploitation : la RTX ne dépasse la Tesla P100 que dans un cas et reste équivalente dans 2 autres. La Tesla V100 l'emporte à chaque fois, offrant au moins un facteur 2 dans 3 cas, au pire seulement 40% supplémentaire. La version multiGPU est rarement compétitive : 50% supplémentaire pour 4x plus de puissance brute, c'est assez faible... Dans deux cas, le multiGPU est franchement contre productif. Il reste cependant un cas dans lequel la présence de 4 cartes offre un gain de 3.57 : c'est très raisonnable ! Ce test Hoomd pourrait à lui seul résumer toute la difficulté de comparer les systèmes informatiques : il ne suffit que de donner une liste d'applications à comparer, il faut également les cas d'usage les plus significatifs ! Ainsi, en ne testant que "Hexagon", nous en déduisions que le multiGPU était impressionnant alors que c'est l'exception qui confirme la règle.
@@ Ligne 135: / Ligne 161: @@
 ====== Conclusion : un monstre polyvalent (mais pour les nantis) ======
-Il est clair que la mise à disposition de ce C4140 m'a réconcilié avec la série des C41. Exit les instabilités chroniques des C410X, terminé ces Xeon Phi inexploitables des C4130. Dans une unité de baie, il est possible de disposer de la puissance brute d'une baie entière de noeuds de calcul assez "musclés", et ce pour un nombre croissant d'applications dans de nombreux domaine.
+Il est clair que la mise à disposition de ce C4140 m'a réconcilié avec la série des C41. Exit les instabilités chroniques des C410X, terminé ces Xeon Phi inexploitables des C4130. Dans une unité de baie, il est possible de disposer de la puissance brute d'une baie entière de noeuds de calcul assez "musclés", et ce pour un nombre croissant d'applications dans de nombreux domaines.
 Oui, la Nvidia Tesla V100 est un "monstre", reléguant la précédente, la Tesla P100 (qui était déjà impressionnante en son temps) à un facteur 2. Si l'efficacité en double précision est exigée, il n'y a pas d'autre option. Le C4140, cette intégration de 4 Tesla V100 dans une unité de baie est un pari : en plaçant le ticket d'entrée très haut (un ensemble à 45k€ minimum), il faut pouvoir justifier d'une utilisation efficace de tous ses composants et dans tous les cas. Malheureusement, les codes exploitant efficacement plusieurs GPU restent rares, et, quand ils le sont, leurs cas d'usage anecdotiques.

developpement/activites/qualification/c4140.txt · Dernière modification: 2019/08/02 17:09 par equemene

Rechercher

Translations

Navigation

Piste:

Boîte à outils