Différences

Ci-dessous, les différences entre deux révisions de la page.

Lien vers cette vue comparative

Les deux révisions précédentes Révision précédente
Prochaine révision
Révision précédente
Prochaine révision Les deux révisions suivantes
developpement:activites:qualification:c4140 [2019/07/31 17:26]
equemene
developpement:activites:qualification:c4140 [2019/07/31 17:56]
equemene [Conclusion : un monstre polyvalent (mais pour les nantis)]
Ligne 1: Ligne 1:
 ====== Le C4140 : la puissance de 1 baie dans 1U, et de quoi effacer les autres C41 ====== ====== Le C4140 : la puissance de 1 baie dans 1U, et de quoi effacer les autres C41 ======
 +
 +En un coup d'​oeil,​ la comparaison de performance entre la Nvidia Tesla V100, le Dell C4140 qui en possède quatre et un noeud de calcul traditionnel.
  
 {{ :​developpement:​activites:​qualification:​surveyc4140_fp3264.png?​600|}} {{ :​developpement:​activites:​qualification:​surveyc4140_fp3264.png?​600|}}
Ligne 100: Ligne 102:
  
 Le calcul de Pi par Monte Carlo est toujours le premier test que nous lançons dès qu'un périphérique de calcul quelconque se présente. Simple et aisément parallélisable,​ il "​colle"​ plutôt très bien à la géométrie calculatoire d'un "​moteur"​ de traitement d'​information. Le résultat se présente comme un nombre équivalent d'​itérations par seconde. A l'​automne dernier, avec la RTX 2080 Ti, nous avions franchi un cap : celui des 500 Gitops (Giga ITerative Operations Per Second), soit 500 milliards d'​itérations par seconde. 5 ans auparavant, nous en avions 10 fois moins. Et il y a 40 ans,  avec un 6809 et un Basic interprété nous offraient 50 itérations par seconde : soit un facteur de 10 milliards entre 1978 et 2018. Avec la Tesla V100, nous nous attendions à dépasser 600 Gitops. C'est chose faite. Par contre, nous ne nous attentions pas à "​mettre"​ un facteur 3 à la Tesla P100 ! En double précision, étant donné que l'​essentiel de la "​charge"​ réside dans la génération de nombres aléatoires entiers sur 32 bits, les performances sont relativement comparables entre la simple et la double précision. Ce n'est pas le cas pour les GTX ou RTX, lesquelles "​conservent"​ une performance divisée par 20 pour des calculs doublant la précision. Le calcul de Pi par Monte Carlo est toujours le premier test que nous lançons dès qu'un périphérique de calcul quelconque se présente. Simple et aisément parallélisable,​ il "​colle"​ plutôt très bien à la géométrie calculatoire d'un "​moteur"​ de traitement d'​information. Le résultat se présente comme un nombre équivalent d'​itérations par seconde. A l'​automne dernier, avec la RTX 2080 Ti, nous avions franchi un cap : celui des 500 Gitops (Giga ITerative Operations Per Second), soit 500 milliards d'​itérations par seconde. 5 ans auparavant, nous en avions 10 fois moins. Et il y a 40 ans,  avec un 6809 et un Basic interprété nous offraient 50 itérations par seconde : soit un facteur de 10 milliards entre 1978 et 2018. Avec la Tesla V100, nous nous attendions à dépasser 600 Gitops. C'est chose faite. Par contre, nous ne nous attentions pas à "​mettre"​ un facteur 3 à la Tesla P100 ! En double précision, étant donné que l'​essentiel de la "​charge"​ réside dans la génération de nombres aléatoires entiers sur 32 bits, les performances sont relativement comparables entre la simple et la double précision. Ce n'est pas le cas pour les GTX ou RTX, lesquelles "​conservent"​ une performance divisée par 20 pour des calculs doublant la précision.
 +
 +{{ :​developpement:​activites:​qualification:​pi_c4140.png?​600 |}}
  
 Ce calcul simple nous offre un record, mais pas une "​première"​ ! Je recherche depuis longtemps un noeud (une machine à mémoire partagée) qui m'​offre une puissance supérieure à 1 Titops (soit 1000 milliards d'​itérations par seconde). En agrégeant la puissance de 2 RTX 2080 Ti, cela devait être possible à l'​automne 2018, mais mes versions Pthreads et MPI plafonnaient à 970 Gitops sans franchir ce plafond. Ici, en cumulant les 4 Tesla V100 du C4140, j'​obtiens près de 2.4 Titops : plafond pulvérisé. Je voulais aller sur la Lune, le C4140 m'​envoie vers Mars ! Ce calcul simple nous offre un record, mais pas une "​première"​ ! Je recherche depuis longtemps un noeud (une machine à mémoire partagée) qui m'​offre une puissance supérieure à 1 Titops (soit 1000 milliards d'​itérations par seconde). En agrégeant la puissance de 2 RTX 2080 Ti, cela devait être possible à l'​automne 2018, mais mes versions Pthreads et MPI plafonnaient à 970 Gitops sans franchir ce plafond. Ici, en cumulant les 4 Tesla V100 du C4140, j'​obtiens près de 2.4 Titops : plafond pulvérisé. Je voulais aller sur la Lune, le C4140 m'​envoie vers Mars !
Ligne 157: Ligne 161:
 ====== Conclusion : un monstre polyvalent (mais pour les nantis) ====== ====== Conclusion : un monstre polyvalent (mais pour les nantis) ======
  
-Il est clair que la mise à disposition de ce C4140 m'a réconcilié avec la série des C41. Exit les instabilités chroniques des C410X, terminé ces Xeon Phi inexploitables des C4130. Dans une unité de baie, il est possible de disposer de la puissance brute d'une baie entière de noeuds de calcul assez "​musclés",​ et ce pour un nombre croissant d'​applications dans de nombreux ​domaine.+Il est clair que la mise à disposition de ce C4140 m'a réconcilié avec la série des C41. Exit les instabilités chroniques des C410X, terminé ces Xeon Phi inexploitables des C4130. Dans une unité de baie, il est possible de disposer de la puissance brute d'une baie entière de noeuds de calcul assez "​musclés",​ et ce pour un nombre croissant d'​applications dans de nombreux ​domaines.
  
 Oui, la Nvidia Tesla V100 est un "​monstre",​ reléguant la précédente,​ la Tesla P100 (qui était déjà impressionnante en son temps) à un facteur 2. Si l'​efficacité en double précision est exigée, il n'y a pas d'​autre option. Le C4140, cette intégration de 4 Tesla V100 dans une unité de baie est un pari : en plaçant le ticket d'​entrée très haut (un ensemble à 45k€ minimum), il faut pouvoir justifier d'une utilisation efficace de tous ses composants et dans tous les cas. Malheureusement,​ les codes exploitant efficacement plusieurs GPU restent rares, et, quand ils le sont, leurs cas d'​usage anecdotiques. Oui, la Nvidia Tesla V100 est un "​monstre",​ reléguant la précédente,​ la Tesla P100 (qui était déjà impressionnante en son temps) à un facteur 2. Si l'​efficacité en double précision est exigée, il n'y a pas d'​autre option. Le C4140, cette intégration de 4 Tesla V100 dans une unité de baie est un pari : en plaçant le ticket d'​entrée très haut (un ensemble à 45k€ minimum), il faut pouvoir justifier d'une utilisation efficace de tous ses composants et dans tous les cas. Malheureusement,​ les codes exploitant efficacement plusieurs GPU restent rares, et, quand ils le sont, leurs cas d'​usage anecdotiques.
developpement/activites/qualification/c4140.txt · Dernière modification: 2019/08/02 17:09 par equemene