Différences

Ci-dessous, les différences entre deux révisions de la page.

Lien vers cette vue comparative

Les deux révisions précédentes Révision précédente
Prochaine révision
Révision précédente
Dernière révision Les deux révisions suivantes
ressources:gridengine4cbp [2015/09/02 08:33]
equemene [Lancer un calcul autonome (mode batch)]
ressources:gridengine4cbp [2020/12/17 19:03]
equemene [Introduction]
Ligne 1: Ligne 1:
 ====== Utilisation du Cluster (et GridEngine) au Centre Blaise Pascal ====== ====== Utilisation du Cluster (et GridEngine) au Centre Blaise Pascal ======
  
 +<note important>​Avant de lancer votre calcul, ayez un aperçu de l'​[[http://​styx.cbp.ens-lyon.fr/​ganglia/?​r=hour&​c=Nodes|état des noeuds]] (site accessible seulement sur site)</​note>​
 ===== Ce qu'il faut retenir ! ===== ===== Ce qu'il faut retenir ! =====
  
-  * pour se connecter sur la passerelle de cluster : <​code>​ssh <​login>​@slethe.cbp.ens-lyon.fr</​code>​+  * pour se connecter sur la passerelle de cluster : <​code>​ssh <​login>​@lethe.cbp.ens-lyon.fr</​code>​
   * pour connaître les noeuds disponibles : ''​qhost''​   * pour connaître les noeuds disponibles : ''​qhost''​
   * pour connaître l'​état des tâches : ''​qstat''​   * pour connaître l'​état des tâches : ''​qstat''​
Ligne 26: Ligne 27:
 dispose d'une infrastructure de production]]. dispose d'une infrastructure de production]].
  
-Les équipements mis à disposition ​76 noeuds dans groupes différents pour un total de 624 coeurs et 1856 Go de RAM.+Les équipements mis à disposition ​derrière le soumissionneur GridEngine se composent de 166 noeuds dans groupes différents pour un total de 1416 coeurs et 6016 Go de RAM. 
 + 
 +Sur les 72 noeuds R410 arrivés entre le printemps 2014 et l'​automne 2015, tous sont disponibles via le gestionnaire GridEngine. Les 16 C6100 agrègent leur stockage individuel pour servir l'​espace partagé ''/​distonet''​. Les SL230 ne disposent ​
  
-Les noeuds v40z et v20z ont été arrêtés puis déposés suite à l'​arrivée de Equip@Meso : ils ont été remplacés par quelques x41z supplémentaires durant l'​été 2013. Les noeuds R410 sont arrivés au printemps, remplaçant les v20z version 2. Les noeuds C6100 sont ds équipements de prêt connectés un chassis hôte de GPGPU C410X. 
  
 | **Cluster** | **Marque** | **Modèle** | **Noeuds** | **Coeurs /Noeud** |**RAM /​Noeud**|**Réseau GE**|**Réseau IB**|**Total Coeurs**|**Total RAM**| | **Cluster** | **Marque** | **Modèle** | **Noeuds** | **Coeurs /Noeud** |**RAM /​Noeud**|**Réseau GE**|**Réseau IB**|**Total Coeurs**|**Total RAM**|
-| **r410** | Dell  | R410 | 48 | 8 | 24Go | GE | IB | 384 1.1 To +| **r422** | Supermicro ​ | R422 | 64 | 8 | 48 Go | GE | IB QDR | 512 | 3072 Go | 
-| **x41z** | Sunfire ​ ​| ​x41z 24 | 8 | 16Go ou 32Go | GE | IB | 192 512 Go | +| **r410qdr** | Dell  | R410 | 64 | 8 | 24 Go | GE | IB QDR 512 1536 Go 
-| **c6100** | Dell  | C6100 | | 12 | 48Go | GE | IB | 48 | 192 Go |+| **r410ddr** | Dell  ​| ​R410 | 8 | 24 Go | GE | IB DDR 32 96 Go | 
 +| **c61** | Dell  | C6100 | 16 | 12 | 24 Go | GE | IB QDR | 192 | 384 Go | 
 +| **c82** | Dell  | C8220 | 4 | 16 | 64 Go | GE | IB QDR | 64 | 256 Go | 
 +| **sl230** | HP  | SL230 | 8 | 8 | 64 Go | GE | IB FDR | 64 | 512 Go | 
 +| **x41z** | Sun  | x41z | 4 | 8 | 32 Go | GE | IB DDR | 64 | 128 Go | 
 +| **x4500** | Sun  | x4500 | 2 | 4 | 16 Go | GE | IB SDR | 16 | 32 Go |
  
 Ces clusters partagent exactement la même image de système, [[developpement:​productions:​sidus|Sidus]] (pour Single Instance Distributing Universal System), un système complet Debian intégrant tous les paquets scientifiques ainsi que de nombreux paquets de développement. Ces clusters partagent exactement la même image de système, [[developpement:​productions:​sidus|Sidus]] (pour Single Instance Distributing Universal System), un système complet Debian intégrant tous les paquets scientifiques ainsi que de nombreux paquets de développement.
Ligne 48: Ligne 55:
 ===== Dossiers personnels ===== ===== Dossiers personnels =====
  
-Sur la passerelle ''​lethe'',​ chaque utilisateur dispose de espaces utilisateurs :+Sur la passerelle ''​lethe'',​ chaque utilisateur dispose de espaces utilisateurs :
   * un local dans ''/​home/<​login>''​   * un local dans ''/​home/<​login>''​
   * un général dans ''/​cbp/<​login>''​   * un général dans ''/​cbp/<​login>''​
   * un rapide dans ''/​scratch''​   * un rapide dans ''/​scratch''​
 +  * un projet dans ''/​projects''​
  
-Le second correspond à l'​espace utilisateur de ressources informatiques du CBP lorsqu'​il se connecte : +Le second, ''/​cbp/<​login>/'' ​correspond à l'​espace utilisateur de ressources informatiques du CBP lorsqu'​il se connecte : 
-  * aux 21 stations de travail de la salle libre service+  * aux 28 stations de travail de la salle libre service
   * à la station graphique 3D de la petite salle de réunion   * à la station graphique 3D de la petite salle de réunion
   * aux machines à la demande SIDUS (Single Instance Distributing Universal System)   * aux machines à la demande SIDUS (Single Instance Distributing Universal System)
Ligne 313: Ligne 321:
 La commande d'​examen des tâches en cours ''​qstat''​ permet ensuite de savoir que le job a bien été pris en compte. La commande d'​examen des tâches en cours ''​qstat''​ permet ensuite de savoir que le job a bien été pris en compte.
  
 +=== Récupérer les informations sur ses jobs exécutés ===
 +
 +Dans le fichier de batch (celui qui définit les commandes à exécuter avec la queue, l'​environnement,​ etc...) apparait le paramètre préfixé de ''​-N''​. Ce paramètre est très utile parce que, comme le précise les exemples ci-dessus, les sorties POSIX ''​stdout''​ et ''​stderr''​ sont sauvegardées dans ces fichiers.
 +
 +Ainsi, en exécutant l'​exemple ci-dessus, si son numéro de job était le 528491, les fichiers de sortie seraient les suivants :
 +  * ''​MyJob.o528491''​ pour la sortie standard ''​stdout'',​ l'​ensemble des messages du terminal
 +  * ''​MyJob.e528491''​ pour l'​erreur standard ''​stderr'',​ l'​ensemble des messages en erreur du terminal
  
 +En fouillant dans ces fichiers, il est possible de voir l'​évolution de l'​exécution de son job et ses erreurs au besoin. ​
ressources/gridengine4cbp.txt · Dernière modification: 2021/09/24 16:05 par equemene