Ci-dessous, les différences entre deux révisions de la page.
Les deux révisions précédentes Révision précédente Prochaine révision | Révision précédente | ||
ressources:gridengine4cbp [2015/09/01 17:55] equemene [Introduction] |
ressources:gridengine4cbp [2021/09/24 16:05] (Version actuelle) equemene [Introduction] |
||
---|---|---|---|
Ligne 1: | Ligne 1: | ||
====== Utilisation du Cluster (et GridEngine) au Centre Blaise Pascal ====== | ====== Utilisation du Cluster (et GridEngine) au Centre Blaise Pascal ====== | ||
+ | <note important>Avant de lancer votre calcul, ayez un aperçu de l'[[http://styx.cbp.ens-lyon.fr/ganglia/?r=hour&c=Nodes|état des noeuds]] (site accessible seulement sur site)</note> | ||
===== Ce qu'il faut retenir ! ===== | ===== Ce qu'il faut retenir ! ===== | ||
- | * pour se connecter sur la passerelle de cluster : <code>ssh <login>@slethe.cbp.ens-lyon.fr</code> | + | * pour se connecter sur la passerelle de cluster : <code>ssh <login>@lethe.cbp.ens-lyon.fr</code> |
* pour connaître les noeuds disponibles : ''qhost'' | * pour connaître les noeuds disponibles : ''qhost'' | ||
* pour connaître l'état des tâches : ''qstat'' | * pour connaître l'état des tâches : ''qstat'' | ||
Ligne 26: | Ligne 27: | ||
dispose d'une infrastructure de production]]. | dispose d'une infrastructure de production]]. | ||
- | Les équipements mis à disposition 76 noeuds dans 3 groupes différents pour un total de 384 coeurs et 1248 Go de RAM. | + | Les équipements mis à disposition derrière le soumissionneur GridEngine se composent de 166 noeuds dans 8 groupes différents pour un total de 1416 coeurs et 6016 Go de RAM. |
- | Les noeuds v40z et v20z ont été arrêtés puis déposés suite à l'arrivée de Equip@Meso : ils ont été remplacés par quelques x41z supplémentaires durant l'été 2013. | + | Sur les 52 noeuds R410 arrivés entre le printemps 2014 et l'automne 2015, tous sont disponibles via le gestionnaire GridEngine. |
| **Cluster** | **Marque** | **Modèle** | **Noeuds** | **Coeurs /Noeud** |**RAM /Noeud**|**Réseau GE**|**Réseau IB**|**Total Coeurs**|**Total RAM**| | | **Cluster** | **Marque** | **Modèle** | **Noeuds** | **Coeurs /Noeud** |**RAM /Noeud**|**Réseau GE**|**Réseau IB**|**Total Coeurs**|**Total RAM**| | ||
- | | **r410** | Dell | R410 | 48 | 8 | 24Go | GE | IB | 384 | 1.1 To | | + | | **r410qdr** | Dell | R410 | 32 | 8 | 24 Go | GE | IB QDR | 256 | 1536 Go | |
- | | **x41z** | Sunfire | x41z | 24 | 8 | 16Go ou 32Go | GE | IB | 192 | 576 Go | | + | | **r410ddr** | Dell | R410 | 4 | 8 | 24 Go | GE | IB DDR | 32 | 96 Go | |
- | | **c6100** | Dell | C6100 | 4 | 12 | 48Go | GE | IB | 48 | 192 Go | | + | |
Ces clusters partagent exactement la même image de système, [[developpement:productions:sidus|Sidus]] (pour Single Instance Distributing Universal System), un système complet Debian intégrant tous les paquets scientifiques ainsi que de nombreux paquets de développement. | Ces clusters partagent exactement la même image de système, [[developpement:productions:sidus|Sidus]] (pour Single Instance Distributing Universal System), un système complet Debian intégrant tous les paquets scientifiques ainsi que de nombreux paquets de développement. | ||
Ligne 40: | Ligne 40: | ||
L'accès aux clusters se fait via la passerelle ''lethe.cbp.ens-lyon.fr'', par le protocole SSH :<code> | L'accès aux clusters se fait via la passerelle ''lethe.cbp.ens-lyon.fr'', par le protocole SSH :<code> | ||
- | ssh -X <login>@lethe.cbp.ens-lyon.fr</code> ou via x2go sur la même adresse. | + | ssh -X <login>@lethe.cbp.ens-lyon.fr</code> ou via [[http://wiki.x2go.org/doku.php|x2go]] sur la même adresse. Il est donc préalablement nécessaire d'installer sur sa machine un client SSH ou x2go pour accéder à la passerelle. |
- | Cette passerelle n'est accessible que de l'intérieur de l'ENS : il est nécessaire de passer par la passerelle de l'ENS ''ssh.ens-lyon.fr'' ou par le Virtual Private Network par OpenVPN pour y accéder. | + | En outre, cette passerelle n'est accessible que de l'intérieur de l'ENS : il est nécessaire de passer par la passerelle de l'ENS ''ssh.ens-lyon.fr'' ou par le Virtual Private Network par OpenVPN pour y accéder. |
Notons que l'outil x2go permet de paramétrer directement la passerelle ''ssh.ens-lyon.fr'' et d'obtenir directement le bureau graphique. | Notons que l'outil x2go permet de paramétrer directement la passerelle ''ssh.ens-lyon.fr'' et d'obtenir directement le bureau graphique. | ||
Ligne 48: | Ligne 48: | ||
===== Dossiers personnels ===== | ===== Dossiers personnels ===== | ||
- | Sur la passerelle ''lethe'', chaque utilisateur dispose de 3 espaces utilisateurs : | + | Sur la passerelle ''lethe'', chaque utilisateur dispose de 4 espaces utilisateurs : |
* un local dans ''/home/<login>'' | * un local dans ''/home/<login>'' | ||
* un général dans ''/cbp/<login>'' | * un général dans ''/cbp/<login>'' | ||
* un rapide dans ''/scratch'' | * un rapide dans ''/scratch'' | ||
+ | * un projet dans ''/projects'' | ||
- | Le second correspond à l'espace utilisateur de ressources informatiques du CBP lorsqu'il se connecte : | + | Le second, ''/cbp/<login>/'' correspond à l'espace utilisateur de ressources informatiques du CBP lorsqu'il se connecte : |
- | * aux 21 stations de travail de la salle libre service | + | * aux 28 stations de travail de la salle libre service |
* à la station graphique 3D de la petite salle de réunion | * à la station graphique 3D de la petite salle de réunion | ||
* aux machines à la demande SIDUS (Single Instance Distributing Universal System) | * aux machines à la demande SIDUS (Single Instance Distributing Universal System) | ||
Ligne 297: | Ligne 298: | ||
# Nom de la queue (ici, la queue des x41z) | # Nom de la queue (ici, la queue des x41z) | ||
#$ -q x41z | #$ -q x41z | ||
- | # Nom de la queue d'environnement parallèle et de requête de ressources : x41zhybrid avec 32 ressources | + | # Nom de l'environnement parallèle avec le nombre de slots : x41zhybrid avec 32 ressources |
#$ -pe x41zhybrid 32 | #$ -pe x41zhybrid 32 | ||
# Messages a expedier : il est expedie lorsqu'il demarre, termine ou avorte | # Messages a expedier : il est expedie lorsqu'il demarre, termine ou avorte | ||
Ligne 313: | Ligne 314: | ||
La commande d'examen des tâches en cours ''qstat'' permet ensuite de savoir que le job a bien été pris en compte. | La commande d'examen des tâches en cours ''qstat'' permet ensuite de savoir que le job a bien été pris en compte. | ||
+ | === Récupérer les informations sur ses jobs exécutés === | ||
+ | Dans le fichier de batch (celui qui définit les commandes à exécuter avec la queue, l'environnement, etc...) apparait le paramètre préfixé de ''-N''. Ce paramètre est très utile parce que, comme le précise les exemples ci-dessus, les sorties POSIX ''stdout'' et ''stderr'' sont sauvegardées dans ces fichiers. | ||
+ | |||
+ | Ainsi, en exécutant l'exemple ci-dessus, si son numéro de job était le 528491, les fichiers de sortie seraient les suivants : | ||
+ | * ''MyJob.o528491'' pour la sortie standard ''stdout'', l'ensemble des messages du terminal | ||
+ | * ''MyJob.e528491'' pour l'erreur standard ''stderr'', l'ensemble des messages en erreur du terminal | ||
+ | |||
+ | En fouillant dans ces fichiers, il est possible de voir l'évolution de l'exécution de son job et ses erreurs au besoin. |