FAQ

Vous avez une question technique


D’abord s’adresser à l’informaticien de votre laboratoire, surtout lorsqu’il s’agit de questions sur des logiciels: installation, librairies associées, etc.

C’est votre informaticien qui doit signaler un problème technique éventuel via notre

support utilisateur.

Si vous ne disposez pas de la ressource en interne, nous pouvons, dans certains cas, faire appel à un prestataire. Dans ce cas, les coûts liés à cette intervention vous seront intégralement refacturés.

Pour accéder au support utilisateur, vous utilisez les même identifiants et mots de passe que pour vous connecter au cluster.

Pensez à toujours rappeler l’acronyme de votre projet.

-> Votre problème est un problème de connexion, un problème de librairie, …
il faut poser un ticket via le support utilisateurs.
Pour accéder au support utilisateur, vous utilisez les même identifiants et mots de passe que pour vous connecter au cluster.

-> Votre question est une question d’utilisation
il peut y avoir la réponse ou des pistes de réponse sur la documentation utilisateurs

-> Votre question est plus de l’ordre de la bonne pratique, manière de faire, usage …
D’autres peuvent avoir la réponse, et dans ce cas la liste est adaptée.
Ce sont d’autres utilisateurs comme vous qui vous répondront.
En tant qu’utilisateur de la plateforme de calcul, vous êtes par défaut abonné à cette liste.

Il s’agit d’une heure CPU calculée.

Il ne s’agit pas de temps de login, paramétrage de son compte, installation de son environnement …
Les calculs sont en principe lancés par défaut en « non-exclusif ».

C’est donc bien l’heure calculée en CPU qui est décomptée.

L’utilisateur a la possibilité de lancer son calcul en mode « exclusif ».Cela arrive quand il a besoin de s’assurer de disposer de toute le mémoire du noeud.

Il s’assure ainsi qu’aucun autre calcul lancé par un autre utilisateur vienne utiliser les coeurs vacants du noeud.

Dans le cas d’un calcul lancé en mode « exclusif », alors ce sont tous les CPU du noeuds qui sont décomptés, soit 28 pour un noeud standard.

**Pour les noeuds larges ainsi que les noeuds GPU, ils sont toujours en mode exclusifs (il y a 112 coeurs/ noeud large et 52 par noeud GPU).**`

Exemple de calcul pour un calcul durant 3 semaines :

3 semaines = 24 heures x 21 jours = 504 heures (temps)
Que je multiplie par le nombre de processeurs mobilisés

Il nous est impossible d’installer un système alternatif à CentOS 7.

En revanche, les incompatibilités de système peuvent être résolu par l’utilisation de container.

Sur muse nous utilisons Singularity qui est un système de container adapté à l’environnement HPC.
Il y a un module qui permet de le charger.

Le principe : Vous ou votre informaticien package votre application avec Singularity, ce qui permet ensuite de la faire fonctionner sur le cluster indépendamment du système d’exploitation.

Il est possible d’utiliser des logiciels avec serveur de licence externe (Jetons) sur le Cluster Muse.

Vous pouvez ainsi utiliser vos propres licences (dont vous avez acquitté les droits), sur le cluster.
Plus d’information sur les logiciels …

Objectif fixé: lancer le job « Tasks3r » sur 15 nœuds exploitant 20 cœurs chacun, soit un total de 300 cœurs.

Les paramètres SBATCH sont des paramètres de réservation des ressources.
SI vous resservez 100 cœurs pour l’exécution d’un programme séquentiel, vous occuperez 100 cœurs pendant toute la durée du job mais le job en lui même n’occupera qu’un cœur. Donc il est important qu’il y ait adéquation entre ce que peut faire votre programme et les ressources que vous réservez.

Les options #SBATCH -N 15 et #SBATCH -n 300 réservent 300 cœurs réparties sur 15 nœuds. Le total des cœurs sur les 15 nœuds étant de 420 il reste 120 cœurs de disponibles qui peuvent être affecté a d’autres jobs et d’autres utilisateurs. Si vous ne souhaitez pas que d’autres jobs soient affectés sur les nœuds restant il faut rajouter l’option #SBATCH –exclusive mais attention dans ce cas c’est l’utilisation des 28 cœurs du nœud qui sera comptabilisée. Dans ce cas vous n’êtes pas obligé de préciser #SBATCH -n 300.

Dans votre configuration #SBATCH –ntasks-per-node=20 est nécessaire. SLURM par défaut essaie de remplir les nœuds. Sans cette option la répartition des cœurs serait 10×28 + 1×16 + 4×1

#SBATCH –ntasks-per-core=1 est l’option par défaut.

#SBATCH –partition=defq. defq est la partition par défaut, donc si on calcule sur defq, ce n’est pas nécessaire, mais c’est une bonne habitude de préciser la partition.

#SBATCH –account=  Il faut prendre l’habitude de préciser le groupe. Si vous ne le précisez pas SLURM utilisera le groupe par défaut.

Bien citer la plateforme dans vos publications c’est :

  • Insérer la phrase suivante dans les documents (communication, articles, diffusions diverses) :
    « Travail effectué avec le support de la Plateforme MESO@LR de l’Université de Montpellier. » Ou“This work has been realized with the support of MESO@LR-Platform at the University of Montpellier.”
  •  Étiqueter votre article pour qu’il apparaisse dans la collection HAL dédiée à Meso@LR ( https://hal.umontpellier.fr/MESO ).                                                                                        Pour ce faire,ajouter « MESO » dans le champs « Référence interne » en ayant pris soin d’afficher la liste complète des métadonnées. Vous pouvez également nous envoyer l’identifiant de votre article HAL, nous procéderons à cet étiquetage.