Système d’opération

Pour la mise à jour du système d'opération (abbrev. OS) sur le cluster, il est nécessaire de faire des tests d'installation sur un des noeuds avant de passer à la réinstallation complète.

Grâce à xCAT, l'installation la plus importante (et qui demande le plus d'attention) est celle du noeud de contrôle. L'installation de noeuds de calcul se fait par la suite automatiquement.

Le OS courant (10Nov2003) est RedHat 7.3. Des mises à jour ont été tentées pour aller à SuSE 8.1 et SuSE 8.2, mais les deux fois, les installations ont eu des problèmes avec les modules de kernel pour les contrôleurs SCSI utilisés par les machines x335 de IBM: LSI Logic MPTSCSIH. Ce genre de problèmes font obligatoires les tests d'installation.

Kernel

xCAT contient du support pour l'installation automatique de nouvelles versions de kernel.

Lors de l'installation d'une nouvelle version de kernel, il est essentiel de s'assurer que les modules mptscsih et les drivers pour les cartes réseau BMC (Gigabit) sont correctement compilés et installés sur tous les noeuds.

Outils

MPCLI

IBMASM driver

xCAT

Ganglia

SGE

ICC

Librairies de calcul

Blas + Lapack

Atlas

MPICH

GM

MPICH_GM

PETSc

PETSc_GM

ParMetis