Administrateur Hpc - Maintien en Condition Opérationnelle Mco H/F - Nyou
- Bruyères-le-Châtel - 91
- CDI
- Nyou
Les missions du poste
Nyou c'est voir les choses autrement
Changeons de point de vue, traçons une nouvelle route.
Performants
Évoluer dans le bon sens
Nos consultants sont la clé de voûte de notre organisation.
Avec l'aide de nos clients, ils engagent sur la voie de l'excellence.
Résilients
Se remettre en question continuellement
Le secteur des hautes technologies est en mutation constante.
Apprenons à suivre et prédire les évolutions du marché.
Responsables
Rester fidèles à nos valeurs
Le Conseil doit se réinventer.
Écrivons une nouvelle histoire, empreinte de respect des aspirations de chacun.
Prenez part aux challenges de demain en intervenant sur les projets les plus ambitieux.
Développez vos compétences, imaginez un avenir plus GRAND avec nos plans de carrière personnalisés.
Intégrez une entreprise à taille humaine, à la hauteur de vos ambitions.
We are Nyou, and you ?
Contexte de la mission
Le prestataire interviendra au sein d'une équipe d'environ d'experts HPC (techniciens & ingénieurs) dédiée au maintien en condition opérationnelle de supercalculateurs de classe mondiale (TOP500).
L'environnement est hautement critique, avec une forte exigence de performance, de disponibilité et de sécurité. La mission implique une collaboration étroite avec des spécialistes systèmes, réseaux, stockage et HPC.
Objet de la prestation
Assurer l'administration, l'exploitation et la maintenance opérationnelle d'infrastructures HPC à grande échelle, incluant plusieurs milliers de noeuds de calcul et leurs systèmes associés.
Activités principales
Administration & exploitation HPC
Administration des systèmes GNU/Linux HPC (CentOS, RedHat ou équivalent)
Installation logicielle, configuration et optimisation des environnements HPC
MCO de milliers de noeuds de calcul
Gestion du stockage HPC (Lustre, DDN, ClusterStor)
Maintenance & haute disponibilité
Préparation et exécution des opérations de maintenance logicielle
Mise en oeuvre de solutions HA : Pacemaker, Corosync
Gestion des services systèmes Linux (DNS, DHCP, Web, FTP, authentification, déploiement)
Automatisation & scripting
Automatisation des tâches d'exploitation via Bash, Python, Perl
Utilisation d'outils d'orchestration : Puppet, Ansible
Support & résolution d'incidents
Analyse, diagnostic et résolution d'incidents de production
Qualification et traitement des tickets (L1/L2), escalade vers L3 si nécessaire
Suivi des escalades techniques internes ou partenaires
Support sur la stack logicielle client (base CentOS)
Documentation & procédures
Rédaction de documentation technique, procédures d'exploitation et guides (Wiki)
Environnement technique
Systèmes : GNU/Linux (RedHat, CentOS)
Stockage HPC : Lustre, DDN, ClusterStor
Réseaux : InfiniBand, Ethernet, RoCE
Conteneurs : Docker, OpenStack
Orchestration : Puppet, Ansible
Supervision : Nagios
Matériel : serveurs x86, switches réseau, baies de stockage
Langages : Bash, Python, Perl, notions de C
Le profil recherché
Profil recherché
Formation
Bac +5 (ou équivalent ingénieur / informatique / HPC)
Compétences techniques
Administration Linux avancée
HPC (obligatoire)
Stockage distribué (Lustre)
Réseaux haut débit (InfiniBand, RoCE)
Automatisation (Ansible, Puppet)
Scripting (Shell, Python, Perl)
Haute disponibilité (Pacemaker, Corosync)
Supervision (Nagios)
Bases en langage C (analyse & compilation)
Langues
Anglais technique requis
Contraintes de la mission
Participation à un dispositif d'astreinte 24/7 (environ 1 semaine par mois)
Environnement classifié Habilitation Secret Défense obligatoire