Ingénieur Systèmes & Opération Usine Gpu H/F - Outscale
- Saint-Cloud - 92
- CDI
- Outscale
Les missions du poste
Nous recrutons un·e Ingénieur systèmes & operation Usine GPU afin de renforcer notre équipe AI Factory.
OUTSCALE, marque de Dassault Systèmes, est un opérateur souverain et durable de l'Expérience en tant que Service qui offre à ses clients des environnements technologiques de confiance.Nous offrons des expériences uniques grâce au savoir-faire de nos équipes passionnées, qui se reflète notamment par la création de solutions de Business Expériences, le développement de notre propre orchestrateur Cloud, TINA OS, ou encore l'obtention de la qualification SecNumCloud.
Vos missions
- Déployer les couches logicielles, depuis les OS de base jusqu'aux couches d'abstraction de type hyperviseur de virtualisation, orchestrateur de container
- Configurer les serveurs, des couches réseaux, en particulier du réseau Infiniband et des commutateurs Nvlink
- Mettre en place les outils de supervision et de monitoring
- Elaborer les dispositifs permettant l'automatisation des opérations
- Elaborer les process de support, de gestion des incidents, de mise à jour des environnements (GPU / BIOS / NvSwitch / NIC)
- Gérer la capacité avec identification en avance de phase des saturations, identifier les usages principaux et mettre en place les dashboards
- Gérer la sécurité en relation avec les équipes Cyber Sécurité d'OUTSCALE
- Gérer le réseau au sein des serveurs en relation avec les ingénieurs réseaux dédiés à l'AI Factory
- Paramétrer les outils de management de l'usine à GPU
- Paramétrer les accès au stockage, vérifier la performance d'accès au stockage pour l'ensemble des noeuds
- Sauvegarder et restaurer les configurations
- Elaborer un plan de débordement afin d'utiliser une autre usine à GPU en cas de saturation
- Elaborer un plan de secours permettant de redémarrer le service sur une autre usine à GPU en cas d'indisponibilité majeure
- Assurer le support aux utilisateurs internes
- Intégrer les nouveaux services développés par les équipes internes ou basés sur des solutions tierces (par exemple Nvidia)
- Mettre en oeuvre les outils Nvidia Mission Control et Nvidia Run:ai
- Mettre en place le métrique de coût (€/TFLOPS, €/VM, €/heure GPU)
Stack technique
- Administration système d'exploitation Linux (pas uniquement utilisateur)
- Déploiement et opération de containers en particulier Docker et/ou Kubernetes
- Déploiement et/ou administration d'infrastructure de supercalcul (HPC / High performance computing)
- Administration réseau / connaissance de la stack IP / déploiement de réseaux Cisco / certification Cisco Cloud Expert AWS ou GCP ou Azure
- Déploiement / administration d'hyperviseurs de virtualisation, ou de logiciels d'orchestration
- Cloud Administration des outils de gestion d'infrastructure Nvidia : Mission Control et/ou Run:ai
- L'une des certification suivante: Kubernetes CKA/CKS, Nvidia Certified, Cisco CCNP/CCIE, RedHat RHCE
Votre profil
- Diplômé·e d'un Master en ingénierie informatique, ou en commerce, vous possédez déjà une expérience professionnelle post diplôme minimum de 2 ans en tant que ingénieur systemes & operation Usine GPU
- Vous parlez français et anglaIs couramment
- Vous appréciez travailler en équipe et possédez un bon relationnel.
- Rigoureux, autonome et réactif, vous êtes naturellement force de proposition.
La Diversité d'OUTSCALE trouve aussi son expression dans notre politique de recrutement qui privilégie l'égalité des chances, la diversité des individus au sein de nos équipes.
Vous souhaitez en savoir plus ? N'hésitez pas à nous suivre sur Linkedin et découvrez nos dernières offres et actus.
OUTSCALE, marque de Dassault Systèmes, est un opérateur souverain et durable de l Expérience en tant que Service qui offre à ses clients des environnements technologiques de confiance.
Nous offrons des expériences uniques grâce au savoir-faire de nos équipes passionnées, qui se reflète notamment par la création de solutions de Business Expériences, le développement de notre propre orchestrateur Cloud, TINA OS, ou encore l obtention de la qualification SecNumCloud.
Notre mission ? Bâtir un monde numérique accessible et meilleur pour tous à travers la création du jumeau virtuel de l organisation.
Nous menons une politique RH engagée et inclusive favorisant le bien-être de nos collaborateur·rices : respect de l équilibre vie privée/vie professionnelle, développement personnel et des compétences professionnelles, onboarding complet
Nous rejoindre, c est partager une passion pour l innovation, des valeurs communes et imaginer ensemble des solutions de confiance pour construire un monde meilleur et durable !