Cloud - Lead Sre - Compute And Orchestration H/F - Commissariat au Numérique de Défense (CND)
- Le Kremlin-Bicêtre - 94
- Fonctionnaire
- Commissariat au Numérique de Défense (CND)
Les missions du poste
Placé sous l'autorité du ministre des Armées, le Commissariat au Numérique de Défense (CND) a pour mission d'apporter un appui numérique performant et résilient aux opérations et de faciliter la construction du système de combat de demain autour du numérique et de la donnée. Il apporte un appui numérique permettant au ministère des Armées de fonctionner au quotidien, et gère les crédits qui lui ont attribués et rend compte des résultats obtenus à la Représentation nationale. Ainsi, le CND assure la direction, l'exploitation et le soutien des réseaux d'infrastructure, du socle numérique ministériel mutualisé et des systèmes d'information et de communication qui lui sont confiés. Vous rejoignez les équipes de la fabrique numérique, qui conçoit, développe, exploite et maintient les systèmes d'information en réunissant dans une même entité les équipes de conception et d'exploitation
En tant que Lead SRE Compute & Orchestration, vous concevez, déployez et opérez l'ensemble de la stack compute. Vos missions incluent :
- Provisionnement & inventaire : mettre en oeuvre l'automatisation complète (e.g., Tinkerbell, MAAS, Ironic, Netbox ou équivalents) ;
- Firmware & BMC : maîtriser, durcir et automatiser la couche firmware ;
- OS & Images : produire et déployer les images OS durcies ;
- Virtualisation : implémenter et exploiter la couche de virtualisation (OpenStack, Incus, KubeVirt ou équivalent) en garantissant isolation et résilience ;
- Kubernetes : opérer les clusters (control plane, workers, etcd) et assurer leur reconstruction rapide ainsi que la résilience multi-sites ;
- Reproductibilité : garantir des builds et déploiements déterministes, versionnés, auditables ;
- Sécurité : implémenter le durcissement à toutes les couches (firmware, OS, runtime) et contribuer à la chaîne de confiance boot-to-workload ;
- Documentation : rédiger les procédures d'exploitation et la documentation technique ;
- Pilotage : conduire l'exploitation par les SLO, error budgets et RETEX ;
- Équipe : encadrer techniquement les ingénieurs ; contribuer au recrutement et à la montée en compétences.
Le profil recherché
Nous cherchons un expert infrastructure compute confirmé (10+ ans d'expérience en production), capable de concevoir et opérer les couches basses d'une plateforme critique, avec une approche SRE et une sensibilité sécurité.
Vous possédez de l'expérience professionnelle :
- Exploitation en production, en mode SRE, de plateforme d'hébergement à grande échelle : gestion d'incidents, astreintes, pilotage par SLO/SLI ;
- Maîtrise opérationnelle d'au moins une solution d'orchestration de compute en production :
Soit virtualisation : OpenStack, Incus ou équivalent avec gestion multi-cluster, isolation et résilience ;
Soit Kubernetes : déploiement et exploitation de clusters multi-sites avec leur gestion centralisée (Rancher ou équivalent) ;
- Provisionnement bare metal à grande échelle ;
- Culture SRE : automatisation, observabilité, RETEX et amélioration continue.
Vous disposez également des compétences techniques suivantes :
- Expertise pointue attendue sur l'un des deux domaines (VM ou Kubernetes), le second étant couvert par un recrutement complémentaire ;
- Maîtrise fonctionnement Linux et expérience des OS immutables ou durcis ;
- Expertise d'un OS déclaratif ou et d'un langage d'infrastructure as code (Terraform, Ansible, Helm) ;
- Maîtrise d'au moins un langage de programmation (Go ou Python) : être capable d'implémenter des routines d'orchestration (contrôleurs) ;
- Très bonne connaissance des questions de sécurité et de durcissement (firmware, OS, runtime), capacité à dialoguer avec une chaîne SSI.
Vous êtes :
- Rigoureux : Capacité à concevoir et maintenir des infrastructures critiques avec une attention méticuleuse aux détails, particulièrement dans les aspects de sécurité et de reproductibilité.
- Innovant : Capacité à proposer des solutions techniques avancées et à implémenter des bonnes pratiques
- Ancreé dans une culture d'analyse factuelle et d'amélioration continue ;
Atouts appréciés :
- Expérience d'environnements multi-sites / multi-régions ;
- Expérience avec des environnements air-gapped ;
- Connaissance de SecNumCloud et IGI 1300 ;
- Contributions open source.