Cloud - Lead Sre Stockage H/F - Commissariat au Numérique de Défense (CND)
- Le Kremlin-Bicêtre - 94
- Fonctionnaire
- Commissariat au Numérique de Défense (CND)
Les missions du poste
Placé sous l'autorité du ministre des Armées, le Commissariat au Numérique de Défense (CND) a pour mission d'apporter un appui numérique performant et résilient aux opérations et de faciliter la construction du système de combat de demain autour du numérique et de la donnée. Il apporte un appui numérique permettant au ministère des Armées de fonctionner au quotidien, et gère les crédits qui lui ont attribués et rend compte des résultats obtenus à la Représentation nationale. Ainsi, le CND assure la direction, l'exploitation et le soutien des réseaux d'infrastructure, du socle numérique ministériel mutualisé et des systèmes d'information et de communication qui lui sont confiés. Vous rejoignez les équipes de la fabrique numérique, qui conçoit, développe, exploite et maintient les systèmes d'information en réunissant dans une même entité les équipes de conception et d'exploitation
En tant que Lead SRE Stockage, vous concevez, déployez et opérez l'infrastructure de stockage distribuée. Vos missions incluent :
- Déployer et opérer le stockage bloc et objet au niveau régional puis étendre vers le multi-régions ; contribuer aux choix technologiques (e.g., Ceph ou alternatives) ;
- Garantir l'isolation multi-tenant, la résilience et les performances du stockage distribué ;
- Concevoir et opérer une architecture multi-régions résiliente face aux contraintes réseau (bande passante limitée, latence, coupures) en tenant compte du théorème CAP ;
- Mettre en oeuvre les procédures de backup, restauration et de PRA ;
- Déployer et opérer la stack d'observabilité sur vos périmètres ;
- Conduire l'exploitation par les SLO, error budgets et RETEX ;
- Participer à la gestion d'incidents (niveau N3/N4) et aux astreintes ;
- Équipe : encadrer techniquement les ingénieurs stockage ; contribuer au recrutement et à la montée en compétences.
Le profil recherché
Nous cherchons un expert stockage distribué : soit 10+ ans d'expérience en production, soit doctorat en systèmes distribués/stockage avec expérience significative en production de solutions à grande échelle.
Vous possédez de l'expérience professionnelle :
- Exploitation SRE de solutions de stockage distribué à grande échelle (Ceph, Longhorn, stack S3 ou équivalent) : déploiement, exploitation, optimisation ;
- Dimensionnement de plateforme de stockage (IOPS, bande passante, latence) et arbitrages performance/coût/résilience ;
- Observabilité avancée de stockage distribué avec alertes et métrologie ;
- Tests de résilience et chaos engineering appliqué au stockage : perte de disques, partitions réseau, corruption de données ;
- Gestion d'incidents en production (niveau N3/N4) et participation aux astreintes ;
- Expérience de la culture SRE : pilotage par SLO/SLI, RETEX, amélioration continue.
Vous disposez également des compétences techniques suivantes :
- Expertise avancée sur au moins une solution de stockage distribuée bloc ou objet ;
- Maîtrise de Linux avancé (optimisation performances, tuning kernel) et des couches réseau sous-jacentes ;
- Maîtrise d'au moins un langage de programmation (Go, Python) et d'infrastructure-as-code (Terraform, Ansible) ;
- Maîtrise d'une stack d'observabilité (Prometheus, Grafana, Loki) et des outils/méthodes de métrologie ;
- Compréhension des fondamentaux théoriques : réplication, erasure coding, consensus distribué, cohérence sans consensus, théorème CAP ;
- Capacité à concevoir des architectures résilientes face aux contraintes réseau (bande passante limitée, latence élevée, coupures) ;
- Très bonne connaissance sécurité : multi-tenant, chiffrement at-rest/in-transit, gestion des secrets, capacité à dialoguer avec une chaîne SSI.
Vous êtes :
- Rigoureux : Capacité à concevoir et maintenir des infrastructures critiques avec une attention méticuleuse aux détails, particulièrement dans les aspects de sécurité et de reproductibilité ;
- Innovant : Capacité à proposer des solutions techniques avancées et à implémenter des bonnes pratiques ;
- Ancré dans une culture d'analyse factuelle et d'amélioration continue ;
Atouts appréciés :
- Expérience d'environnements multi-sites / multi-régions ;
- Expérience avec des environnements avec de fortes exigences de disponibilité ;
- Connaissance de SecNumCloud et IGI 1300 ;
- Contributions open source