Cloud - Sre Observabilite H/F - Commissariat au Numérique de Défense (CND)
- Le Kremlin-Bicêtre - 94
- Fonctionnaire
- Commissariat au Numérique de Défense (CND)
Les missions du poste
Placé sous l'autorité du ministre des Armées, le Commissariat au Numérique de Défense (CND) a pour mission d'apporter un appui numérique performant et résilient aux opérations et de faciliter la construction du système de combat de demain autour du numérique et de la donnée. Il apporte un appui numérique permettant au ministère des Armées de fonctionner au quotidien, et gère les crédits qui lui ont attribués et rend compte des résultats obtenus à la Représentation nationale.
Ainsi, le CND assure la direction, l'exploitation et le soutien des réseaux d'infrastructure, du socle numérique ministériel mutualisé et des systèmes d'information et de communication qui lui sont confiés.
Le Pôle Accompagnement et Expertises Projets (POAEP) a vocation à exercer ces prérogatives à l'égard de l'ensemble du CND. Il a pour objectif l'amélioration des services offerts aux utilisateurs et l'amélioration de l'outil de l'opérateur.
Notre opérateur ambitionne de devenir un acteur clé du Cloud ministériel, avec pour objectif de construire une pile cloud sûre, performante et résiliente, opérée sur l'ensemble du territoire national. À terme, cette infrastructure constituera la fondation d'un véritable opérateur cloud ministériel à l'état de l'art, capable de servir l'ensemble du numérique de défense.
Vous opérez la stack d'observabilité de la plateforme dans son intégralité - métriques, logs, traces, alerting, audit - et vous en êtes le référent technique auprès des autres équipes SRE (compute, stockage, réseau).
Missions :
- Déploiement, exploitation et passage à l'échelle de la pile d'observabilité (métriques via Prometheus et logs) ;
- Logs : mise en oeuvre et exploitation du pipeline de logs (de la collecte à la rétention) ;
- Tracing : intégration OpenTelemetry sur les composants plateforme ; déploiement et exploitation d'un backend de traçage distribué ;
- Alerting et SLA : conception des règles d'alerte, routage, réduction du bruit ; formalisation et instrumentation des SLO avec les équipes SRE ;
- Appui transverse : rôle d'expert observabilité auprès des équipes compute, stockage et réseau - conventions d'instrumentation, revue des dashboards, accompagnement sur les incidents complexes ;
- Reproductibilité : déploiements déploiements déterministes, versionnés, auditables via IaC et GitOps ;
- Pilotage : RETEX instrumentés, amélioration continue de la couverture d'observabilité.
Le profil recherché
Nous cherchons un SRE senior (5-10 ans d'expérience) avec une forte dominante observabilité, capable de concevoir et d'opérer la stack de supervision d'une plateforme critique multi-tenant, et de jouer un rôle d'expert transverse auprès d'autres équipes.
Vous possédez de l'expérience professionnelle :
- Exploitation en production d'une plateforme d'hébergement à grande échelle, en mode SRE : gestion d'incidents, astreintes, pilotage par SLO/SLI ;
- Maîtrise opérationnelle d'une solution de supervision (e.g., Prometheus/Grafana) ou d'au moins une solution de gestion de logs en production (e.g., ELK) ;
- Expérience de la conception et du maintien de règles d'alerte en production - réduction du bruit, routage, post-mortem ;
- Culture SRE : automatisation, RETEX instrumentés et amélioration continue.
Vous êtes :
- Rigoureux : Capacité à concevoir et maintenir des infrastructures critiques avec une attention méticuleuse aux détails, particulièrement dans les aspects de sécurité et de reproductibilité.
- Innovant : Capacité à proposer des solutions techniques avancées et à implémenter des bonnes pratiques
- Ancré dans une culture d'analyse factuelle et d'amélioration continue.