Post-Doctorante ou Post-Doctorant en Contrôle Agentique pour la Gestion de Clusters - CDD H/F - Télécom Paris
- Palaiseau - 91
- CDD
- Télécom Paris
Les missions du poste
Qui sommes-nous ?
Télécom Paris, école de l'IMT (Institut Mines-Télécom) et membre fondateur de l'Institut Polytechnique de Paris, est une grande école du top 5 des écoles d'ingénieurs généralistes françaises.
La Raison d'Être de Télécom Paris est de former, imaginer et entreprendre pour concevoir des modèles, des technologies et des solutions numériques au service d'une société et d'une économie respectueuses de l'humain et de son environnement.
Nous recherchons Post-doctorante ou Post-doctorant en contrôle agentique pour la gestion de clusters pour rejoindre le département INFRES à Telecom Paris.
Kubernetes est devenu une plateforme centrale pour le déploiement et la gestion des systèmes cloud-native, et il est de plus en plus utilisé pour héberger des charges de travail IA en production. Malgré sa maturité en tant que plateforme d'orchestration dotée d'une automatisation intégrée, les opérations quotidiennes sur Kubernetes nécessitent encore souvent une intervention humaine importante. Les opérateurs de clusters doivent inspecter l'état du cluster, interpréter les métriques, les journaux, les traces et les événements, diagnostiquer les défaillances, choisir les actions correctives, exécuter des commandes ou des opérations API, puis vérifier que le système est revenu à un état sain. Les outils et prototypes de recherche récents basés sur des LLM (modèles de langage) pour Kubernetes montrent le potentiel des modèles de langage pour soutenir ces tâches grâce à des interactions en langage naturel, des interactions en ligne de commande et via API, ainsi qu'à un raisonnement conscient du cluster. Ces avancées laissent entrevoir des opérations Kubernetes et d'ingénierie de la fiabilité des sites (SRE) plus autonomes. Le degré d'autonomie varie selon les solutions existantes, allant de l'assistance interactive avec un humain dans la boucle à une exécution plus autonome.
Dans le même temps, l'utilisation croissante de Kubernetes dans les environnements d'edge computing fait de la gestion autonome des clusters un problème de recherche de plus en plus important. Bien que la plupart des études existantes se concentrent sur les environnements cloud ou la gestion générale de Kubernetes, les déploiements en edge peuvent impliquer plusieurs clusters Kubernetes gérés de manière indépendante et fonctionnant dans des conditions très différentes. Ces clusters peuvent être déployés sur des sites hétérogènes, aux ressources limitées ou difficiles d'accès physiquement, y compris des déploiements distants pour des applications telles que la surveillance environnementale. Ils peuvent également faire face à une disponibilité changeante des ressources, des conditions réseau instables et une connectivité limitée. Dans de tels environnements, les pannes sont plus difficiles et plus coûteuses à résoudre par une intervention manuelle, ce qui accroît l'importance d'une gestion zero-touch et d'une récupération autonome au niveau de chaque cluster individuel. Ces contraintes rendent également les modèles open-weight déployables localement une option pratique pour soutenir le raisonnement, le contrôle et la récupération sur site. Leur utilité peut être renforcée par la génération augmentée par récupération (RAG, Retrieval-Augmented Generation), qui permet de prendre des décisions fondées sur des documents locaux pertinents et des données opérationnelles, sans dépendre en continu de services tiers distants.
Ce projet postdoctoral étudiera le contrôle agentique en boucle fermée pour la gestion autonome des clusters Kubernetes dans des environnements edge aux ressources limitées. Le projet explorera comment les agents IA peuvent observer l'état d'un cluster Kubernetes, interpréter des signaux opérationnels hétérogènes, raisonner sur les causes possibles et les actions correctives sous des contraintes de sécurité, exécuter les étapes de récupération sélectionnées, puis vérifier si le cluster est revenu à un état sain. Les recherches se concentreront particulièrement sur la manière dont les modèles open-weight déployables localement, soutenus par la génération augmentée par récupération (RAG) sur la documentation locale et les données opérationnelles, peuvent offrir une autonomie pratique dans des conditions de connectivité et d'infrastructure limitées. La solution conçue sera évaluée soit à l'aide d'un cadre d'évaluation existant, comme AIOpsLab, soit par le biais d'un benchmark opérationnel Kubernetes dédié, développé dans le cadre du projet. Cette évaluation utilisera des scénarios réalistes de diagnostic et de récupération de pannes Kubernetes, des tâches d'administration inspirées de l'examen Certified Kubernetes Administrator (CKA), ainsi que des expériences répétées pour évaluer la fiabilité dans des conditions edge aux ressources limitées.
Ce poste postdoctoral actuel sera mené au sein du Département Informatique et Réseaux (INFRES), dans l'équipe Réseaux, Mobilité et Services (RMS), affiliée au laboratoire de recherche LTCI. Le département INFRES relève certains des défis scientifiques issus de la numérisation généralisée, en s'appuyant sur son expertise dans des domaines tels que l'architecture, la conception et la vérification des systèmes logiciels et des réseaux de communication, la science des données, l'interaction homme-machine, la sécurité, la mobilité et le contrôle de la consommation énergétique. Les activités de recherche de l'équipe RMS se concentrent sur les réseaux à très grande échelle et les systèmes opérationnels. En particulier, nous concevons les réseaux mobiles et les communications de demain, l'Internet du futur, l'Internet des objets ainsi que les évolutions du cloud et de la virtualization. Nos méthodologies vont de l'expérimentation à la théorie : nous expérimentons sur des plateformes de test, développons des outils de métrologie, concevons des architectures et des protocoles, élaborons des algorithmes et des méthodes analytiques pour évaluer et optimiser les réseaux.
Vos principales missions seront:
- Assurer des missions de recherche dans le domaine de la gestion autonome de clusters pour les environnements edge aux ressources limitées.
- Participer à la notoriété de l'Ecole, de l'Institut Mines-Télécom et de l'Institut Polytechnique de Paris.
Le profil recherché
Vous détenez un doctorat ou équivalent. Le poste requiert de solides compétences en intelligence artificielle, machine learning et systèmes informatiques, ainsi qu'une bonne maîtrise de la programmation sous Linux. Une expérience avec les LLM, les architectures RAG, le cloud-native et Kubernetes est attendue, avec un bon niveau d'anglais.
Des connaissances en systèmes distribués, edge computing ou open source sont un plus. Le profil recherché doit aussi savoir travailler en équipe, communiquer efficacement et faire preuve de synthèse.
Pourquoi nous rejoindre ?
Vous travaillerez dans un environnement en plein développement, agréable, verdoyant et accessible (notamment pour les personnes en situation de handicap) à seulement 20 km de Paris (RER B et C, proximité des grands axes routiers, navette mutualisée en partance de la Porte d'Orléans). Vous bénéficierez de :
- 49 jours de congés annuels (CA + RTT)
- flexibilité des horaires de travail (en fonction de l'activité du service)
- télétravail 1 à 3 jours/semaine possible
- Remboursement abonnement transports en commun à 75%
- Proximité de nombreuses infrastructures sportives, conciergerie, parking souterrain, restauration interne...
- A savoir : nos cotisations sociales sont moins élevées que dans le secteur privé
Informations diverses :
Date limite de candidature : 30 août 2026
Type d'emploi : CDD de 12 mois
Description de poste ici