Thèse Déploiement Automatisé et Optimisé Piloté par l'IA des Workloads Cloud-Native sur le Continuum Device-Edge-Cloud H/F - Doctorat.Gouv.Fr
- Paris - 75
- CDD
- Doctorat.Gouv.Fr
Les missions du poste
Établissement : Université Paris-Saclay GS Informatique et sciences du numérique École doctorale : Sciences et Technologies de l'Information et de la Communication Laboratoire de recherche : Données Algorithmes pour une ville intelligente et durable Direction de la thèse : Nadjib AIT SAADI Début de la thèse : 2026-10-01 Date limite de candidature : 2026-05-12T23:59:59 cette thèse aborde trois problèmes de recherche étroitement couplés, à l'intersection de l'Intelligence Artificielle et des opérations Cloud-Native sur le continuum Device-Edge-Cloud.
Le premier problème concerne la génération automatisée d'artefacts Infrastructure-as-Code et de flux de déploiement, en s'appuyant sur une IA agentique reposant sur des Grands Modèles de Langage (LLM). Bien que les avancées récentes des LLM orientés code (par exemple Codex, CodeLlama, StarCoder et les modèles de la famille GPT) aient produit des résultats prometteurs en synthèse logicielle [14], [15], leur application aux langages d'infrastructure déclaratifs (YAML, HCL, charts Helm, opérateurs Kubernetes, playbooks Ansible) demeure immature, avec des taux d'erreur syntaxiques et sémantiques élevés, des ressources hallucinées et des politiques non vérifiées [6], [16].
Le deuxième problème porte sur l'optimisation pilotée par l'IA du déploiement des charges de travail dans des domaines fédérés multi-fournisseurs, en considérant conjointement l'état d'exécution des ressources device, edge et cloud (CPU, mémoire, énergie, bande passante réseau, disponibilité des accélérateurs et objectifs de niveau de service - SLO) capturé en continu via une télémétrie en temps réel [17], [18]. Les ordonnanceurs et stratégies de placement existants reposent soit sur des heuristiques statiques, soit sur des modèles d'apprentissage par renforcement qui se généralisent mal à un continuum hautement dynamique et hétérogène ; ils sont en outre incapables d'opérer à travers plusieurs domaines administratifs et traitent les considérations de fédération comme de nouveaux objectifs aux côtés des SLO traditionnels, ce qui élargit considérablement à la fois l'espace de recherche et la complexité calculatoire du problème de placement [19], [20].
Le troisième problème s'attaque à la confiance (trustworthiness) des artefacts d'infrastructure et de déploiement générés par des LLM, ainsi qu'aux systèmes agentiques qui les instancient et les orchestrent. Cela englobe la correction, la sécurité, la robustesse, l'explicabilité et la conformité aux politiques opérationnelles dans des environnements fédérés et multi-fournisseurs, propriétés indispensables avant toute adoption en production [21], [22], [23].
Au cours de la dernière décennie, l'Infrastructure as Code (IaC) s'est imposée comme un pilier des opérations informatiques modernes en entreprise. Elle permet aux organisations de définir, provisionner et gérer leur infrastructure de calcul à l'aide de scripts déclaratifs ou impératifs lisibles par la machine, plutôt qu'au moyen de procédures manuelles [1], [2]. En traitant les artefacts d'infrastructure (machines virtuelles, conteneurs, réseaux et stockage) comme du code source versionné, l'IaC apporte la reproductibilité, la traçabilité, un délai de mise sur le marché plus court et des coûts opérationnels réduits, tout en rendant possible l'Intégration et le Déploiement Continus (CI/CD) ainsi que les pratiques DevOps à grande échelle [3], [4]. Les enquêtes menées en milieu industriel confirment que l'adoption d'outils IaC tels que Terraform, Ansible, Pulumi et les manifestes Kubernetes est devenue un facteur stratégique de différenciation pour les entreprises exploitant de vastes plateformes hybrides et multi-cloud [5].
Toutefois, à mesure que les systèmes distribués évoluent rapidement vers le continuum Device-Edge-Cloud et opèrent de plus en plus dans des environnements fédérés multi-fournisseurs, l'IaC est confrontée à une nouvelle génération de défis. Cette évolution n'est pas uniquement motivée par des considérations de passage à l'échelle et de performance, mais également par la nécessité croissante de garantir la souveraineté numérique, ce qui impose à l'automatisation de l'infrastructure de prendre explicitement en compte la localisation des données, les contraintes juridictionnelles et les politiques de gouvernance propres à chaque fournisseur. Dans ces écosystèmes émergents, les charges de travail sont déployées sur un tissu hétérogène composé d'opérateurs télécoms, de fournisseurs de cloud et de propriétaires d'infrastructures Edge, chacun étant régi par des API distinctes, des frontières administratives propres et des juridictions réglementaires spécifiques. Par conséquent, l'automatisation IaC ne peut plus présupposer un domaine administratif unique, mais doit raisonner à travers une abstraction des ressources inter-fournisseurs, des contraintes de résidence des données et des exigences de souveraineté.
Dans ce contexte, plusieurs défis ouverts doivent être relevés. Premièrement, la génération automatique d'artefacts IaC reste largement manuelle, sujette aux erreurs et fortement dépendante d'une expertise spécialisée, ce qui se traduit par des cycles d'intégration longs et une dérive de configuration fréquente [6]. Deuxièmement, le placement et le déploiement optimaux des charges de travail Cloud-Native sur des ressources hétérogènes (device, edge et cloud), couvrant désormais plusieurs domaines de fournisseurs, sont calculatoirement intractables en temps réel et exigent une prise de décision fine et contextuelle [7], [8]. Troisièmement, l'automatisation de bout en bout des chaînes de déploiement doit s'adapter en continu non seulement aux évolutions de la topologie, des capacités matérielles, de la mobilité et de la connectivité le long du continuum, mais également aux contraintes inter-domaines, aux exigences de souveraineté et aux politiques propres à chaque fournisseur [9]. Quatrièmement, l'observabilité en temps réel de telles infrastructures hybrides et fédérées est essentielle pour détecter les anomalies de performance, les violations de latence ou la contention des ressources, alors même que les approches classiques de monitoring peinent à passer à l'échelle face au volume, à la vélocité et à l'hétérogénéité de la télémétrie produite à la périphérie [10], [11]. Enfin, la sécurité et la conformité introduisent des contraintes supplémentaires, encore amplifiées dans les environnements multi-fournisseurs et soumis à des exigences de souveraineté, étant donné que les scripts IaC se sont empiriquement révélés sujets à de fréquentes erreurs de configuration et failles de sécurité susceptibles de se propager à travers des milliers d'instances déployées [12], [13].
S'appuyant sur les défis exposés ci-dessus, cette thèse aborde trois problèmes de recherche étroitement couplés, à l'intersection de l'Intelligence Artificielle et des opérations Cloud-Native sur le continuum Device-Edge-Cloud.
Le premier problème concerne la génération automatisée d'artefacts Infrastructure-as-Code et de flux de déploiement, en s'appuyant sur une IA agentique reposant sur des Grands Modèles de Langage (LLM). Bien que les avancées récentes des LLM orientés code (par exemple Codex, CodeLlama, StarCoder et les modèles de la famille GPT) aient produit des résultats prometteurs en synthèse logicielle [14], [15], leur application aux langages d'infrastructure déclaratifs (YAML, HCL, charts Helm, opérateurs Kubernetes, playbooks Ansible) demeure immature, avec des taux d'erreur syntaxiques et sémantiques élevés, des ressources hallucinées et des politiques non vérifiées [6], [16].
Le deuxième problème porte sur l'optimisation pilotée par l'IA du déploiement des charges de travail dans des domaines fédérés multi-fournisseurs, en considérant conjointement l'état d'exécution des ressources device, edge et cloud (CPU, mémoire, énergie, bande passante réseau, disponibilité des accélérateurs et objectifs de niveau de service - SLO) capturé en continu via une télémétrie en temps réel [17], [18]. Les ordonnanceurs et stratégies de placement existants reposent soit sur des heuristiques statiques, soit sur des modèles d'apprentissage par renforcement qui se généralisent mal à un continuum hautement dynamique et hétérogène ; ils sont en outre incapables d'opérer à travers plusieurs domaines administratifs et traitent les considérations de fédération comme de nouveaux objectifs aux côtés des SLO traditionnels, ce qui élargit considérablement à la fois l'espace de recherche et la complexité calculatoire du problème de placement [19], [20].
Le troisième problème s'attaque à la confiance (trustworthiness) des artefacts d'infrastructure et de déploiement générés par des LLM, ainsi qu'aux systèmes agentiques qui les instancient et les orchestrent. Cela englobe la correction, la sécurité, la robustesse, l'explicabilité et la conformité aux politiques opérationnelles dans des environnements fédérés et multi-fournisseurs, propriétés indispensables avant toute adoption en production [21], [22], [23].
Modélisation + Proposition d'algorithmes + validation par expérimentation (PoC)
Le profil recherché
Le candidat retenu devra associer un solide socle scientifique à de fortes capacités d'ingénierie afin de répondre à la nature pluridisciplinaire de cette recherche. Premièrement, un bagage robuste en Réseaux Informatiques et Systèmes Distribués est indispensable, incluant une compréhension approfondie des architectures Cloud-Native, des technologies de virtualisation et de conteneurisation (Docker, Kubernetes, service meshes), des réseaux pilotés par logiciel (SDN/NFV), des paradigmes Edge et Fog Computing, ainsi que de l'administration système sous Linux. Deuxièmement, le candidat devra démontrer de solides compétences en Intelligence Artificielle et, plus spécifiquement, en Grands Modèles de Langage (LLM), incluant la maîtrise des frameworks d'apprentissage profond (PyTorch, TensorFlow, Hugging Face Transformers), du prompt engineering, du fine-tuning et des techniques d'adaptation efficace en paramètres (RAG, instruction tuning), ainsi qu'une connaissance des avancées récentes en matière de modèles de génération de code. Une sensibilisation aux principes de l'IA de confiance (robustesse, explicabilité, équité et sécurité) sera également précieuse pour le volet « trustworthiness » de la thèse. Troisièmement, un solide bagage en Mathématiques Appliquées et en Optimisation est requis pour formaliser et résoudre les problèmes de placement de charges de travail et d'allocation de ressources qui se posent le long du continuum.