Recrutement Université Paris-Saclay GS Biosphera - Biologie, Société, Ecologie & Environnement, Ressources, Agriculture & Alimentation

Thèse Modèles Génératifs Profonds pour Modéliser et Prédire les Modifications Microbiennes Associées à l'Émergence de Maladies H/F - Université Paris-Saclay GS Biosphera - Biologie, Société, Ecologie & Environnement, Ressources, Agriculture & Alimentation

  • Paris - 75
  • CDD
  • Université Paris-Saclay GS Biosphera - Biologie, Société, Ecologie & Environnement, Ressources, Agriculture & Alimentation
Publié le 18 mars 2026
Postuler sur le site du recruteur

Les missions du poste

Établissement : Université Paris-Saclay GS Biosphera - Biologie, Société, Ecologie & Environnement, Ressources, Agriculture & Alimentation
École doctorale : Agriculture, Alimentation, Biologie, Environnement et Santé
Laboratoire de recherche : Metagenopolis
Direction de la thèse : Magali BERLAND ORCID 0000000267625350
Début de la thèse : 2026-10-01
Date limite de candidature : 2026-05-11T23:59:59Ce projet vise à développer des modèles génératifs profonds pour analyser et prédire les changements du microbiome intestinal liés à l'apparition de la maladie en utilisant les données métagénomiques du projet Le French Gut. En exploitant les auto-encodeurs variationnels (VAE), les réseaux antagonistes génératifs (GAN) et les modèles de diffusion, ce projet de thèse est structuré autour de trois objectifs : (1) générer des profils de microbiome synthétiques réalistes et diversifiés afin d'augmenter les jeux de données d'entraînement et renforcer les modèles prédictifs ; (2) développer des modèles génératifs interprétables en contraignant l'espace latent à refléter des structures biologiquement pertinentes ; (3) apprendre des représentations denses du microbiome capables de prédire le phénotype de l'hôte, notamment le risque de développer certaines pathologies. Ce travail abordera les défis à l'intersection de l'intelligence artificielle et de la science du microbiome et ouvrira la voie à des outils d'aide au diagnostic et à la stratification des patients, renforçant la médecine préventive et personnalisée. Sur le plan socio-économique, il contribuera à anticiper l'émergence de maladies chroniques, à optimiser les politiques de santé publique et à soutenir l'innovation biomédicale à l'interface entre intelligence artificielle et microbiome.

Le microbiome intestinal joue un rôle central dans la régulation du métabolisme, de l'immunité et de la susceptibilité à de nombreuses maladies chroniques, dont les troubles métaboliques, la cirrhose hépatique et certaines affections articulaires [1-5]. La dysbiose est reconnue comme un facteur associé à ces pathologies, mais la prédiction des altérations microbiennes précoces reste difficile en raison de la complexité intrinsèque des données métagénomiques : grande dimensionnalité, structure compositionnelle (somme des abondances fixe), sparsité élevée, hétérogénéité inter- et intra-individuelle. Les méthodes classiques d'analyse statistique ou de machine learning supervisé peinent à capturer cette complexité et manquent de généralisabilité [6]. Les modèles génératifs profonds (VAE, GAN, modèles de diffusion) offrent des perspectives prometteuses pour surmonter ces limites en apprenant des représentations latentes riches, en générant des données synthétiques réalistes et en intégrant des contraintes structurelles [7-8]. Des approches comme MB-GAN [9], phylaGAN [10] et DeepBioSim [11] ont déjà démontré la faisabilité de la génération de profils microbiens synthétiques, mais aucune n'intègre de manière systématique les connaissances biologiques structurantes (phylogénie, réseaux d'interaction, annotations fonctionnelles) pour améliorer l'interprétabilité et la plausibilité des modèles. Le projet s'appuie sur la cohorte « Le French Gut » (10 000 échantillons séquencés à ce jour), qui fournit un jeu de données métagénomiques couplées à des métadonnées cliniques, nutritionnelles et comportementales, ainsi que sur l'accès autorisé au SNDS pour la validation prospective des signatures prédictives.

1. Générer des profils microbiens synthétiques réalistes et diversifiés à l'aide d'auto-encodeurs variationnels (VAE), de réseaux antagonistes génératifs (GAN) et de modèles de diffusion, afin d'enrichir les jeux de données d'entraînement et renforcer la robustesse des modèles prédictifs.
2. Développer des architectures génératives interprétables en intégrant explicitement des connaissances biologiques structurantes (phylogénie, interactions écologiques, annotations fonctionnelles métaboliques) pour contraindre l'espace latent et améliorer la plausibilité biologique des données générées.
3. Apprendre des représentations latentes denses du microbiome capables de prédire le phénotype de l'hôte, en particulier les risques précoces d'émergence de maladies chroniques, à partir des données de la cohorte « Le French Gut » couplées au Système National des Données de Santé (SNDS).

Le projet adopte une approche en trois volets :

1. Comparaison et adaptation des modèles génératifs : Implémentation et évaluation comparative des VAE, GAN et modèles de diffusion sur les données métagénomiques du projet Le French Gut et des bases publiques (jusqu'à 100 000 échantillons), en adaptant les fonctions de perte (ex. : binomiale négative inflatée en zéro) aux spécificités sparses et compositionnelles des données, et en intégrant des techniques d'apprentissage contrastif pour capturer les dépendances biologiques essentielles.
2. Intégration de contraintes biologiques : Structuration de l'espace latent via (i) des graphes phylogénétiques ou de co-abondance, (ii) des contraintes de contiguïté reflétant les distances phylogénétiques entre espèces, et (iii) une régularisation guidée par des annotations fonctionnelles (KEGG, Gene Ontology) [12-14].
3. Application biomédicale : Extraction des représentations latentes pour développer des modèles prédictifs de l'état de santé de l'hôte, en les reliant aux métadonnées cliniques et de mode de vie via le SNDS, dans une optique prospective d'identification de signatures microbiennes précoces de maladies chroniques. Les performances seront évaluées par comparaison avec des méthodes de machine learning classiques et mesurées sur des métriques adaptées à la génération et à la prédiction.

Le profil recherché

Le/la candidat·e doit posséder un master (ou équivalent) en informatique, bioinformatique, sciences des données ou biostatistiques, avec une spécialisation avérée en apprentissage automatique ou apprentissage profond. Une expérience préalable dans l'analyse de données omiques est un atout.

Pour la candidature, nous attendons : CV, lettre de motivation, lettres de recommandation de la part de responsables de formation ou d'encadrants précédents, relevés de notes de Master, résumé d'une expérience de recherche ou du stage de recherche en cours.

La lettre de motivation doit répondre aux questions suivantes : Quelles sont vos motivations pour réaliser une thèse? Quelle est la place de la thèse dans votre projet professionnel ? Pourquoi avez vous choisi de candidater sur ce sujet de thèse plus spécifiquement ? Quels sont les atouts de ce sujet pour votre projet professionnel ? Quelles sont vos compétences acquises que vous mobiliserez au service de la thèse ? Quelles sont les compétences qui seront à acquérir dans le cadre de la thèse ? Quelles sont pour vous les qualités nécessaires à la réalisation d'une thèse et plus spécifiquement pour la réalisation de la thèse pour laquelle vous êtes candidat·e? Pouvez-vous sur un exemple de votre propre expérience illustrer ces qualités ?

Postuler sur le site du recruteur

Ces offres pourraient aussi vous correspondre.

Parcourir plus d'offres d'emploi