Thèse Champs de Markov Cachés sur Multigraphes et Architectures Graph U-Net pour le Méta-Clustering de Pangénomes Microbiens H/F - Doctorat.Gouv.Fr
- Paris - 75
- CDD
- Doctorat.Gouv.Fr
Les missions du poste
Établissement : Université Paris-Saclay GS Mathématiques École doctorale : Mathématiques Hadamard Laboratoire de recherche : LaMME - Laboratoire de Mathématiques et Modélisation d'Evry Direction de la thèse : Christophe AMBROISE ORCID 0000000281480346 Début de la thèse : 2026-10-01 Date limite de candidature : 2026-07-31T23:59:59 La thèse porte sur le développement de nouvelles méthodes statistiques et d'apprentissage sur graphes pour identifier des modules génomiques conservés à travers plusieurs pangénomes bactériens. Alors que les approches actuelles, comme celles de PPanGGOLiN et panModule, analysent principalement un pangénome à la fois, l'objectif ici est de passer à l'échelle inter-espèces afin de détecter des structures fonctionnelles récurrentes au sein de collections de graphes reliés par homologie.
Le projet repose sur deux axes complémentaires. Le premier consiste à formaliser un modèle de champs de Markov cachés sur multigraphes, capable d'intégrer à la fois la co-localisation des familles de gènes dans chaque espèce et leurs relations d'homologie entre espèces. Le second vise à concevoir une architecture de type Graph U-Net adaptée à ce multigraphe, afin d'apprendre des représentations multi-échelles utiles au méta-clustering. Une attention particulière sera portée au couplage entre modélisation probabiliste et apprentissage profond, tant pour l'initialisation et la régularisation du réseau que pour l'interprétabilité des partitions obtenues.
À l'interface entre mathématiques appliquées, statistique sur graphes, apprentissage profond géométrique et bioinformatique, cette thèse s'inscrit au coeur du projet ANR PanGAIMiX. Elle contribuera à mieux comprendre la conservation de modules génomiques entre espèces bactériennes, avec des applications directes à l'étude de l'antibiorésistance, du transfert horizontal de gènes et du transfert d'annotation fonctionnelle.
### Pangénomique comparative et graphes de pangénomes
La pangénomique microbienne modélise la diversité génétique d'un ensemble de génomes sous la forme d'un **graphe de pangénome** : les noeuds représentent des familles de gènes homologues et les arêtes capturent les relations de contiguïté chromosomique observées dans les génomes. Le logiciel PPanGGOLiN [@gautreau2020] construit de tels graphes et partitionne les familles de gènes en composantes *persistent*, *shell* et *cloud* au moyen d'un modèle statistique combinant un **mélange de lois de Bernoulli multivariées** (BMM) et un **champ de Markov** (MRF) encodant les dépendances de voisinage sur le graphe. L'inférence repose sur un algorithme de type **Neighborhood Expectation-Maximization** (NEM) [@ambroise1998], qui étend l'algorithme EM classique en intégrant un terme de régularisation spatiale issu de la structure du graphe.
L'outil complémentaire *panModule* [@bazin2021] détecte ensuite des **modules de contexte génomique**, c'est-à-dire des sous-ensembles de familles de gènes co-localisées et co-conservées au sein d'un même pangénome d'espèce. Cependant, cette approche se restreint à un seul pangénome et sa complexité combinatoire la rend inadaptée à la comparaison de centaines de pangénomes à l'échelle inter-espèces.
### Applications en génomique bactérienne {#sec-appli}
Les graphes de pangénomes trouvent des applications concrètes dans plusieurs domaines de la microbiologie, qui constituent autant de motivations pour le méta-clustering inter-espèces développé dans cette thèse.
- **Résistance aux antibiotiques (AMR)** : les gènes de résistance aux antimicrobiens se propagent par transfert horizontal de gènes (HGT) entre espèces bactériennes phylogénétiquement distantes. Ces transferts ne concernent généralement pas des gènes isolés, mais des **modules multi-géniques** colocalisés - régions de plasticité génomique, éléments intégratifs et conjugatifs (ICE) - encodant l'ensemble des fonctions nécessaires à leur propre mobilité (excision, circularisation, pilus conjugatif) ainsi qu'aux résistances transportées. Un cadre de méta-clustering permettrait de tracer ces modules à travers les pangénomes de multiples espèces simultanément, en distinguant les modules acquis indépendamment de ceux co-transférés. Le cas d'*Acinetobacter baumannii*, bactérie environnementale devenue un pathogène nosocomial multirésistant majeur, illustre l'importance de retracer l'origine des modules de résistance. Son émergence clinique mondiale résulte d'un ensemble de facteurs, parmi lesquels la pression antibiotique, la circulation hospitalière et le contexte des conflits armés au Moyen-Orient ont joué un rôle important. Par ailleurs, il est intéressant d'examiner les flux généraux de gènes de résistance aux antibiotiques. À titre d'exemple, les actinomycètes et en particulier les *Streptomyces* sont fréquemment identifiés comme des réservoirs ou donneurs potentiels, parfois sur de longues distances phylogénétiques.
- **Transfert d'annotation fonctionnelle** : même à grande échelle évolutive, certains ensembles de gènes colocalisés restent conservés. Le principe du *guilty by association* (coupable par association) permet de transférer des annotations fonctionnelles d'une espèce à une autre : si un gène ayant fortement divergé est encore flanqué des mêmes gènes voisins dans plusieurs pangénomes, la fonction globale de cet ensemble de gènes est vraisemblablement conservée. Le méta-clustering fournit un cadre formel pour exploiter ces co-conservations à l'échelle inter-espèces, y compris pour des familles du génome coeur qui peuvent être accessoires dans certaines espèces et coeur dans d'autres.
- **Îlots de pathogénicité** : certains facteurs de virulence (*E. coli*, *Salmonella*) sont absents du *core genome* et présents uniquement dans des souches pathogènes. L'identification de modules shell/cloud conservés entre espèces apparentées permet d'isoler ces îlots et d'en caractériser la structure génomique contextuelle.
- **Plasticité génomique** : PPanGGOLiN/panRGP prédit les *Regions of Genome Plasticity* (RGPs), clusters de gènes shell/cloud correspondant majoritairement à des transferts horizontaux. Le méta-clustering vise à identifier les RGPs récurrentes à travers plusieurs pangénomes d'espèces, une information inaccessible à l'approche mono-espèce actuelle.
### Le défi du méta-clustering inter-espèces
L'objectif central de la thèse (et du WP2 de l'ANR PanGAIMiX) est de **dépasser le cadre mono-espèce** pour détecter des modules de contexte génomique **conservés à travers plusieurs pangénomes** d'espèces différentes. Ce problème, que nous qualifions de **méta-clustering**, consiste à identifier des structures modulaires récurrentes dans un ensemble de graphes hétérogènes reliés par des relations d'homologie inter-espèces.
Formellement, on dispose d'une collection de $S$ pangénomes $\{G\_s = (V\_s, E\_s)\}\_{s=1}^{S}$, chacun associé à une partition locale (issue du NEM), et d'un ensemble de correspondances d'homologie entre familles de gènes appartenant à des pangénomes distincts. Le problème de méta-clustering revient à trouver une partition $\mathcal{M} = \{M\_1, \ldots, M\_K\}$ de l'union $\bigcup\_s V\_s$ en modules fonctionnels, cohérente simultanément avec :
- la **topologie locale** de chaque graphe $G\_s$ (contiguïté chromosomique),
- les **relations d'homologie** entre espèces,
- la **fréquence de conservation** des co-localisations à travers les génomes.
### Calcul des poids d'homologie par plongements de séquences protéiques
La construction des arêtes d'homologie inter-espèces est un verrou central du problème. Les méthodes classiques reposent sur l'alignement de séquences et un **pourcentage d'identité** (BLAST, MMseqs2) : la métrique du pourcentage d'identité qu'elles produisent ne distingue pas les positions sous forte pression de sélection (site actif, résidus structuraux critiques) des positions évolutivement neutres. Une mutation dans un site actif peut ainsi être indiscernable d'une mutation sans importance critique en termes de score d'alignement, alors qu'elle implique une différence fonctionnelle majeure.
Les **modèles de langage protéique** (*Protein Language Models*, PLM), entraînés de manière auto-supervisée sur de larges corpus de séquences (ESM-2) et ayant parfois également pris en compte la structure de la protéine (ESM3, SaProt), apprennent implicitement ces contraintes fonctionnelles dans un espace latent de haute dimension. Pour une séquence protéique $(r\_1, \ldots, r\_L)$, le PLM produit un tenseur d'embeddings par résidu $\{h\_t \in \mathbb{R}^d\}\_{t=1}^L$. Le plongement de la famille de gènes entière est obtenu par **agrégation** de ces représentations - plusieurs stratégies sont envisagées :
- **Moyenne des tokens** : $\bar{h} = \frac{1}{L} \sum\_{t=1}^L h\_t$, qui donne de bons résultats empiriques dans les tâches de comparaison de familles [@lin2022];
- **Token CLS** : certains modèles (SoftError, variantes de BERT appliquées aux protéines) préfixent la séquence d'un token de classification dont le plongement final est conçu pour capturer une représentation globale de la séquence ;
- **Statistiques d'ordre supérieur** : l'ajout de la variance ou d'autres moments des distributions de tokens enrichit la représentation au-delà de la moyenne, particulièrement utile pour les familles de grande taille ou de longueur variable ;
- **Attention pooling** : une agrégation apprise, pondérant les tokens par leur pertinence pour une tâche cible, permet d'apprendre une représentation de set d'embeddings théoriquement fondée [@zaheer2017].
Le **poids d'homologie** $w\_{ij}^{(H)}$ entre deux familles $i \in V\_s$ et $j \in V\_{s'}$ est ensuite calculé comme une similarité cosinus (ou distance euclidienne normalisée) entre leurs plongements agrégés. Cette approche présente l'avantage de capturer des homologies distantes (*remote homology*) là où l'alignement échoue, notamment pour des protéines ayant divergé au niveau de la séquence mais conservé leur repliement ou leur fonction.
### Multigraphes et réseaux de neurones sur graphes
Pour encoder simultanément ces différentes sources d'information, la thèse propose de construire un **multigraphe pondéré par couches** (*layered multigraph*), dans lequel chaque couche $L$ correspond à un type de relation :
- $L\_H$ : **canal d'homologie** - arêtes inter-espèces pondérées par les similarités entre familles de gènes (cf. section précédente),
- $L\_S$ : **canal de co-localisation** - arêtes intra-espèce pondérées par la fréquence de contiguïté dans les génomes.
Ce multigraphe est ensuite traité par une architecture de type **Graph U-Net** [@gao2022], qui adapte au domaine des graphes l'architecture encodeur-décodeur avec connexions résiduelles (*skip connections*) issue du U-Net classique [@ronneberger2015]. Les opérations de **graph pooling** (gPool) effectuent une réduction hiérarchique du graphe en sélectionnant les noeuds les plus informatifs, tandis que les opérations de **graph unpooling** (gUnpool) reconstruisent le graphe à la résolution initiale. Cette architecture produit des **représentations latentes multi-échelles** adaptées à la détection de modules conservés.
Mieux comprendre la conservation de modules génomiques entre espèces bactériennes, avec des applications directes à l'étude de l'antibiorésistance, du transfert horizontal de gènes et du transfert d'annotation fonctionnelle. Le cadre méthodologique combine modèles graphiques probabilistes et apprentissage profond géométrique sur multigraphes. Les données pangénomiques sont représentées par un multigraphe $\mathcal{G} = (V, \{E^{(\ell)}\}\_{\ell=1}^{L})$ dont les couches encodent la co-localisation des familles de gènes au sein de chaque espèce et les relations d'homologie entre espèces. Chaque noeud $i$ porte un profil de conservation observé $X\_i \in [0,1]^S$ et un label latent de module $Z\_i \in \{1,\ldots,K\}$, régis par un champ de Markov caché dont la distribution jointe intègre des paramètres de régularisation spatiale $\beta\_\ell$ par couche et des lois d'émission adaptées aux données de fréquence (produit de lois Beta, Dirichlet ou multinomiale). L'inférence reposera sur un algorithme NEM (*Neighbourhood Expectation-Maximization*). Dans un second temps, une architecture de type Graph U-Net sera conçue sur ce même multigraphe afin d'apprendre des représentations multi-échelles des noeuds pour le méta-clustering. Le couplage entre les deux approches s'effectuera par une initialisation de l'encodeur informée par le HMF, une fonction de perte composite combinant reconstruction, cohérence avec les probabilités a posteriori NEM et régularisation phylogénomique, et éventuellement un décodeur génératif paramétré par un champ de Markov conditionnel. Une analyse théorique sous un modèle de blocs stochastiques multicouche fournira des conditions suffisantes de récupération exacte des modules au-delà du seuil de détectabilité.
Le profil recherché
Master 2 en mathématiques appliquées, statistique ou science des données, avec une solide formation en probabilités et en optimisation.
Intérêt pour l'apprentissage automatique sur graphes et les modèles génératifs probabilistes.
Compétences en programmation Python (PyTorch, PyTorch Geometric).
Une sensibilité à la bioinformatique ou à la génomique sera un atout.