Thèse Développement d'Une Méthode de Clustering Supervisé par la Médiation Intégrant la Multi-Exposition aux Polluants de l'Air et les Biomarqueurs des Voies Biologiques Associées au Risque de Can H/F - Doctorat.Gouv.Fr
- Lyon - 69
- CDD
- Doctorat.Gouv.Fr
Les missions du poste
Établissement : Université Claude Bernard Lyon 1 École doctorale : CanBioS - Cancérologie, Biologie, Santé de Lyon Laboratoire de recherche : CRCL - CENTRE DE RECHERCHE EN CANCÉROLOGIE DE LYON Direction de la thèse : Delphine PRAUD ORCID 0000000208577889 Début de la thèse : 2026-10-01 Date limite de candidature : 2026-06-15T23:59:59 La pollution de l'air extérieur est classée cancérogène certain pour l'humain par le Centre international de recherche sur le cancer (CIRC), et l'ensemble de la population mondiale est exposé à des niveaux supérieurs aux seuils recommandés par l'organisation mondiale de la santé (OMS). Selon les estimations de l'OMS, la pollution de l'air est responsable d'environ 4,2 millions de décès chaque année. Plusieurs polluants atmosphériques ont été associés à un risque augmenté de cancer. Les polluants atmosphériques tels que le cadmium, certains HAP (ie., benzo[a]pyrène (BaP)), les dioxines et les PCBs sont des perturbateurs endocriniens qui sont susceptibles de jouer un rôle important dans le développement de certains cancers hormono-dépendants comme le cancer du sein.
Dans le même temps, les biomarqueurs biologiques, qu'ils soient métaboliques, inflammatoires, hormonaux ou protéomiques, offrent la possibilité d'explorer les voies mécanistiques reliant les expositions environnementales à la maladie. Toutefois, les approches statistiques mobilisées en épidémiologie étudient encore le plus souvent séparément l'effet des mélanges de polluants, les mécanismes de médiation biologique et l'hétérogénéité interindividuelle des profils d'exposition.
Ce projet de thèse a pour objectif de développer une méthode statistique originale de clustering supervisé par la médiation, intégrant simultanément un vecteur de multi-exposition aux polluants de l'air, un ensemble de biomarqueurs intermédiaires et le risque de cancer du sein. L'enjeu est d'identifier des sous-groupes d'individus homogènes non seulement du point de vue de leurs niveaux d'exposition, mais aussi de la manière dont ces expositions sont associées aux biomarqueurs, puis dont ces biomarqueurs sont liés au risque de cancer. Autrement dit, il s'agit d'intégrer explicitement la structure causale X M Y dans le processus de regroupement, afin de mettre en évidence des profils d'exposition et des trajectoires biologiques distinctes au sein de la population.
Les méthodes existantes répondent seulement à une partie de cette problématique. Les approches de mélanges, telles que BKMR ou WQS, permettent d'estimer l'effet global d'expositions multiples et, pour certaines, d'explorer des relations non linéaires ou des interactions entre polluants, mais elles reposent sur une représentation moyenne des effets dans la population. À l'inverse, les approches de clustering comme la Bayesian Profile Regression identifient des profils d'exposition réalistes, mais n'intègrent pas explicitement les mécanismes de médiation biologique. Enfin, les méthodes classiques de médiation multivariée deviennent difficiles à interpréter en présence d'expositions et de médiateurs nombreux, corrélés, potentiellement interactifs, et d'une forte hétérogénéité des effets entre individus.
Un premier volet portera sur l'étude des relations entre expositions atmosphériques multiples, biomarqueurs et risque de cancer du sein, ainsi que sur l'analyse critique des approches existantes. Un deuxième volet sera consacré au développement méthodologique, avec la conception d'un modèle de clustering supervisé contraint par la médiation, dans un cadre bayésien semi-paramétrique, capable de prendre en compte la haute dimension des données, les corrélations entre variables et la stabilité des clusters. Les performances de la méthode seront évaluées par simulation. Enfin, la méthode sera appliquée à des données épidémiologiques réelles, notamment issue de la UK Biobank, afin d'identifier des profils d'exposition aux polluants associés à des signatures biologiques distinctes et à un risque différencié de cancer du sein.
Ce travail vise ainsi à produire un outil méthodologique adapté à l'étude conjointe de la multi-exposition et de la multi-médiation, et à améliorer la compréhension des mécanismes biologiques par lesquels la pollution de l'air pourrait contribuer au développement du cancer du sein. La pollution de l'air et autres expositions environnementales constituent des facteurs de risque émergents dans le développement de différents cancers. Ces expositions sont souvent multiples, corrélées, et agissent à faibles doses sur de longues périodes. Parallèlement, des avancées en analyse omique permettent de mieux comprendre les voies biologiques par lesquelles ces expositions pourraient influencer la santé. Toutefois, les mécanismes par lesquels l'exposition aux polluants influence le risque de cancer restent encore largement méconnus.
La pollution de l'air est considérée un environnement carcinogène, et l'ensemble de la population mondiale est exposé à des niveaux supérieurs aux seuils recommandés par l'organisation mondiale de la santé (OMS) (1,2). Les principaux polluants incluent les particules fines (PM2.5, PM10), le dioxyde d'azote (NO), les hydrocarbures aromatiques polycycliques (HAP), les polychlorobiphényles (PCBs), le cadmium et d'autres métaux lourds liés au trafic ou à l'industrie (3). Selon les estimations de l'OMS, la pollution de l'air est responsable d'environ 4,2 millions de décès chaque année (4). Le Centre international de recherche sur le cancer (CIRC) a classé la pollution de l'air extérieur, ainsi que les particules fines qu'elle contient, cancérogènes certains pour l'humain (2). Plusieurs polluants atmosphériques ont été associés à un risque augmenté de cancer, selon des preuves épidémiologiques solides. Les particules fines sont liées à une augmentation de la mortalité et de l'incidence globales du cancer, incluant des localisations variées comme le cancer du poumon, du foie, du rein, colorectal, du pancréas et de la vessie (5-7). Les polluants atmosphériques tels que le cadmium, le BaP, les dioxines et les PCBs possèdent des propriétés perturbatrices du système endocrinien qui jouent un rôle important dans le développement de certains cancers hormono-dépendants comme le cancer du sein (8-14).
La population générale est exposée à un mélange complexe de polluants issus de sources variées, dont les effets sur la santé peuvent s'additionner ou interagir de manière synergique (15,16). De nouvelles méthodes statistiques émergentes ont permis de mieux appréhender ces effets conjoints (17-19). Parmi elles :
- Bayesian Kernel Machine Regression (BKMR) et Weighted Quantile Sum Regression (WQS) : ces approches visent à estimer l'effet global d'un mélange de polluants. BKMR modélise de façon flexible les relations potentiellement non linéaires et non additives, permet d'examiner les interactions entre polluants et d'identifier les contributions individuelles conditionnelles. Il peut aussi estimer l'effet conjoint d'une augmentation simultanée de l'ensemble des polluants. De son côté, WQS construit un indice global pondéré basé sur les quantiles des expositions, afin d'identifier les polluants les plus contributifs.
Toutefois, ces méthodes supposent une homogénéité des effets dans la population et ne reflètent pas la diversité réelle des profils d'exposition : par exemple, dans la vie courante, aucun individu n'est exposé à une augmentation conjointe et uniforme de tous les polluants.- Bayesian Profile Regression (BPR) : contrairement à BKMR et WQS, BPR adopte une approche de classification bayésienne non paramétrique (Dirichlet Process Mixtures), qui regroupe les individus selon leurs expositions réelles et leur outcome. Cette méthode permet d'identifier des profils d'exposition complexes dans la population, reflétant l'hétérogénéité biologique et environnementale, et d'analyser leur association au risque de maladie sans contraindre artificiellement les expositions à varier de manière uniforme.
Toutefois, si ces approches tiennent compte des interactions entre expositions, elles ne permettent pas de décrypter les mécanismes biologiques sous-jacents, ni d'identifier comment ces expositions interagissent via des voies biologiques spécifiques pour influencer le risque de cancer.
Grâce aux avancées en biologie et à l'intégration des données omiques (transcriptomique, métabolomique, épigénomique), il devient possible de mieux décrypter les réseaux moléculaires impliqués dans la cancérogénèse environnementale. Un premier travail que nous avons mené dans le cadre de la cohorte E3N a été d'explorer la médiation biologique entre l'exposition à certains polluants atmosphériques et le risque de cancer du sein (20). Cette étude a montré que certaines associations entre polluants et risque de cancer du sein pouvaient être partiellement expliquées par des biomarqueurs intermédiaires liés à l'inflammation et au métabolisme (résultats cependant limités par la taille relativement restreinte de l'échantillon ainsi que par l'utilisation d'une sous-population spécifique non totalement représentative de la cohorte de base). Toutefois, l'approche considérait chaque polluant et chaque biomarqueur de manière individuelle, sans prendre en compte les corrélations et les effets combinés qui caractérisent la voie exposition aux polluants - biomarqueurs - risque de cancer du sein.
Ces approches nécessitent des méthodes statistiques adaptées capables de tenir compte à la fois de la multi-exposition (polluants corrélés et potentiellement interactifs), de la multi-médiation (via différents biomarqueurs ou voies), et de leur effet global ou spécifique sur le risque de cancer. La prise en compte de cette complexité justifie le développement de nouvelles méthodes permettant d'identifier des profils d'exposition à haut risque, en lien avec des signatures biologiques distinctes. Dans ce contexte, l'approche proposée s'inscrit dans une démarche innovante via le clustering supervisé par la médiation, afin d'identifier des sous-groupes d'individus partageant des trajectoires biologiques communes reliant exposition et maladie.
L'objectif principal de cette thèse est de développer une méthode statistique innovante de clustering supervisé par la médiation, afin d'identifier des profils d'exposition aux polluants associés à des voies biologiques spécifiques (identifiées via des biomarqueurs) en lien avec le risque de cancer.
Ce travail vise à mieux comprendre comment les expositions multiples peuvent influencer le risque de cancer en tenant compte d'une médiation par des voies biologiques intermédiaires.
La thèse poursuivra les objectifs suivants :
- Objectif 1 - Explorer les données et établir les liens fondamentaux
o Sous-objectif 1.1 : Étudier l'association entre l'exposition multiple aux polluants atmosphériques et différents biomarqueurs afin d'identifier de potentielles signatures métaboliques ou moléculaires de la pollution de l'air.
o Sous-objectif 1.2 : Analyser l'association entre les profils d'exposition aux polluants et le risque de cancer, en tenant compte de l'effet médiateur de certains biomarqueurs (médiation classique multivariée).
- Objectif 2 - Investiguer les méthodes existantes pour la multi-exposition, appliquer et comparer différentes méthodes développées pour évaluer l'effet d'un mélange de polluants sur le risque de cancer
o Sous-objectif 2.1 : Implémenter des approches telles que BKMR, WQS et la médiation multivariée classique.
o Sous-objectif 2.2 : Évaluer leurs performances et leurs limites conceptuelles (homogénéité supposée des expositions, faible prise en compte de la diversité des profils réels).
- Objectif 3 - Investiguer les méthodes existantes pour le clustering, explorer les approches de classification statistique permettant d'identifier des sous-groupes d'individus.
o Sous-objectif 3.1 : Étudier des méthodes non supervisées (k-means, hiérarchique, mélanges gaussiens) et bayésiennes non paramétriques (ex. Dirichlet Process Mixtures).
o Sous-objectif 3.2 : Analyser les approches de clustering supervisé comme BPR, en mettant en avant leur capacité à identifier des profils d'exposition réalistes mais sans intégrer explicitement la médiation.
- Objectif 4 - Développer une méthode statistique innovante, concevoir et implémenter un cadre de clustering supervisé par la médiation, intégrant simultanément multi-exposition et multi-médiation.
o Sous-objectif 4.1 : Concevoir un modèle hiérarchique intégrant la structure X M Y dans le processus de clustering.
o Sous-objectif 4.2 : Développer une méthode d'estimation adaptée aux données complexes (multi-expositions corrélées, biomarqueurs multiples) et évaluer ses performances par simulation.
- Objectif 5 - Application et validation, appliquer la méthode développée à des données épidémiologiques (cohortes prospectives, études cas-témoins) et en évaluer la pertinence.
o Sous-objectif 5.1 : Identifier et interpréter les profils d'exposition et biologiques liés au risque de cancer.
o Sous-objectif 5.2 : Réaliser des analyses de sensibilité, comparer avec les approches existantes et discuter la pertinence épidémiologique des profils obtenus.
Cadre conceptuel et notions clés
Le présent projet de recherche doctorale s'inscrit dans un cadre médiationnel causal, dans lequel nous cherchons à mieux comprendre comment une exposition à plusieurs polluants environnementaux (X) peut influencer le risque de développer un cancer (Y), directement ou indirectement via des biomarqueurs biologiques intermédiaires (M).
Plus précisément, nous modélisons un chemin causal en trois composantes :
X : un vecteur d'expositions environnementales, incluant des polluants de l'air ambiant modélisés, tels que les particules fines (PM2.5, PM10), le dioxyde d'azote (NO), le benzo[a]pyrène (BaP), les dioxines ou les polychlorobiphényles (PCB).
M : un ensemble de biomarqueurs biologiques mesurés dans le sang ou les tissus, issus de différentes familles fonctionnelles : inflammation, stress oxydatif, métabolisme énergétique, perturbation endocrinienne, etc. Ces médiateurs sont supposés refléter des voies mécanistiques à travers lesquelles les polluants peuvent affecter la santé.
Y : Le développement d'un cancer, mesuré soit comme une variable binaire (étude cas-témoins), soit comme un temps jusqu'à événement (cohorte prospective).
Médiation causale
La médiation est un cadre analytique visant à décomposer l'effet total d'une variable d'exposition X sur une issue de santé Y en :
- un effet direct (effet de X sur Y indépendamment de M)
- et un effet indirect ou effet médié (effet de X passant par M, un ou plusieurs médiations).
L'analyse de médiation permet d'estimer :
- le Natural Direct Effect (NDE) : X -> Y indépendamment de M,
- le Natural Indirect Effect (NIE) : X -> M -> Y,
- l'effet total = NDE + NIE.
Le cadre causal sous-jacent repose sur plusieurs hypothèses statistiques de la médiation causale :
- Ignorabilité de l'exposition : il n'existe pas de variables confondantes non mesurées entre l'exposition et le médiateur ou entre l'exposition et l'issue conditionnellement aux covariables.
- Ignorabilité du médiateur : Pas de confusion non mesurée dans la relation médiateur-issue, une hypothèse souvent difficile à vérifier.
- Stabilité et homogénéité des effets.
Le défi réside dans la multiplicité des expositions et des médiateurs, souvent corrélés et partiellement redondants, ce qui rend l'estimation instable et difficile à interpréter avec des méthodes standards. En outre, les approches classiques de médiation (comme le modèle de Baron & Kenny ou la décomposition par G-computation) supposent souvent une relation linéaire et additive entre les variables, une homogénéité des effets dans la population (c'est-à-dire que l'effet médié est identique pour tous les individus), et que les médiateurs (M) et expositions (X) peuvent être fixés à des niveaux constants, ce qui ne reflète pas la variabilité biologique et environnementale réelle.
Ainsi, ces approches ne permettent pas de prendre en compte la diversité des voies biologiques (effets différenciés selon les individus ou sous-groupes), les interactions complexes entre polluants et médiateurs, ni l'existence potentielle de profils mécanistiques multiples dans la population.
C'est précisément cette hétérogénéité biologique et environnementale que nous cherchons à capturer au moyen d'un clustering supervisé par la médiation, afin d'identifier des sous-groupes caractérisés par des effets médiés distincts.
Le clustering
Le clustering (ou classification non supervisée) vise à regrouper des individus en sous-groupes homogènes selon certaines caractéristiques observées. Le clustering cherche à découvrir des structures latentes dans les données, souvent à des fins d'exploration, de réduction de dimension ou de stratification de la population.
Les méthodes classiques incluent :
- Le k-means (clustering par moyenne), adapté aux données continues,
- La classification hiérarchique (agglomérative ou divisive),
- Les modèles à mélange gaussiens (GMM), permettant une approche probabiliste,
- Les approches bayésiennes non paramétriques, comme le Dirichlet Process Mixture Model (DPMM) utilisé par BPR, plus souples vis-à-vis du nombre de clusters.
Dans ce projet, l'idée est de dépasser le simple regroupement sur les variables d'exposition pour construire une méthode de clustering supervisée par la structure de médiation X M Y. L'originalité est donc d'intégrer dans le regroupement d'individus non seulement leurs expositions (X), mais aussi la cohérence du chemin causal via les biomarqueurs (M), et leur risque de cancer (Y).
Méthode développée
L'approche se base sur le concept de clustering supervisé contraint par la médiation. Plutôt que de regrouper les individus uniquement sur la base de leur exposition ou de leur profil biologique, les clusters seront formés en maximisant la cohérence de la chaîne causale : X -> M -> Y.
Autrement dit, les individus seront regroupés s'ils présentent des expositions similaires, ont des biomarqueurs intermédiaires qui répondent de manière comparable à ces expositions, et partagent une association cohérente entre médiateurs et outcome. L'idée est de contraindre le processus de clustering par la recherche de sous-groupes homogènes dans la structure de médiation.
Deux options méthodologiques seront explorées pour implémenter ce principe :
a) Modèle hiérarchique bayésien supervisé par la médiation avec structure à plusieurs niveaux
- Niveau 1 : estimation de la médiation (X M, puis M Y) au sein de chaque groupe,
- Niveau 2 : allocation probabiliste des individus à des clusters, conditionnée par la qualité de la médiation dans chaque cluster,
- Niveau 3 : estimation de la taille, du nombre et de la stabilité des clusters.
Une version semi-paramétrique bayésienne, inspirée des Dirichlet Process Mixtures, pourra être implémentée pour éviter de fixer à l'avance le nombre de clusters.
b) Critère de regroupement orienté médiation combinant :
- une mesure de distance sur les expositions
- une cohérence de la relation X M,
- une cohérence de la relation M Y,
- et une pénalisation pour les effets incohérents ou faibles.
L'algorithme cherchera à maximiser ce critère (ex. via EM, ou gradient boosting avec réaffectation itérative des individus).
La méthode devra s'adapter à la haute dimension potentielle de X et M. Des techniques de sélection de variables (ex. LASSO ou elastic net) ou de réduction de dimension supervisée (PLS, ACP) seront intégrées afin d'extraire les composantes médiatrices pertinentes pour chaque groupe.
Dans un premier temps la méthode sera évaluée par simulations via la création de jeux de données simulés avec structure de médiation connue pour tester la capacité de la méthode à récupérer les bons clusters et à estimer les bons effets.
Dans un second temps la méthode sera comparée avec des approches existantes avec BKMR, BPR, WQS ou la médiation classique multivariée, sur données simulées ou réelles.
Cette méthode sera ensuite appliquée dans le cadre d'études épidémiologiques menée sur les données de la UK Biobank, (cohorte populationnelle, N= 500 000), permettant de tester la méthode et d'explorer les profils d'exposition et de risque de cancer du sein, au sein d'une large population.
Le profil recherché
Titulaire d'un master en Biostatistiques ou statistiques biomédicales
Solide compétence en modélisation statistiques et en analyse de données avec un bonne maitrise d'un langage de programmation statistique (R, python)
Maitrise des méthodes d'analyse en épidémiologie (analyse de survie, régression logistique)
Faire preuve de rigueur scientifique, d'autonomie et de capacité d'organisation.
Etre en mesure de travailler en équipe dans un environnement interdisciplinaire (épidémiologistes, biostatisticien, géomaticien, expologue).
Une bonne capacité de communication écrite et orale est attendue, notamment en anglais scientifique (rédaction d'articles, présentations en conférence).