Recrutement Doctorat.Gouv.Fr

Thèse Développement et Évaluation de Scores Prédictifs de Facteurs Liés au Mode de Vie à Partir de Méthodes d'Apprentissage Statistique Application au Système National des Données de Santé H/F - Doctorat.Gouv.Fr

  • Paris - 75
  • CDD
  • Doctorat.Gouv.Fr
Publié le 10 avril 2026
Postuler sur le site du recruteur

Les missions du poste

Établissement : Université Paris-Saclay GS Santé publique
École doctorale : Santé Publique
Laboratoire de recherche : Centre de Recherche en épidémiologie et Santé des populations
Direction de la thèse : Emeline COURTOIS ORCID 0000000230185507
Début de la thèse : 2026-10-01
Date limite de candidature : 2026-05-08T23:59:59Le Système National des données de Santé (SNDS) est une large base médico administrative qui regroupe les informations individuelles et anonymisées sur la consommation de soins de la quasi totalité de la population française. Malgré son exhaustivité, le SNDS ne dispose pas de données renseignant directement sur les facteurs liés au mode de vie qui sont souvent des facteurs d'ajustement incontournables dans de nombreuses études épidémiologiques. A défaut, les études conduites sur le SNDS utilisent des indicateurs proxy construits à partir des données disponibles sur les remboursements de soins. De par la richesse et le volume des informations disponibles dans SNDS, cette base de données se prête particulièrement au développement de modèles prédictifs basés sur des méthodes d'apprentissage automatique adaptées au contexte de la grande dimension. Pour développer ces modèles, il faut disposer, pour une partie de la population, de l'information à prédire. Les grandes cohortes chaînées au SNDS, comme la cohorte Constances, représentent alors une ressource précieuse.
La construction classique d'un modèle repose sur la séparation du jeu de données en un ensemble d'apprentissage et un ensemble de validation. Cependant, il a été montré depuis longtemps que cette approche peut être sous-optimale voire trompeuse. Des alternatives plus robustes consistent à entraîner le modèle sur l'ensemble des données, puis à estimer l'optimisme - l'écart entre les performances apparentes et les performances réelles attendues. Cet optimisme est estimé à l'aide du bootstrap. Une étude récente comparant différentes approches de rééchantillonnage pour estimer les performances d'un modèle a montré que cette technique est la plus fiable. Néanmoins, son application à des modèles appropriés à la grande dimension nécessitant l'optimisation d'hyperparamètres (paramètre de régularisation, taux d'apprentissage, profondeur des arbres) reste peu étudiée.
Premier objectif : comparer différentes approches d'évaluation des performances pour des modèles de régressions pénalisées (lasso, ridge) via une étude de simulation. Les différents scénarios envisagés feront varier le nombre d'observations et de variables disponibles dans le jeu de données, la nature de la réponse d'intérêt et la complexité du modèle de simulation considéré comme oracle. Nous proposerons une méthode de calcul d'optimisme intégrant la variabilité due à l'optimisation du paramètre de régularisation, puis élargirons le cadre aux forêts aléatoires et aux arbres boostés.
Deuxième objectif : développer, au sein du SNDS, des modèles prédictifs pour la consommation d'alcool et la corpulence. Nous développerons des scores prédictifs qui pourront éventuellement servir de variables d'ajustement dans les études menées sur le SNDS. Les réponses d'intérêt de nos modèles seront issues des données disponibles dans la cohorte Constances, tandis que les variables explicatives seront exclusivement issues du SNDS. A partir des travaux du premier axe, les performances de nos modèles pourront être évaluées de manière appropriée.
Troisième objectif : évaluer l'impact du pouvoir prédictif du score lorsqu'il est considéré comme facteur d'ajustement dans l'analyse d'une association entre une exposition et une pathologie d'intérêt. Utiliser le score comme variable d'ajustement soulève deux problèmes : il ne capture pas parfaitement la relation entre la variable non observée et la pathologie, laissant une confusion résiduelle, et la variabilité de son estimation n'est généralement pas intégrée dans le modèle final, conduisant à sous estimer la variance de l'estimateur. Cette évaluation s'appuiera sur un plan de simulation analogue à celui développé dans le premier axe. La variable à prédire sera simulée pour être soit un facteur de confusion, soit un prédicteur de la pathologie d'intérêt. L'analyse des résultats permettra de caractériser les conditions sous lesquelles l'ajustement sur un score prédictif est approprié.

Le Système National des données de Santé (SNDS) est une large base de données médico-administratives qui regroupe les informations individuelles et anonymisées sur la consommation de soins de la quasi-totalité de la population française (Tuppin et al. 2017). Malgré son exhaustivité et sa taille, le SNDS ne dispose pas d'informations renseignant directement sur les facteurs liés au mode de vie. Or, les caractéristiques du mode de vie sont bien souvent des facteurs de confusion pour de nombreux évènements de santé et sont, à ce titre, des facteurs d'ajustement incontournables dans de nombreuses études épidémiologiques. A défaut, les études pharmacoépidémiologiques menées à partir du SNDS ont recours à des algorithmes, construits à partir des données disponibles, telles que les remboursements de médicaments, les diagnostics d'hospitalisation ou encore les affections de longue durée. Ces indicateurs reposent généralement sur des règles de décision issues de connaissance d'experts.
De par la richesse et le volume des informations disponibles dans le SNDS, cette base de données se prête potentiellement au développement de modèles prédictifs basés sur des méthodes d'apprentissage automatique adaptées au contexte de la grande dimension. Néanmoins, pour ce faire, il est nécessaire de pouvoir disposer pour une partie de la population de l'information à prédire afin de pouvoir entrainer ces modèles de prédiction. Dans ce contexte, les grandes cohortes en population générale, chainée au SNDS telles que la cohorte Constances (Goldberg et al. 2017), représentent une ressource particulièrement précieuse.

La construction classique d'un modèle prédictif repose sur la séparation du jeu de données en deux sous-ensembles : un ensemble d'apprentissage, sur lequel le modèle est construit, et un ensemble de validation, sur lequel les performances prédictives du modèle sont évaluées. En comparant les prédictions obtenues et les réponses observées sur le jeu de validation, on peut estimer différentes métriques (Van Calster et al. 2024) qui permettent d'évaluer les performances prédictives du modèle. Dans le cas d'une réponse d'intérêt binaire, les performances prédictives sont décrites selon deux dimensions : la discrimination (capacité du modèle à classer correctement les individus) et la calibration (écart entre les résultats observés et les prédictions obtenues). Cependant, il a été montré depuis longtemps que cette approche peut être sous-optimale voire trompeuse (Steyerberg et al. 2001). En effet, elle conduit à se priver d'une partie importante des données pour l'étape d'apprentissage et/ou à estimer les performances prédictives sur un jeu de données trop petit, entraînant ainsi une grande variabilité dans les estimations fournies.
Des alternatives plus robustes consistent à entraîner le modèle sur l'ensemble des données disponibles, puis à estimer une mesure d'optimisme afin d'évaluer les performances prédictives réelles du modèle. L'optimisme est défini comme l'écart entre les performances apparentes, déterminées sur l'échantillon ayant servi au développement du modèle - par construction « optimistes », et les performances réelles attendues dans la population sous-jacente. Cet écart est estimé à l'aide du bootstrap (Harrell et al. 1996). Une autre méthode de rééchantillonnage, la validation croisée k-folds, consiste également à utiliser toutes les données disponibles pour développer le modèle. L'ensemble d'un jeu de données est partitionné en k sous-échantillons de sorte que chaque ensemble serve exactement k-1 fois d'ensemble d'apprentissage et une fois d'ensemble de validation. La performance moyenne sur les k itérations est considérée comme une estimation de la performance du modèle final. Dans une publication récente qui visait à comparer ces différentes approches, la méthode de bootstrap pour le calcul de l'optimisme s'est avérée la plus fiable pour obtenir une estimation des performances prédictives (Collins et al. 2024) .
Néanmoins, l'utilisation de ces méthodes d'évaluation appliquées à des méthodes d'apprentissage statistique, où la construction des modèles repose sur l'optimisation d'un ou plusieurs hyperparamètres (ex : paramètre de régularisation pour une régression pénalisée, taux d'apprentissage ou profondeur des arbres pour des arbres de classification boostés), restent peu étudiées.

Dans le cadre du projet SCOP ((https://www.constances.fr/espace-scientifique/recherches-et-etudes/construction-de-scores-predictifs-de-facteurs-lies-au-mode-de-vie-chainage-de-la-cohorte-constances-au-systeme-national-des-donnees-de-sante/) financé par le Health Data Hub, nous avons cherché à développer un modèle prédictif du statut tabagique binaire (ever/never) à partir des données de la cohorte Constances. Nous avons été confrontés à la difficulté d'évaluer de manière fiable les performances prédictives de nos modèles développés dans le contexte de la grande dimension. En particulier, le calcul de l'optimisme a montré que les modèles ajustés sur les échantillons bootstrap étaient bien plus complexes que le modèle développé sur les données originales, ce qui pose question sur la pertinence de l'évaluation des performances prédictives de ce dernier avec cette approche. Afin de proposer une méthode fiable d'estimation de ces performances, il devient indispensable d'approfondir notre compréhension théorique de cette problématique d'évaluation.

1) Évaluation des méthodes d'estimation des performances prédictives de modèles adaptés au contexte de la grande dimension via une étude de simulations, et proposition d'une stratégie pour intégrer dans l'estimation de l'optimisme de nos modèles la variabilité liée à l'optimisation d'hyperparamètres.
2)Application au SNDS, construction et évaluation des scores prédictifs :
a.de la consommation d'alcool,
b.de la corpulence.
3)Évaluation de l'influence des performances prédictives des scores issus de l'apprentissage statistique sur le biais et la variance des estimations d'association dans les études observationnelles.

Le premier objectif de ce projet consiste à comparer différentes approches permettant de mesurer les performances prédictives de modèles construits à l'aide de régressions pénalisées (régression lasso (Tibshirani 1996), ridge (Hoerl et Kennard 2000)). À cette fin, une étude de simulation approfondie sera menée. Afin de préserver les spécificités et la complexité des bases médico-administratives, nos simulations seront basées sur des données réelles (Franklin et al. 2014). Les différents scénarios envisagés feront varier le nombre d'observations et de variables disponibles dans le jeu de données, la nature de la réponse d'intérêt (binaire, catégorielle ou continue) et la complexité du modèle de simulation considéré comme oracle. La contrainte computationnelle liée à l'utilisation du bootstrap dans le cadre d'une étude de simulation à grande échelle, sera explicitement prise en compte grâce à l'optimisation du code et la parallélisation des calculs. Notre objectif final est de proposer une méthode de calcul d'optimisme capable d'intégrer la variabilité due à l'optimisation du paramètre de régularisation, afin de « corriger » les différents indicateurs des performances prédictives de nos modèles. Par la suite, nous élargirons le cadre de cette étude aux méthodes ensemblistes comme les forêts aléatoires (Breiman 2001) les arbres de classification boostés (Hastie et al. 2009).

Le deuxième objectif de ce projet de thèse vise à développer, au sein du SNDS, des modèles prédictifs relatifs à deux facteurs liés au mode de vie : la consommation d'alcool et la corpulence. Ces deux variables, largement reconnues comme facteurs de risque pour de nombreuses maladies (Griswold et al. 2018 ; Ng et al. 2025), ne sont pas directement renseignées dans le SNDS, ce qui pose des défis méthodologiques pour les études observationnelles conduites sur ces données. Le groupement d'intérêt EPIPhare a proposé des indicateurs binaires construits à partir de diagnostics et de médicaments associés (Tran et al. 2025) : un indicateur de consommation excessive d'alcool, et un indicateur d'obésité. A notre connaissance ces indicateurs n'ont pas fait l'objet de validation dans le contexte des données françaises. En revanche, cet effort de validation a déjà été entrepris pour d'autres bases de données médico-administratives concernant l'obésité (Suissa et al. 2024). Dans ce travail, nous développerons et évaluerons des scores prédictifs (le terme « score » désignant l'estimation fournie par le modèle) qui pourront éventuellement servir de variables d'ajustement dans les études menées sur le SNDS. Les réponses d'intérêt de nos modèles seront issues des données disponibles dans Constances, tandis que les variables explicatives seront exclusivement issues du SNDS. Une réflexion méthodologique sera menée afin de déterminer la meilleure façon de définir nos réponses d'intérêt à partir des informations disponibles pour caractériser au mieux ces comportements de santé. Différentes stratégies seront envisagées : binariser, catégoriser ces facteurs d'intérêts (ex : différentes catégories de consommateurs d'alcool, utilisation de la classification de l'Organisation Mondiale de la Santé pour l'Indice de Masse Corporel) ou les considérer comme des variables continues. A l'aide des résultats précédemment obtenus, les performances de nos modèles prédictifs pourront être évaluées de manière appropriée. En parallèle de ce travail, les indicateurs précédemment proposés seront implémentés, et nous serons en capacité d'évaluer leurs performances en termes de discrimination.

Dans un troisième temps, nous évaluerons l'impact du pouvoir prédictif du score lorsqu'il est considéré comme facteur d'ajustement dans l'analyse d'une association entre une exposition et une pathologie d'intérêt. En effet, considérer le score comme une variable d'ajustement « classique » pose plusieurs défis méthodologiques. D'une part, le score ne reflète pas parfaitement la relation entre la variable non observée (approchée par le score) et la pathologie, ce qui peut laisser subsister de la confusion résiduelle. D'autre part, la variabilité inhérente à l'étape d'estimation du score est rarement prise en compte dans le modèle final, ce qui peut conduire à une sousestimation de la variance de l'estimateur. Cette évaluation s'appuiera sur un plan de simulation analogue à celui développé dans le premier axe. La variable à prédire sera simulée pour être soit un facteur de confusion dans la relation entre l'exposition et la pathologie d'intérêt, soit un prédicteur de la pathologie d'intérêt. L'analyse des résultats permettra de caractériser les conditions sous lesquelles l'ajustement sur un score prédictif est approprié.

Ce projet de thèse s'inscrit dans la continuité du projet SCOP, tout en visant à approfondir les questionnements théoriques soulevés lors de sa mise en oeuvre. L'accès aux données de la cohorte Constances, via la bulle sécurisée du Centre d'Accès Sécurisé aux Données (CASD), est financé jusqu'au premier trimestre 2027 par le projet en cours. Pour l'accès aux données sur la suite de la thèse, il pourra être prise en charge par les fonds de la Chaire de Professeur Junior d'Émeline Courtois. Après accord du Health Data Hub et de l'UMS 11, le doctorant sera intégré au projet ; son compte utilisateur sera créé à l'issue d'une formation obligatoire auprès du CASD.

Le profil recherché

Master 2 en biostatistique/science des données.
Diplôme d'ingénieur (bio)statistique / science des données / apprentissage (ex. ENSAE, ENSAI, CentralSupélec).
Compétence en statistiques, et appétence pour l'étude approfondie de méthodes d'apprentissages statistiques, notamment en grande dimension, ainsi que pour la conduite d'études de simulations. Des connaissances en algorithmique et modélisation prédictive sont un plus.
Excellente maitrise du logiciel R.
Intérêt pour l'épidémiologie/la santé publique.
Capacités rédactionnelles en français et en anglais.

Postuler sur le site du recruteur

Ces offres pourraient aussi vous correspondre.

Parcourir plus d'offres d'emploi