Thèse Analyse de Trajectoires de Santé Augmentées par Approches Multimodales - Application au Syndrome d'Apnée Obstructive du Sommeil H/F - Doctorat.Gouv.Fr
- Grenoble - 38
- CDD
- Doctorat.Gouv.Fr
Les missions du poste
Établissement : Université Grenoble Alpes École doctorale : MSTII - Mathématiques, Sciences et technologies de l'information, Informatique Laboratoire de recherche : Translational Innovation in Medicine and Complexity Direction de la thèse : Sophie LAMBERT LACROIX ORCID 0009000361115303 Début de la thèse : 2026-10-01 Date limite de candidature : 2026-06-09T23:59:59 Cette thèse, encadrée par Sophie Lambert-Lacroix et Caroline Bazzoli (laboratoire TIMC) ainsi que Renaud Tamisier (CHUGA/HP2), porte sur l'analyse de trajectoires de santé augmentées par des approches multimodales, avec une application au syndrome d'apnée obstructive du sommeil (SAOS).
Une trajectoire de santé retrace l'évolution longitudinale de l'état de santé d'un individu : maladies, traitements, bilans biologiques, signaux physiologiques, comptes-rendus médicaux, etc. Elle se distingue de la simple trajectoire de soin en offrant une vision plus large et dynamique. Le terme « augmentée » désigne ici deux dimensions : l'enrichissement par des données contextuelles (socio-économiques, environnementales) et l'intégration multimodale de sources hétérogènes pour une meilleure compréhension globale du patient.
Le SAOS, pathologie chronique touchant 15 à 20 % des adultes et influencée par des facteurs extra-médicaux (sédentarité, stress, rythme de vie), constitue un cas d'usage idéal, dont l'analyse ne peut se limiter à un seul type de données.
Les approches classiques de modélisation atteignent leurs limites face à des données hétérogènes, évoluant à des échelles temporelles différentes et souvent incomplètes. Les méthodes d'intégration multimodale offrent un cadre adapté, mais soulèvent des questions clés : comment fusionner les données ? À quel niveau ? Trois stratégies existent - fusion précoce, intermédiaire ou tardive - chacune impliquant des compromis entre expressivité, robustesse et interprétabilité. La dimension longitudinale ajoute des défis supplémentaires : alignement temporel, gestion des données manquantes, hétérogénéité des pas de temps. Si les modèles d'apprentissage profond (transformers, réseaux graphiques) ont montré des résultats prometteurs, leur besoin en grandes quantités de données et leur faible interprétabilité freinent leur adoption en contexte clinique. La thèse privilégie donc des approches statistiques classiques couplées à des méthodes de réduction de dimension, tout en les comparant aux modèles profonds pour évaluer le compromis entre performance prédictive et lisibilité clinique.
Cette thèse présente plusieurs objectifs. Le premier est de développer un cadre méthodologique statistique pour l'analyse de trajectoires de santé augmentées, articulant approches exploratoires et prédictives, et capable d'intégrer des données multimodales hétérogènes. Le deuxième objectif est d'appliquer ce cadre à la cohorte SAOS du CHUGA (base EDS MARS), afin d'identifier des sous-groupes de patients aux trajectoires distinctes, d'anticiper les profils non-répondeurs au traitement et de proposer des stratégies thérapeutiques personnalisées. Enfin, la thèse vise à poser les bases d'un cadre générique et modulaire, transposable à d'autres pathologies chroniques ou suivis post-thérapeutiques.
À l'issue de la thèse, les livrables attendus comprennent un cadre méthodologique validé et documenté, distribué sous forme de package R ou Python en open source ; des publications dans des revues de statistique appliquée et une publication clinique ; des communications dans des congrès nationaux et internationaux (CMstatistics, Journées de la Statistique, useR!, Rencontres R) ; et une valorisation clinique directe en lien avec l'équipe du Pr. Tamisier.
La trajectoire de santé désigne la séquence temporelle des états de santé d'un individu, intégrant l'évolution d'une maladie, les traitements reçus, les prescriptions et les résultats d'examens biologiques ou cliniques. Elle se distingue de la trajectoire de soin, qui correspond à l'enchaînement chronologique des événements cliniques, des expositions thérapeutiques et des décisions médicales documentés dans le dossier patient. Là où la trajectoire de soin constitue une trace rétrospective du parcours médical effectif de l'individu, la trajectoire de santé en constitue une représentation plus large et dynamique, visant à restituer la réalité longitudinale de l'état de santé d'un individu, dans toute sa complexité et sa continuité temporelle. L'analyse d'une trajectoire de santé va permettre à la fois d'améliorer la détection des déterminants des maladies et d'affiner leur prédiction, ouvrant ainsi la voie à une prise en charge plus personnalisée des patients, une sélection plus ciblée des traitements, et une prévention plus efficace des risques en amont. Elle peut-être caractérisée par une multitude de données : données structurées (bilans biologiques, constantes vitales, scores cliniques, médicaments), données non structurées (comptes-rendus médicaux, notes d'hospitalisation), données d'imagerie médicale, signaux physiologiques, etc. selon les applications cliniques considérées.
Cette trajectoire de santé s'inscrit naturellement dans une trajectoire de vie plus large, façonnée par des dimensions sociales, environnementales et résidentielles, etc. La qualification « augmentée » d'une trajectoire de santé prend alors ici deux sens complémentaires. D'une part, augmentée par d'autres types de données personnelles de diverses natures, et également contextuelles (socio-économiques et environnementales). D'autre part, augmentée par l'intégration multimodale, c'est-à-dire la prise en compte simultanée de différentes sources de données hétérogènes pour une meilleure prise décision. Chacune de ces données apporte des informations complémentaires sur l'individu ou parfois redondantes à un instant donné. C'est précisément leur mise en relation qui permet de construire une compréhension plus robuste de la trajectoire.
Ce projet de thèse intègre une application clinique à fort enjeu, le syndrome d'apnée obstructive du sommeil (SAOS), une pathologie chronique touchant 15 à 20% des adultes et étroitement liées à des déterminants extra-médicaux comme le rythme de vie, le stress professionnel, sédentarité,etc. Cette pathologie constitue un cas d'usage pertinent dont la trajectoire des individus ne peut être analysée qu'en tenant compte de sources de données multiples et hétérogènes.
Cette thèse s'inscrit dans les thématiques de recherche de l'équipe MESP du laboratoire TIMC autour de l'analyse de données complexes par approches de modélisation statistique adaptées aux ensembles de données hétérogènes et dynamiques, en élaborant notamment des pipelines évolutifs d'apprentissage automatique et d'intégration de données multimodales.
L'objectif principal de cette thèse est de développer un cadre méthodologique statistique pour l'analyse de trajectoires de santé augmentées, fondé sur l'intégration multimodale de données hétérogènes. Il s'agit, d'une part, de combiner ces différentes sources d'information à l'aide de méthodes statistiques et d'apprentissage automatique adaptées, afin d'identifier leur complémentarité et leur redondance, et, d'autre part, d'exploiter cette intégration pour affiner la caractérisation des trajectoires individuelles. Ce cadre articulera des approches exploratoires et des approches prédictives supervisées, dont les performances seront confrontées à celles des modèles d'apprentissage profond multimodaux.
Le deuxième objectif est d'appliquer ce cadre méthodologique à la cohorte SAOS, dédiée à l'étude du syndrome d'apnées obstructives du sommeil. Dans ce contexte, l'identification de sous-groupes de patients présentant des trajectoires distinctes permettrait de mieux comprendre la physiopathologie de cette maladie, d'anticiper les profils de patients non-répondeurs au traitement de référence, et d'orienter vers des stratégies thérapeutiques personnalisées et adaptées au profil évolutif de chaque patient. Sous réserve de la disponibilité et l'obtention de données contextuelles adéquates, une perspective analytique axée sur l'épidémiologie sociale pourra être intégrée. Celle-ci visera spécifiquement à quantifier l'impact des inégalités socio-économiques et territoriales sur ces trajectoires de santé et sur l'accès aux soins. Ces applications constitueraient à la fois un terrain de validation des méthodes développées et une contribution clinique directe à la prise en charge du SAOS.
Enfin, au-delà de cette application spécifique, la thèse ambitionne de discuter les conditions de transposition de ce cadre méthodologique à d'autres cohortes et à de nouvelles problématiques cliniques. En posant les bases d'une approche générique, modulaire et documentée, ce travail vise à fournir à la communauté des outils réutilisables pour l'analyse multimodale de trajectoires de santé dans des contextes variés, qu'il s'agisse de maladies chroniques, de pathologies complexes ou de suivis post-thérapeutiques.
D'un point de vue statistique, une trajectoire de santé augmentée est caractérisée par un ensemble de variables évoluant au fil du temps, provenant de sources hétérogènes, observées à différentes échelles temporelles et sous des formats variés. Face à cette complexité, les approches classiques de modélisation, conçues pour des données homogènes et régulièrement observées, atteignent rapidement leurs limites. C'est précisément là qu'interviennent les approches d'intégration multimodale, qui offrent un cadre formel pour combiner des sources de données de natures différentes au sein d'un même processus d'apprentissage.
Les avancées récentes en apprentissage multimodal ouvrent la voie à des modèles capables d'intégrer conjointement des sources de données hétérogènes, offrant une représentation plus fidèle de la complexité clinique (Krones et al., 2025). Plusieurs travaux ont montré la supériorité des approches multimodales sur les approches unimodales pour des tâches telles que le diagnostic, la prédiction de rechute ou la stratification pronostique (Acosta et al.,2022 ; Huang et al., 2021).
La question centrale de l'intégration multimodale est celle de la stratégie de fusion (Qiu et al. 2022), c'est-à-dire comment et à quel niveau combiner des informations hétérogènes pour produire une représentation unifiée. Trois grandes stratégies se distinguent : la fusion précoce, qui combine les données brutes ou leurs représentations avant tout apprentissage ; la fusion intermédiaire, qui opère au niveau des représentations latentes apprises par chaque modalité ; et la fusion tardive, qui agrège les prédictions produites indépendamment par chaque modalité. Chacune implique des compromis distincts en termes d'expressivité, de robustesse aux données manquantes et d'interprétabilité. Si l'intégration transversale de modalités multiples soulève déjà des défis méthodologiques substantiels, la dimension longitudinale propre aux trajectoires de santé en ajoute d'autres (Zhuang et al., 2025), liées notamment à l'alignement temporel de sources observées à des pas de temps hétérogènes, et à la gestion des données manquantes.
Ces enjeux de fusion sont, par ailleurs, conditionnés en amont par la nature des données elles-mêmes, qui requièrent des prétraitements spécifiques à chaque modalité. Les signaux physiologiques nécessitent des méthodes de traitement du signal telles que la décomposition temps-fréquence ou la détection d'événements ; les données textuelles doivent être encodées sous forme de représentations vectorielles denses, via des modèles de langage pré-entraînés ou des approches de type sac de mots ; les données structurées tabulaires appellent des procédures de normalisation, d'imputation et de recodage adaptées à leur distribution. Ces étapes de prétraitement constituent un préalable indispensable à toute analyse intégrative (Krones et al., 2025).
Par ailleurs, si les modèles d'apprentissage profond multimodaux (Lipkova et al., 2022, Chen et al., 2022) - transformers, réseaux de neurones graphiques, modèles à fusion tardive - ont produit des résultats prometteurs, leur exigence en volumes de données massifs et leurs difficultés d'interprétabilité constituent des obstacles majeurs à leur adoption en contexte clinique réglementé. Les modèles statistiques classiques, combinées à des méthodes de réduction de dimension adaptées aux données de grande dimension et de nature mixte, offrent une alternative interprétable, adaptée aux cohortes de taille modérée, et permettant une méthodologie statistique rigoureuse (Bazzoli & Lambert, 2018 ; Bazzoli et al., 2023). Ces approches constitueront le socle méthodologique privilégié de cette thèse. Leurs performances prédictives et exploratoires seront confrontées à celles des modèles d'apprentissage profond multimodaux, afin d'évaluer le compromis entre capacité prédictive, besoin en données et interprétabilité des résultats dans un contexte clinique.
Ce projet de thèse répond au besoin scientifique de développer un cadre méthodologique pour produire des résultats interprétables et cliniquement exploitables dans une perspective à la fois exploratoire et prédictive. Dans ce contexte, ce projet prend appui sur la e-cohorte du laboratoire HP2 au sein de l'EDS MARS-database de patients consultant pour une suspicion de syndrome d'apnée obstructive du sommeil (SAOS) suivis au CHU Grenoble Alpes (CHUGA), au sein de l'équipe du Pr. Renaud Tamisier. Cette cohorte, déjà valorisée dans des publications récentes [Tamisier et al., 2023 ; 2025], constitue un terrain d'investigation particulièrement riche et original. Elle regroupe un grand nombre de variables collectées à des pas de temps variables et hétérogènes, couvrant plusieurs domaines. Si des analyses transversales et des études de suivi ont été menées sur cette cohorte, aucune analyse de trajectoire en amont n'a encore été conduite pour reconstituer les enchaînements d'états de santé qui expliquent la situation actuelle des patients.
Le profil recherché
Compétence en mathématiques appliquées : apprentissage automatique et statistique computationnelle