Recrutement Aix Marseille Université

Thèse Astria - Après Cancer Pédiatrique et Séquelles Tardives Améliorer la Compréhension du Risque à Long Terme par des Modèles d'Intelligence Artificielle Multimodaux H/F - Aix Marseille Université

  • Marseille - 13
  • CDD
  • Aix Marseille Université
Publié le 17 mars 2026
Postuler sur le site du recruteur

Les missions du poste

Établissement : Aix Marseille Université
École doctorale : Recherches Biomédicales
Laboratoire de recherche : SESSTIM - Sciences Economiques & Sociales de la Santé et Traitement de l'Information Médicale
Direction de la thèse : Maria Raquel URENA PEREZ ORCID 0000000240997437
Début de la thèse : 2026-10-01
Date limite de candidature : 2026-04-15T23:59:59

La participation à un suivi clinique à long terme est énoncée par tous les auteurs comme nécessaire pour les survivants d'un cancer de l'enfance. Néanmoins, la connaissance des déterminants des séquelles à long terme reste encore parcellaire, une part importante de la variabilité restant encore non expliquée par les modèles classiques, et le champ émergent de la recherche sur la prédisposition génétique aux séquelles ouvre des perspectives nouvelles.
Le dispositif français de suivi à long terme après hémopathie maligne pédiatrique LEA (Leucémie et autres hémopathies malignes de l'Enfant et Adolescent) est une opportunité, originale dans le contexte international (aucune cohorte de suivi n'a combiné comme LEA une telle profondeur de phénotypage clinique avec des données génomiques exhaustives pour les survivants d'hémopathie maligne pédiatrique), d'approfondir la connaissance du risque individuel de séquelles et le pilotage personnalisé du suivi à long-terme à partir de modélisations multimodales d'intelligence artificielle.
S'appuyant sur ces données LEA, ce projet de thèse vise à développer et valider des modèles d'intelligence artificielle multimodaux et explicables permettant d'estimer les déterminants génétiques, cliniques, thérapeutiques et socio-environnementaux des séquelles à long terme chez les survivants après traitement d'une hémopathie maligne pédiatrique.
Ce projet répond directement à la stratégie décennale de lutte contre les cancers, dans le cadre de l'action « Prévenir, dépister, traiter les séquelles liées à la maladie ou au traitement » ou de l'action « Se mobiliser pour faire reculer les cancers de l'enfant, de l'adolescent, du jeune adulte », qui met en avant le besoin de structurer un suivi à long terme personnalisé accessible à tous et à vie.

Grâce aux progrès thérapeutiques réguliers des dernières décennies, le pronostic des enfants atteints de cancer est transformé, particulièrement dans les hémopathies malignes : on observe plus de 80% de guérison contre seulement 40% dans les années 1970 [Ssenyonga 2022]. Cependant la maladie traversée, l'intensité des traitements reçus, les difficultés du parcours rencontrées les exposent à des effets secondaires tardifs qui peuvent longtemps après retentir sur leur état de santé, leur qualité de vie et leur insertion sociale [Suh 2020]. L'enjeu du suivi à long terme de ces patients et de la prise en compte de ces effets secondaires tardifs est ainsi crucial, nombre de ces séquelles, humainement et financièrement lourdes, étant de plus accessibles à la prévention secondaire (60% des patients survivants présentent au moins une séquelle majeure, dont les 2/3 accessibles à la prévention).
Néanmoins, la connaissance des déterminants de ces séquelles reste encore parcellaire, une part importante de la variabilité restant encore non expliquée par les modèles classiques, et le champ émergent de la recherche sur la prédisposition génétique aux séquelles ouvre des perspectives nouvelles [Bollier 2025].
Il existe en France le programme de recherche LEA (Leucémie et autres hémopathies malignes de l'Enfant et Adolescent) dont l'objectif est de décrire et mieux comprendre l'état de santé à long terme (à la fois physique et psychosocial) de patients ayant été traités pour hémopathie maligne de l'enfance, via un suivi originalement construit autour de consultations médicales régulières dédiées, de biobanking et de données auto-rapportées. L'ensemble des données recueillies dans le cadre de LEA couvre, et de façon plus large, le core-set minimal récemment recommandé par l'International Childhood Cancer Outcome Project pour évaluer les soins de suivi des survivants d'un cancer pédiatrique [van Kalsbeek 2023]. Ce dispositif a été initié en 2003 à Marseille et s'est ouvert au fur et à mesure des années depuis 20 ans à 18 autres CHU en France pour constituer une cohorte historico-prospective ouverte de grande ampleur (8 500 patients suivis). La participation à la cohorte LEA est ainsi proposée à tous les patients traités pour une hémopathie maligne de l'enfance depuis janvier 1980 et survivant à 1 an après la fin du traitement. Les visites de suivi d'un même patient dans le cadre du dispositif LEA sont planifiées tous les 2 ans puis, lorsqu'il est âgé d'au moins 20 ans et que le recul depuis le diagnostic ou la dernière rechute est d'au moins 10 ans, tous les 4 ans jusqu'à ce que le patient atteigne l'âge de 50 ans [Berbis 2015 ; Saultier 2024].
Les données recueillies dans le suivi LEA documentent de façon précise l'histoire de la maladie (âge au diagnostic, type d'hémopathie, détail du traitement reçu - type et doses de chimiothérapie, irradiations, greffes de cellules souches hématopoïétiques - rechute), le niveau socioéconomique du patient au diagnostic et à chaque visite, l'état de santé à long terme au rythme des visites régulières (20 modules de séquelles physiques dépistées par examens clinique et paracliniques), l'évolution de la qualité de vie des patients et leur insertion sociale (auto-questionnaire régulier), ainsi que les données génétiques (plus de 2500 prélèvements biobanqués et déjà plus de 1000 séquencés).

Ce dispositif est ainsi une opportunité, originale dans le contexte international (aucune cohorte de cette ampleur n'a combiné une telle profondeur de phénotypage clinique avec des données génomiques exhaustives pour les survivants d'hémopathie maligne pédiatrique), d'approfondir la connaissance du risque individuel de séquelles et le pilotage personnalisé du suivi à long-terme à partir de modélisations multimodales d'intelligence artificielle s'appuyant sur le riche jeu de données du dispositif.

La participation à un suivi clinique à long terme est énoncée par tous les auteurs comme nécessaire pour les survivants d'un cancer de l'enfance, dans le but de faciliter leur information concernant les conséquences du cancer, la détection précoce des séquelles liées aux traitements reçus et la mise en oeuvre d'interventions de promotion de la santé (concernant le tabac par exemple, ou l'activité physique).
Ce projet répond directement à la stratégie décennale de lutte contre les cancers, dans le cadre de l'action « Prévenir, dépister, traiter les séquelles liées à la maladie ou au traitement » ou de l'action « Se mobiliser pour faire reculer les cancers de l'enfant, de l'adolescent, du jeune adulte », qui met en avant le besoin de structurer un suivi à long terme personnalisé accessible à tous et à vie.

Ce projet de thèse vise à développer et valider des modèles d'intelligence artificielle multimodaux et explicables permettant d'estimer les déterminants génétiques, cliniques, thérapeutiques et socio-environnementaux des séquelles à long terme chez les survivants après traitement d'une hémopathie maligne pédiatrique, à partir des données du dispositif national de suivi LEA. Il répond à une limitation majeure de l'organisation du suivi pour les survivants : la connaissance encore parcellaire du risque à long terme et le manque d'outils fiables permettant d'identifier de façon plus personnalisée les patients à risque de développer des effets tardifs, notamment des maladies cardiovasculaires, des tumeurs secondaires ou des troubles endocriniens.
Le projet se déclinera en trois grandes étapes :
(1) l'intégration de données multimodales afin de combiner les données cliniques, thérapeutiques, génomiques et socio-environnementales rapportées par les patients dans des modèles prédictifs unifiés ;
(2) l'apprentissage automatique causal et l'IA explicable afin d'identifier les relations causales entre les expositions au traitement et les effets tardifs et de garantir l'interprétabilité clinique et la fiabilité des prédictions ;
(3) la validation clinique et la diffusion.
Les résultats attendus comprennent un pipeline réutilisable d'intégration et d'exploitation des données basé sur l'IA multimodale pour la cohorte LEA, l'identification des déterminants du risque d'effets tardifs grâce à l'analyse causale et l'IA explicable, et le développement d'un prototype de système d'aide à la décision clinique basé sur l'IA pour la prédiction des effets tardifs.

Année 1 : Intégration de données multimodales et développement d'une architecture d'apprentissage profond.
S'appuyant sur l'infrastructure de données harmonisées de la cohorte LEA, cette phase se concentrera sur la conception et la mise en oeuvre d'architectures d'apprentissage profond capables d'intégrer des modalités de données hétérogènes. Il s'agira de développer des modèles basés sur des transformateurs pour encoder les trajectoires de traitement temporelles et les événements cliniques [Xian 2025], mettre en oeuvre des mécanismes d'attention intermodaux pour capturer les interactions entre différentes modalités de données telles que les variants génomiques, les expositions aux traitements et les phénotypes cliniques, et explorer des approches d'intégration par fusion tardive [Steyaert 2023, Acosta 2022] pour permettre au système de fonctionner même en cas de modalités manquantes. Les modèles prédictifs initiaux pour les effets tardifs majeurs (maladies cardiovasculaires, tumeurs secondaires, dysfonctionnements endocriniens, troubles neurocognitifs) seront entraînés et validés en interne à l'aide de techniques de validation croisée, avec une évaluation préliminaire des performances en termes d'AUC, de rappel F1-Score et de sensibilité des modalités de données manquantes.
Année 2 : Identification des déterminants génétiques et cliniques par analyse causale et Intelligence Artificielle explicative.
La phase suivante se concentrera sur l'analyse causale, tout en veillant à ce que les modèles restent interprétables et cliniquement significatifs. Des forêts aléatoires généralisées permettront d'estimer les effets hétérogènes des traitements et détecter les sous-groupes de patients présentant différentes susceptibilités aux effets tardifs. Des réseaux bayésiens causaux seront développés pour représenter les voies reliant les traitements, les facteurs génétiques, les phénotypes intermédiaires et les résultats à long terme. Afin de renforcer les affirmations causales, des stratégies d'estimation doublement robustes seront appliquées et la sensibilité aux facteurs de confusion potentiels non mesurés sera évaluée. Les résultats seront comparés aux associations traitement-toxicité établies rapportées dans les essais cliniques et les études mécanistiques.
Parallèlement, l'interprétabilité sera intégrée dans le processus de modélisation. Nous quantifierons les contributions des caractéristiques au niveau individuel à l'aide des valeurs SHAP et LIME seront quantifiées, des scénarios contrefactuels [Del Ser 2024]pour illustrer comment des changements dans des facteurs de risque spécifiques pourraient modifier les résultats prévus seront générés, et les pondérations d'attention seront analysées afin d'identifier les éléments de données qui influencent les décisions du modèle.
Année 3 : Évaluation des biais, validation clinique et diffusion.
La dernière partie du travail pourra évaluer les performances et l'utilité clinique du modèle à travers une validation interne et externe utilisant des cohortes indépendantes de survivants provenant de collaborateurs internationaux afin d'évaluer la généralisation du modèle à travers différentes populations. Des audits d'équité seront menés à ce stade afin de détecter et d'atténuer les biais algorithmiques potentiels à travers différents sous-groupes démographiques. Parallèlement, un prototype d'AI-CDSS pourra être développé intégrant des modèles de prédiction validés avec des outils d'explicabilité et de causalité.

Le profil recherché

Connaissances approfondies du deep learning et machine learning. Expérience du traitement des données de cohortes cliniques. Solide connaissance de programmation python. Rigueur, sens de l'organisation, méthode
Faculté d'écoute et d'adaptation, facilité à travailler en équipe pluridisciplinaire
Connaissances de la langue anglaise permettant la rédaction d'articles scientifiques et la participation dans des conférences internationales.

Postuler sur le site du recruteur

Ces offres pourraient aussi vous correspondre.