Recrutement Doctorat.Gouv.Fr

Thèse Intégration de Données Multimodales avec des Blocs de Données Manquantes dans l'Étude des Effets des Rayonnements Ionisants à Faible Dose H/F - Doctorat.Gouv.Fr

  • Paris - 75
  • CDD
  • Doctorat.Gouv.Fr
Publié le 30 juin 2026
Postuler sur le site du recruteur

Les missions du poste

Établissement : Université Paris-Saclay GS Informatique et sciences du numérique École doctorale : Sciences et Technologies de l'Information et de la Communication Laboratoire de recherche : Laboratoire des Signaux et Systèmes Direction de la thèse : Arthur TENENHAUS ORCID 0000000157795199 Début de la thèse : 2026-10-01 Date limite de candidature : 2026-09-21T23:59:59 Selon l'Organisation mondiale de la Santé, les maladies cardiovasculaires (MCV) causent près de 17,9 millions de décès par an dans le monde. Les études épidémiologiques montrent une association entre l'exposition aux rayonnements ionisants (RI) et certaines MCV, notamment l'athérosclérose et les accidents vasculaires cérébraux, pour des doses modérées à élevées (> 500 mGy). En revanche, les effets des faibles doses restent mal compris en raison d'un manque de connaissances biologiques et de limitations statistiques.Le stress constitue également un facteur majeur de risque cardiovasculaire. Il active le système nerveux sympathique et l'axe hypothalamo-hypophyso-surrénalien, entraînant la production d'espèces réactives de l'oxygène et de médiateurs inflammatoires. À long terme, ces mécanismes favorisent les lésions vasculaires pouvant conduire à des événements ischémiques ou hémorragiques tels que l'infarctus du myocarde ou l'AVC.

À ce jour, peu d'études ont évalué les effets combinés des faibles doses de RI et d'un cofacteur de risque comme le stress. Dans ce contexte, le projet SIROCCO a généré des données expérimentales visant à mieux comprendre les mécanismes biologiques associés à cette co-exposition. L'exploitation de ces données nécessite l'intégration de multiples sources d'information, notamment des données omiques (transcriptomique, métabolomique, lipidomique), d'imagerie et de physiologie.

Ces jeux de données multimodaux, ou multiblocs, permettent une compréhension plus globale des phénomènes biologiques grâce à des méthodes de réduction conjointe de dimension qui extraient des composantes latentes résumant l'information partagée entre les blocs. Le cadre statistique de Regularized Generalized Canonical Correlation Analysis (RGCCA) constitue une approche flexible pour identifier ces structures communes.

Cependant, les données multiblocs comportent fréquemment des valeurs manquantes, parfois sous forme de blocs entiers absents pour certains individus. Plusieurs méthodes ont été proposées pour les traiter, notamment les approches basées sur les plus k-proches voisins, l'algorithme NIPALS, les méthodes fondées sur la décomposition en valeurs singulières ou encore les algorithmes EM. Néanmoins, leurs performances se dégradent lorsque la proportion de données manquantes devient importante, situation fréquente dans les données multimodales.

L'objectif de cette thèse est donc d'étendre le cadre statistique de RGCCA pour traiter directement les données manquantes par bloc. Ces développements méthodologiques contribueront à une meilleure identification des facteurs de risque cardiovasculaire et à une meilleure compréhension des effets combinés des faibles doses d'irradiation et du stress. Malgré l'abondance croissante de données disponibles et l'émergence du Big Data au sein des laboratoires de biologie expérimentale (RNA-seq, métabolomique, lipidomique...), la gestion des données manquantes demeure un défi majeur pour exploiter pleinement l'information disponible. Pour relever ce défi, des approches méthodologiques spécifiques sont nécessaires pour intégrer différentes modalités de données et identifier les
mécanismes d'action impliqués dans la réponse d'un organisme à un stress.

Eliminer les données manquantes, peut non seulement réduire la précision et la puissance statistique de l'étude, mais aussi introduire des biais significatifs dans les modèles d'analyse intégrative, conduisant finalement à des résultats erronés [1]. Ces problématiques sont étroitement liées aux caractéristiques intrinsèques des données
générées et aux méthodes d'intégration utilisées pour traiter ces ensembles de données volumineux, souvent impactés par un nombre important de données manquantes. Par ailleurs, étant observées à différentes échelles biologiques, ces mêmes données présentent des niveaux de fluctuation pouvant être induits par des facteurs
confondants et/ou des co-expositions, qui nécessitent l'application de facteurs correctifs dans l'analyse des données brutes.

Ce projet de thèse repose sur les données omiques d'une étude examinant les effets d'une exposition à de faibles doses de rayonnements ionisants couplée au facteur de risque du stress psychique sur la pathologie athéromateuse et ses conséquences vasculaires. Les données d'analyse ayant déjà été produites pour différentes modalités, les deux premières années de la thèse seront dédiées au développement d'une méthodologie d'analyse intégrative (multimodale) prenant en compte les facteurs de co-exposition dans l'imputation des données. La dernière année sera consacrée à
l'analyse des données et à l'interprétation des résultats à l'aide de méthodes bio-informatiques d'enrichissement des voies biologiques.

Ce projet permet de poursuivre l'axe méthodologique de la thèse d'Elen GOUJON sur les facteurs confondants [2] (projet MORDOR) en abordant la problématique de co-exposition dans un contexte différent .

En effet, le projet MORDOR portait sur un cas d'étude accidentel Tchernobyl où les
scénarios et la nature de la co-exposition n'étaient pas ou très partiellement connus.
Les données expérimentales qui seront analysées dans le présent projet ont en revanche l'avantage d'être issues d'une étude expérimentale mené au laboratoire
LRTOX où les facteurs confondants et le type de co-exposition sont connus et maîtrisés. A terme, les résultats de ces deux thèses permettront la prise en compte de facteurs confondants dans l'exploitation de l'information biologique des données dans différents contextes d'acquisition des données à faibles doses d'exposition. Ce projet de thèse repose sur les données omiques d'une étude examinant les effets d'une exposition à de faibles doses de rayonnements ionisants couplée au facteur de risque du stress psychique sur la pathologie athéromateuse et ses conséquences vasculaires.

Les données d'analyse ayant déjà été produites pour différentes modalités, les deux premières années de la thèse seront dédiées au développement d'une méthodologie d'analyse intégrative (multimodale) prenant en compte les facteurs de co-exposition dans l'imputation des données. La dernière année sera consacrée à l'analyse des données et à l'interprétation des résultats à l'aide de méthodes bio-informatiques d'enrichissement des voies biologiques.

Le profil recherché

Le candidat recherché devra avoir un profil 'mathématiques appliquées' avec un appétence particulière pour la statistique/machine learning/analyse de données.

Postuler sur le site du recruteur

Ces offres pourraient aussi vous correspondre.

Parcourir plus d'offres d'emploi