Recrutement Doctorat.Gouv.Fr

Thèse Evaluation des Performances des Modèles de Fondation pour la Détection et la Prévision en Surveillance Syndromique Vers une Détection - Prévision Automatisée et à Large-Échelle des Signaux S H/F - Doctorat.Gouv.Fr

  • Paris - 75
  • CDD
  • Doctorat.Gouv.Fr
Publié le 8 avril 2026
Postuler sur le site du recruteur

Les missions du poste

Établissement : Université Paris-Est Créteil
École doctorale : Santé Publique
Laboratoire de recherche : Santé Publique France
Direction de la thèse : Matthieu HANF ORCID 0000000171331323
Début de la thèse : 2026-10-01
Date limite de candidature : 2026-05-08T23:59:59

L'analyse des séries temporelles joue un rôle central en épidémiologie, notamment pour la détection précoce et la prévision des signaux sanitaires. Malgré la diversité des méthodes existantes, leur déploiement opérationnel reste limité en raison de leurs performances hétérogènes en fonction des contextes, de la variabilité des données, de leur complexité technique et des contraintes humaines. Les récents progrès en IA, en particulier les modèles de fondation (comme BERT ou GPT-5), ouvrent de nouvelles perspectives. Leur déclinaison pour les données temporelles, les modèles de fondation pour les séries temporelles (TSFMs), repose sur des architectures pré-entraînées à grande échelle capables d'analyser des séries temporelles sans ajustement préalable sur les données cibles. Leur potentiel en santé publique reste toutefois très peu exploré, notamment dans les systèmes de surveillance syndromique.
Cette thèse explore l'utilisation des TSFMs afin de renforcer la détection précoce des signaux sanitaires et d'améliorer les capacités d'anticipation des systèmes de surveillance de Santé publique France. Les données utilisées seront à la fois simulées à l'aide de méthodologies avancées et proviendront du système SurSaUD (OSCOUR), qui centralise des flux massifs et hétérogènes de données temporelles en provenance des services d'urgences.

L'analyse des séries temporelles joue un rôle central en épidémiologie, notamment pour la détection précoce et la prévision des signaux sanitaires. Malgré la diversité des méthodes existantes, leur déploiement opérationnel reste limité en raison de leurs performances hétérogènes, de la variabilité des données et de contraintes techniques et humaines. Les récents progrès en IA, en particulier les modèles de fondation (comme BERT ou GPT-5), ouvrent de nouvelles perspectives. Leur déclinaison pour les données temporelles, les modèles de fondation pour les séries temporelles (TSFMs), repose sur des architectures pré-entraînées à grande échelle capables d'analyser des séries temporelles sans ajustement préalable sur les données cibles. Leur potentiel en santé publique reste toutefois très peu exploré, notamment dans les systèmes de surveillance syndromique.

Cette thèse vise à évaluer et à optimiser l'usage des modèles de fondation pour les séries temporelles (TSFMs) pour la surveillance syndromique en santé publique selon deux axes complémentaires :
1) Réaliser une étude approfondie des TSFMs en comparant leurs performances à celles des méthodes classiques pour les tâches clés de la veille syndromique : la prévision temporelle et la détection d'anomalies. Ces évaluations seront conduites en s'appuyant sur des jeux de données simulées ainsi que sur des données réelles de surveillance (données du réseau OSCOUR). Ces analyses seront réalisées sur une très large diversité d'échelles spatio-temporelles et d'indicateurs.
2) Améliorer les processus de détection et de prévision à l'aide des TSFMs en les complétant/améliorant avec des techniques avancées telles que l'utilisation de covariables, le surentrainement, ou dans les étapes de prétraitement et post-traitement des données.

La méthodologie inclut la création de jeux de données de référence comprenant plusieurs centaines de milliers de séries temporelles, puis une comparaison des performances des TSFMs entre eux ainsi qu'avec celles des approches classiques pour la prévision et la détection d'anomalies (modèles statistiques, apprentissage machine et profond). Des pistes d'optimisation (intégration de covariables, surentraînement, pré/post-traitement, etc.) seront également explorées.

Le profil recherché

M2 ou diplôme d'ingénieur avec stage de recherche en science des données / statistique avec un intérêt prononcé pour le domaine d'application (santé publique).
Compétences en informatique, intelligence artificielle, science des données.
Niveau avancé en programmation Python et R.
Compétences non-techniques : rigueur, travail en équipe, bonnes capacités d'analyse, d'adaptation et d'organisation
Un bon niveau d'anglais et de français (écrit et oral) sont exigés.

Postuler sur le site du recruteur

Ces offres pourraient aussi vous correspondre.