Thèse Prise de Décision Précoce pour la Détection d'Anomalies dans un Flux de Données H/F - Doctorat.Gouv.Fr
- Paris - 75
- CDD
- Doctorat.Gouv.Fr
Les missions du poste
Établissement : Université Paris-Saclay GS Informatique et sciences du numérique École doctorale : Sciences et Technologies de l'Information et de la Communication Laboratoire de recherche : MIA-Paris-Saclay - Mathématiques et Informatique Appliquées Direction de la thèse : Antoine CORNUEJOLS ORCID 0000000229793521 Début de la thèse : 2026-10-01 Date limite de candidature : 2026-05-20T23:59:59 Les systèmes de monitoring, incluant par exemple la supervision réseau et la détection de fraude, analysent en continu des flux de données massifs. Leur objectif est d'identifier le plus tôt possible des événements anormaux afin de limiter leurs impacts opérationnels.
Dans ces environnements réels, les anomalies sont rares, les labels sont partiels et bruités, et l'historique d'annotation est fortement biaisé par les règles des systèmes de détection préexistants. Les événements sont multiples et doivent être détectés, localisés dans le temps (début/fin), typés, puis éventuellement révisés au fur et à mesure que de nouvelles observations arrivent.
La problématique centrale est donc la suivante : comment concevoir un système de monitoring capable d'anticiper et de localiser des anomalies (ou des évènements) dans un flux continu, en optimisant explicitement le compromis entre précocité, fiabilité et stabilité des décisions, malgré une supervision partielle et biaisée ?
L'objectif de la thèse est de formaliser ce type d'approche permettant la détection précoce et la localisation d'anomalies en flux, intégrant explicitement les coûts de décision (précocité, fiabilité, stabilité) de manière robuste à la faible supervision.
Les résultats attendus sont : (i) la proposition d'un cadre théorique unifiant détection, localisation et déclenchement de décision en flux ; (ii) proposition d'architectures capables d'optimiser directement des critères décisionnels structurés ; (iii) une validation expérimentale sur données publiques et sur un cas d'usage interne avec quantification du gain opérationnel.
Ces travaux ont vocation à fonder une nouvelle génération de systèmes de monitoring anticipatif, génériques et transférables vers les métiers.
Les systèmes de monitoring, incluant par exemple la supervision réseau et la détection de fraude, analysent en continu des flux de données massifs. Leur objectif est d'identifier le plus tôt possible des événements anormaux afin de limiter leurs impacts opérationnels.
Dans ces environnements réels, les anomalies sont rares, les labels sont partiels et bruités, et l'historique d'annotation est fortement biaisé par les règles des systèmes de détection préexistants. Les événements sont multiples et doivent être détectés, localisés dans le temps (début/fin), typés, puis éventuellement révisés au fur et à mesure que de nouvelles observations arrivent.
La problématique centrale est donc la suivante : comment concevoir un système de monitoring capable d'anticiper et de localiser des anomalies (ou des évènements) dans un flux continu, en optimisant explicitement le compromis entre précocité, fiabilité et stabilité des décisions, malgré une supervision partielle et biaisée ? L'objectif de la thèse est de formaliser ce type d'approche permettant la détection précoce et la localisation d'anomalies en flux, intégrant explicitement les coûts de décision (précocité, fiabilité, stabilité) de manière robuste à la faible supervision. Les méthodes explorées s'appuieront sur l'état de l'art en environnement stationnaire. Les directions de recherche incluent l'application de l'apprentissage par renforcement et des méthodes d'apprentissage profond.
Le profil recherché
Compétences (scientifiques et techniques) et qualités personnelles exigées par le poste:
- Connaissances solides dans le domaine du Machine Learning et plus généralement des mathématiques appliquées.
- Bonnes notions en algorithmique.
- Programmation en langage Python
Formation demandée(master, diplôme d'ingénieur, doctorat, domaine scientifique et technique ...)
Dernière année d'école d'ingénieur, ou master, avec une spécialisation en Machine Learning.