Thèse Évaluation Fiable de l'Information Estimateurs Statistiques et d'Apprentissage Automatique H/F - Doctorat.Gouv.Fr
- Paris - 75
- CDD
- Doctorat.Gouv.Fr
Les missions du poste
Établissement : Institut Polytechnique de Paris Télécom Paris École doctorale : Ecole Doctorale de l'Institut Polytechnique de Paris Laboratoire de recherche : Laboratoire de Traitement et Communication de l'Information Direction de la thèse : Olivier RIOUL ORCID 0000000286818916 Début de la thèse : 2026-10-01 Date limite de candidature : 2026-04-15T23:59:59 De nombreuses généralisations de l'information mutuelle trouvent des applications dans divers domaines, notamment l'analyse des canaux auxiliaires, la protection de la vie privée et la théorie de l'apprentissage automatique. Cependant, la manière dont ces mesures d'information peuvent être estimées de manière fiable à partir d'échantillons de données n'est pas encore claire. L'objectif de cette thèse est d'étudier différents estimateurs, en particulier entre une variable aléatoire discrète et une variable aléatoire continue dans un espace à haute dimension. L'objectif final est de fournir des garanties théoriques et une analyse de la complexité en fonction de la taille de l'échantillon de données pour diverses mesures d'information, avec une application aux preuves de sécurité pour les attaques par canaux auxiliaires et aux bornes de généralisation dans l'apprentissage automatique. Parmi les mesures d'information utiles dans les applications de cybersécurité, on peut citer (outre l'information mutuelle de Shannon): les alpha-informations de Sibson, de Rényi et de Csiszar, les f-informations dont les informations basées sur les distances d'Hellinger et la distance en variation totale. Il existe de nombreux estimateurs statistiques ou basées sur l'apprentissage en ce qui concerne l'information mutuelle, mais toutes les comparaisons ne sont pas systématisées. Pour les autre mesures, la situation est très ouverte, peu d'estimateurs ont été mis en oeuvre. En raison de la malédiction de la dimensionnalité, les estimateurs classiques sont susceptibles de ne pas fonctionner dans un environnement de haute dimension. C'est pourquoi nous étudierons les performances de certains algorithmes d'apprentissage automatique conçus pour traiter des données situées dans ce genre d'espace.
- Pour l'information mutuelle, le MINE (Mutual Information Neural Estimator) a été introduit à l'aide de réseaux neuronaux [D]. L'estimateur MINE est basé sur la reformulation variationnelle de Donsker-Varadhan de la divergence de Kullback-Leibler. En utilisant une autre reformulation variationnelle de l'information alpha de Sibson [C] ou la f-information, une procédure équivalente pour évaluer cette information à l'aide d'un réseau neuronal pourrait être adaptée.
- Pour l'information mutuelle, l'algorithme GKOV basé sur les k plus proches voisins avec un nombre fixe de voisins est l'un des algorithmes de pointe avec des garanties théoriques bien étudiées [E]. Là encore, il serait intéressant d'étendre cet état de l'art pour d'autres informations et d'étudier ses propriétés théoriques.
Le profil recherché
Ce sujet est conçu pour les étudiants ayant une solide formation en théorie de l'information, en statistiques et en mathématiques appliquées en général. Le sujet peut être orienté soit vers les aspects théoriques de l'estimation de l'information, soit vers ses aspects pratiques avec une mise en oeuvre et des applications référencées.