Thèse Modélisation Générative pour l'Exploration Efficace des Configurations Moléculaires Réactives H/F - Doctorat_Gouv
- École - 73
- CDD
- Doctorat_Gouv
Les missions du poste
Établissement : Ecole normale supérieure - PSL
École doctorale : Physique en Ile de France
Laboratoire de recherche : Laboratoire de Physique de l'École normale supérieure
Direction de la thèse : Marylou GABRIÉ ORCID 0000000259891018
Début de la thèse : 2026-10-01
Date limite de candidature : 2026-04-30T23:59:59
Les potentiels interatomiques appris par apprentissage automatique (MLIP) constituent aujourd'hui un outil puissant pour approximer les énergies et forces issues de la mécanique quantique à un coût de calcul fortement réduit, permettant ainsi des simulations moléculaires à grande échelle. Si les progrès récents en matière d'architectures et de descripteurs ont considérablement amélioré leur précision, leurs performances sont désormais principalement limitées par la construction des ensembles de données d'entraînement. Cette difficulté est particulièrement marquée pour la réactivité chimique, où les configurations pertinentes - telles que les états de transition - sont rares, instables et difficiles à échantillonner efficacement.
Les approches actuelles reposent sur la dynamique moléculaire (MD) combinée à des stratégies d'apprentissage actif, mais souffrent d'une exploration lente de l'espace des configurations ainsi que d'instabilités possibles lorsque le MLIP n'est pas encore suffisamment convergé. Ce projet propose de dépasser ces limitations en s'appuyant sur les modèles génératifs modernes - tels que les flots normalisants, les modèles de diffusion et les approches de type flow matching - afin d'améliorer l'exploration des espaces de configurations moléculaires.
Un premier objectif consiste à développer des stratégies d'apprentissage couplé dans lesquelles un modèle génératif et un MLIP sont entraînés conjointement, permettant au modèle génératif de guider l'exploration vers des régions peu échantillonnées mais chimiquement pertinentes. Ces approches seront étudiées sur des systèmes modèles contrôlés, afin d'analyser de manière systématique leur impact sur l'efficacité de l'échantillonnage et la diversité des données.
Un second objectif est d'étendre ces méthodes à des systèmes plus réalistes, en particulier aux réactions en solution. Pour cela, des stratégies hybrides seront développées, combinant un échantillonnage génératif dans des représentations réduites avec des étapes de relaxation fondées sur la physique, permettant de reconstruire des configurations moléculaires cohérentes, incluant les effets du solvant.
Enfin, les méthodes proposées seront appliquées à des systèmes réactifs réalistes, avec pour objectif d'améliorer la précision, la robustesse et l'efficacité en données des MLIP. Le projet visera également à identifier les régimes dans lesquels les approches génératives apportent les gains les plus significatifs, en particulier pour les systèmes dominés par des événements rares ou des paysages d'énergie complexes.
À l'interface entre apprentissage automatique, physique statistique et chimie computationnelle, ce projet contribuera à établir la modélisation générative comme un nouveau paradigme pour l'exploration des systèmes moléculaires réactifs et la construction de jeux de données d'entraînement de haute qualité.
Machine-learned interatomic potentials (MLIPs) have recently emerged as a powerful paradigm for approximating quantum mechanical energies and forces at a fraction of the computational cost, enabling molecular simulations at unprecedented scales. Considerable progress has been achieved in recent years in the design of model architectures and local atomic descriptors, leading to highly accurate representations of molecular interactions.
As a result, the primary limitation of MLIPs no longer lies in their expressivity, but rather in the construction of their training datasets. While large and diverse databases of stable structures are available for materials science applications, the situation is markedly different for chemical reactivity. Training sets for reactive systems must include transition-state configurations and rare-event structures, which are intrinsically unstable and require identifying appropriate reaction coordinates.
The identification and efficient sampling of these reaction coordinates therefore constitute a central challenge. In practice, current approaches rely predominantly on molecular dynamics (MD) simulations, often combined with active learning strategies. However, MD-based sampling suffers from slow decorrelation, leading to inefficient exploration of configuration space, and may become unstable when the underlying MLIP is not yet sufficiently accurate. These limitations result in datasets that may lack diversity or reliability, ultimately constraining the performance of the learned potentials.
Recent advances in generative modeling, including normalizing flows, diffusion models, and flow matching methods, offer a promising alternative paradigm. These approaches aim at directly learning and sampling from complex, high-dimensional distributions and have demonstrated remarkable success in other domains. However, their application to molecular systems-particularly in the context of reactive processes-remains largely unexplored. Adapting these models to respect physical constraints and to efficiently capture rare but essential configurations poses significant challenges.
This project aims to develop generative approaches tailored to reactive molecular systems, combining tools from machine learning, statistical physics, and molecular simulation.
Le profil recherché
Le projet requiert une solide formation en apprentissage automatique ainsi qu'un intérêt marqué pour la physique statistique et/ou la chimie computationnelle. Le ou la candidat(e) idéal(e) devra posséder de bonnes compétences en programmation, notamment en Python et dans des frameworks modernes d'apprentissage automatique (par exemple PyTorch ou JAX). Un fort intérêt pour la recherche interdisciplinaire est indispensable, de même que la capacité à naviguer entre concepts théoriques et mises en oeuvre pratiques.