Recrutement Doctorat.Gouv.Fr

Thèse Modèles Génératifs Profonds pour l'Apprentissage d'Ensembles Conformationnels d'Arn H/F - Doctorat.Gouv.Fr

  • Paris - 75
  • CDD
  • Doctorat.Gouv.Fr
Publié le 29 avril 2026
Postuler sur le site du recruteur

Les missions du poste

Établissement : Université Paris-Saclay GS Informatique et sciences du numérique École doctorale : Sciences et Technologies de l'Information et de la Communication Laboratoire de recherche : IBISC - Informatique, BioInformatique, Systèmes Complexes Direction de la thèse : Fariza TAHI ORCID 0000000239755668 Début de la thèse : 2026-10-01 Date limite de candidature : 2026-05-12T23:59:59 Les molécules d'ARN sont dynamiques et adoptent plusieurs formes (conformations) plutôt qu'une seule structure stable, ce qui rend leur modélisation difficile. Les approches actuelles en intelligence artificielle ont progressé, mais elles prédisent souvent une seule structure et manquent de réalisme physique.
Le projet proposé vise à développer un modèle hybride combinant intelligence artificielle générative (notamment des modèles de diffusion) et contraintes physiques pour prédire un ensemble de conformations possibles à partir d'une séquence d'ARN. Cette méthode utiliserait des réseaux neuronaux adaptés à la structure moléculaire et intégrerait des règles physico-chimiques pour garantir des résultats plausibles.
L'objectif est de mieux représenter la nature dynamique de l'ARN, notamment pour des cas comme les riboswitches, et ainsi améliorer la compréhension de leur fonction et les applications en biologie et en médecine.
Les molécules d'ARN jouent un rôle central en biologie, mais leur fonction dépend de structures tridimensionnelles hautement dynamiques. Contrairement aux protéines, elles existent sous forme d'ensembles de conformations interconvertibles.
Les méthodes actuelles, y compris celles basées sur l'intelligence artificielle, restent limitées car elles prédisent généralement une seule structure dominante et peinent à capturer cette nature multi-états. De plus, le manque de données structurales et la complexité des interactions non canoniques rendent la prédiction encore difficile.
Il est donc nécessaire de développer des approches capables de modéliser des paysages conformationnels complets et réalistes.
Développer un cadre computationnel hybride capable de prédire des ensembles de conformations 3D de l'ARN à partir de sa séquence.
L'objectif est de dépasser les approches déterministes actuelles pour proposer une représentation probabiliste et dynamique des structures d'ARN, tout en garantissant leur plausibilité physique.
Le projet propose une approche hybride combinant :
- des modèles génératifs profonds (notamment des modèles de diffusion) pour générer des ensembles de structures,
- des architectures de deep learning géométrique pour représenter les molécules d'ARN sous forme de graphes,
- des modèles de langage ARN pour encoder l'information de séquence,
- des contraintes physiques (énergies moléculaires, interactions, règles d'appariement) intégrées dans l'apprentissage.
La génération des structures se fera par un processus itératif de débruitage, suivi éventuellement d'un raffinement léger (minimisation d'énergie ou dynamique moléculaire courte).

Le profil recherché

Etudiants avec un Master 2, Ecole d'ingénieur ou équivalent en Informatique, Sciences des Données ou Bioinformatique.

Postuler sur le site du recruteur

Ces offres pourraient aussi vous correspondre.

Parcourir plus d'offres d'emploi