Recrutement Doctorat.Gouv.Fr

Thèse Modèles Intégratifs pour la Conception de Peptides Thérapeutiques Intégration de Paysages de Fitness Expérimentaux et de Design Structural H/F - Doctorat.Gouv.Fr

  • Grenoble - 38
  • CDD
  • Doctorat.Gouv.Fr
Publié le 20 avril 2026
Postuler sur le site du recruteur

Les missions du poste

Établissement : Université Grenoble Alpes École doctorale : ISCE - Ingénierie pour la Santé la Cognition et l'Environnement Laboratoire de recherche : BGE - Laboratoire Biosciences et bioingénierie pour la Santé Direction de la thèse : Christophe BATTAIL ORCID 0000000168497824 Début de la thèse : 2026-10-01 Date limite de candidature : 2026-05-19T23:59:59 La conception de peptides thérapeutiques ciblant les interactions protéine-protéine (PPI) nécessite d'optimiser simultanément plusieurs propriétés moléculaires. Deux familles de méthodes computationnelles existent mais présentent des limitations complémentaires. Les modèles de design structural (hallucination AlphaFold/ColabDesign, ProteinMPNN, modèles de co-diffusion séquence-structure) conçoivent des séquences structuralement compatibles avec un site de liaison, mais sont entraînés sur des bases générales (PDB) dépourvues de contraintes fonctionnelles spécifiques. Les modèles de fitness appris sur des données de criblage (phage display, deep mutational scanning) capturent les relations séquence-fonction expérimentales, mais restent confinés à l'espace de séquences exploré.
Ce projet développe un cadre intégratif combinant deux sources d'information complémentaires pour la conception de peptides. D'un côté, les grands modèles pré-entraînés de prédiction de structure (AlphaFold2, AlphaFold3), appris sur l'ensemble des structures protéiques connues, permettent de concevoir des séquences géométriquement compatibles avec un site de liaison cible. De l'autre, des modèles de fitness basés sur la séquence, entraînés directement sur les données issues d'expériences de criblage à haut débit, capturent les relations entre séquence et fonction telles qu'observées expérimentalement. Ces modèles de fitness, fondés sur notre cadre multi-modal publié (Fernandez-de-Cossio-Diaz, Uguzzoni et al., PLOS Comput Biol, 2024), sont capables d'apprendre simultanément plusieurs propriétés moléculaires, y compris des phénotypes complexes comme la toxicité ou la sélectivité membranaire, des propriétés qui résultent d'interactions multiples avec l'organisme hôte et qui ne peuvent pas être prédites à partir de la structure d'un seul complexe moléculaire. L'innovation centrale du projet consiste à coupler ces deux familles de modèles : la fonction de fitness apprise guide le processus de génération du modèle structural, produisant des candidats peptidiques qui satisfont à la fois la complémentarité structurale avec la cible et les critères fonctionnels issus de l'expérience.
Le cadre sera développé et validé sur deux applications thérapeutiques :
Application 1 - Peptides antiviraux anti-influenza (Axe 1). Des peptides inhibant l'interaction PA-PB1 de la polymérase grippale ont été développés au CEA-IRIG par phage display (800M variants, ~20 000 séquences NGS) et design structural (ProteinMPNN), avec une inhibition virale améliorée d'un facteur 100 (brevet mai 2025). Ce système servira à valider l'intégration fitness-structure. Les candidats seront validés par mesures d'affinité (BLI, TSA), essais cellulaires (Institut Pasteur) et cristallographie (IBS).
Application 2 - Peptides antimicrobiens (Axe 2). Les données publiques de deep mutational scanning du Protegrin-1 (activité antibactérienne et hémolyse, Nat Biomed Eng, 2024) et de l'Oncocin (~170 000 mutants, ACS Synth Biol, 2022) serviront de banc d'essai pour le modèle multi-modal et l'optimisation du compromis activité/toxicité.
La thèse sera dirigée par C. Battail (DR CEA) et co-encadrée par G. Uguzzoni (CR CEA), en collaboration avec D. Hart (IBS/CEA-IRIG) pour les données expérimentales et la validation, et J. Fernandez de Cossio Diaz (IPhT, CEA-Saclay) pour les aspects théoriques. Les peptides thérapeutiques constituent une classe de molécules en pleine expansion, avec près de 100 médicaments approuvés. Leur capacité à moduler les interactions protéine-protéine les rend attractifs pour des cibles auparavant considérées comme non-druggables. Cependant, l'optimisation simultanée de multiples propriétés moléculaires, affinité, sélectivité, stabilité, absence de toxicité, reste un problème ouvert.
Deux familles de méthodes computationnelles abordent ce problème avec des forces et limites complémentaires. Les modèles de design structural (ColabDesign/hallucination AlphaFold, ProteinMPNN, modèles de diffusion comme Multiflow) exploitent la complémentarité géométrique et chimique de l'interface pour générer des séquences compatibles avec un site de liaison. Cependant, entraînés sur le PDB (base générale de structures ) ils ne capturent ni les contraintes fonctionnelles spécifiques (viabilité, sélectivité biologique) ni les phénotypes complexes comme la toxicité. Les modèles de fitness appris sur les données de sélection-amplification capturent les relations séquence-fonction expérimentales. Notre cadre multi-modal [2] démontre qu'il est possible de décomposer ces données en modes sélectifs indépendants correspondant à des propriétés biophysiques distinctes. Cependant, ces modèles ne disposent pas de guidage structural pour extrapoler vers des séquences inexplorées.
Le projet s'appuie sur deux domaines d'application. En antiviral, des travaux récents au CEA-IRIG ont permis de développer des peptides inhibant l'interaction PA-PB1 de la polymérase grippale (FluPol) avec une inhibition virale améliorée d'un facteur 100 (brevet mai 2025), à partir de campagnes de phage display (800M variants, ~20 000 séquences NGS) et de design structural (ProteinMPNN). En antimicrobien, des études récentes de deep mutational scanning sur le Protegrin-1 (Randall et al., Nat Biomed Eng, 2024) et l'Oncocin (~170 000 mutants, Collins & Hackel, ACS Synth Biol, 2022) offrent des données publiques massives où le compromis activité/toxicité constitue un problème d'optimisation multi-objectif intrinsèque. La toxicité est un phénotype complexe résultant d'interactions multiples avec les membranes de l'hôte et les composants du système immunitaire, inaccessible aux méthodes purement structurales. Ce projet vise à développer un cadre méthodologique intégratif pour la conception de peptides thérapeutiques, articulé autour de deux axes d'innovation complémentaires.
Le premier axe développe l'intégration entre modèles de design structural (hallucination AlphaFold/ColabDesign, co-diffusion séquence-structure, ProteinMPNN) et modèles de fitness appris sur des données de criblage expérimental (phage display, deep mutational scanning). L'idée centrale est d'utiliser la fonction de fitness apprise comme contrainte différentiable (classifier guidance) qui guide la trajectoire de génération du modèle structural, produisant des candidats satisfaisant à la fois complémentarité structurale avec la cible et fitness expérimentale. Ce couplage surmonte les limitations de chaque approche prise isolément : les modèles structuraux, entraînés sur le PDB, manquent de contraintes fonctionnelles spécifiques ; les modèles de fitness, confinés à l'espace exploré, manquent de guidage structural pour l'extrapolation.
Le second axe étend les modèles de fitness pour apprendre simultanément plusieurs propriétés moléculaires à partir de données de criblage hétérogènes, en s'appuyant sur notre cadre multi-modal publié [2] qui décompose les processus sélectifs en modes indépendants. L'enjeu est l'apprentissage de phénotypes complexes tels que la toxicité ou la sélectivité membranaire, qui résultent d'interactions multiples du peptide avec les membranes cellulaires et les composants du système immunitaire. Ces propriétés ne se réduisent pas à une interface structurale unique et ne peuvent donc pas être prédites par des modèles purement structuraux. Le modèle multi-modal permettra une génération conditionnelle optimisant des profils multi-propriétés prescrits et naviguant les compromis entre objectifs antagonistes.
Ces deux axes seront développés et validés sur deux applications complémentaires : (1) des peptides antiviraux inhibant l'interaction PA-PB1 de la polymérase grippale (données de collaboration, propriété cible principale : affinité avec PA, validation de l'intégration fitness-structure) ; (2) des peptides antimicrobiens utilisant des données publiques de deep mutational scanning (Protegrin-1, Oncocin), où le compromis activité antibactérienne / toxicité mammalienne constitue un banc d'essai idéal pour le modèle multi-modal. L'approche méthodologique s'organise en deux phases complémentaires. Dans une première phase, le/la doctorant(e) collectera et analysera les données NGS de phage display PA-PB1 et entraînera, en utilisant le cadre multi-modal [1], un modèle de fitness capturant la relation séquence-sélectivité à partir des données de criblage. Cette fonction de fitness sera intégrée comme contrainte dans les modèles de design structural, en modifiant la fonction de coût du modèle d'hallucination AlphaFold (ColabDesign) pour optimiser conjointement les métriques de confiance structurale (pLDDT, PAE) et le score de fitness expérimental. La pipeline de design sera optimisée et évaluée sur le système PA-PB1, avec prédiction du binding des candidats générés par des méthodes de prédiction de structure de complexes (AlphaFold3, Boltz-1) et de docking. Les meilleurs candidats seront validés expérimentalement par mesures d'affinité (BLI, TSA) à l'IBS, essais cellulaires d'inhibition virale à l'Institut Pasteur, et caractérisation structurale par cristallographie des meilleurs hits. Dans une seconde phase, le modèle de fitness sera étendu pour apprendre simultanément plusieurs propriétés à partir de données hétérogènes, en désentrelaçant les modes sélectifs correspondant à des phénotypes distincts (activité antibactérienne, hémolyse/toxicité). Ce cadre sera appliqué aux données publiques du Protegrin-1 et de l'Oncocin, et des stratégies de génération conditionnelle seront développées pour naviguer le front de Pareto entre activité et absence de toxicité, en contrôlant indépendamment chaque propriété lors de la génération.

Le profil recherché

Le candidat idéal devrait avoir une solide formation en modélisation mathématique et en programmation. Un diplôme de Master 2 Recherche en physique, mathématiques, informatique ou biologie computationnelle est requis. Les compétences essentielles incluent une base en physique statistique et apprentissage automatique, des compétences avancées en programmation (Julia ou Python) avec expérience en frameworks d'apprentissage automatique (PyTorch, Jax ou équivalent), et une connaissance de la théorie des probabilités. Une familiarité avec l'analyse de séquences biologiques est attendue. Des connaissances en biologie structurale, en modèles génératifs ou en modèles de langage protéique seraient un plus mais ne sont pas requises. Le candidat devra faire preuve de capacités analytiques, d'intérêt pour la recherche interdisciplinaire et d'autonomie. Niveau d'anglais B2 ou supérieur requis.

Postuler sur le site du recruteur

Parcourir plus d'offres d'emploi