Recrutement Doctorat.Gouv.Fr

Thèse Impact des Caractéristiques des Génomes sur la Recombinaison Méiotique H/F - Doctorat.Gouv.Fr

  • Montpellier - 34
  • CDD
  • Doctorat.Gouv.Fr
Publié le 1 avril 2026
Postuler sur le site du recruteur

Les missions du poste

Établissement : Université de Montpellier
École doctorale : GAIA - Biodiversité, Agriculture, Alimentation, Environnement, Terre, Eau
Laboratoire de recherche : DIADE - Diversité, Adaptation et DEveloppement des plantes
Direction de la thèse : Mathias LORIEUX ORCID 0000000198643933
Début de la thèse : 2026-10-01
Date limite de candidature : 2026-05-07T23:59:59

[FR] La cartographie fine de marqueurs, de QTL ou de gènes majeurs, étape indispensable à la conduite d'une sélection assistée par marqueurs efficiente, est basée sur le phénomène naturel de recombinaison génétique qui intervient au cours de la méiose. Cependant, l'apparition des crossing over (CO) ne survient pas aléatoirement le long des chromosomes et suit des lois encore mal connues, bien que de nombreuses études leur soient consacrées. Si l'on veut pouvoir prédire la probabilité d'occurrence des CO dans une région génomique donnée, il faut donc connaître les conditions de leur formation.
La question centrale de ce projet de thèse est la suivante : La connaissance fine des différences entre deux génomes parentaux permet-elle de prédire la probabilité d'occurrence des crossing over chez l'hybride F1 ?
Pour y répondre, nous avons établi une carte ultra-dense du génome du riz (Oryza sativa L.), par séquençage du génome de 2 000 individus F2 suivi d'une étape d'imputation réalisée au moyen d'une nouvelle approche développée au laboratoire (NOISYmputer, voir https://doi.org/10.1371/journal.pone.0314759). Par ailleurs, nous disposons des séquences génomiques des parents du croisement, établies avec la technologie PacBio HiFi, ainsi que des profils de méthylation de l'ADN des méiocytes des parents. Les travaux de la thèse consisteront à :
(1) développer une méthode d'identification automatique et de classification de l'ensemble des variants structuraux (VS) entre deux génomes distants,
(2) analyser les profils de méthylation de l'ADN des parents et de leur hybride F1,
(3) établir des règles de causalité entre VS, profil de méthylation et recombinaison locale, au moyen de méthodes statistiques -y-compris de machine learning-, et
(4) établir un modèle prédictif de la recombinaison dans un hybride en fonction de la séquence génomique des parents de l'hybride.

[FR] La recombinaison des chromosomes est le concept de base qui sous-tend la construction des cartes de liaison génétiques, la cartographie génétique des QTL et les méthodes d'amélioration des plantes. La cartographie fine et le clonage des QTL à l'aide de populations expérimentales sont souvent entravés par le manque de recombinaison dans la région des QTL. Ce déficit de recombinaison peut être dû à plusieurs causes, la variation structurale entre les lignées parentales du croisement et la méthylation de l'ADN étant les plus problématiques. Les grands indels, les translocations, les inversions, la duplication de gènes en tandem, l'éclatement d'éléments transposables, sont autant de sources de manque d'appariement chromosomique et d'élimination gamétique lors de la méiose dans les hybrides issus de lignées parentales éloignées. Il est donc de la plus haute importance pour les études de QTL et leur utilisation en amélioration des plantes de pouvoir prédire correctement la recombinaison en fonction de la variation structurale et de la méthylation observées entre les lignées parentales d'un croisement expérimental.
[EN] Chromosome recombination is the basic concept behind genetic linkage maps, mapping of QTLs and crop breeding methods. Importantly, fine QTL mapping and cloning using experimental populations is often hampered by depletion of recombination in the QTL region. This recombination deficiency can be due to several causes, and structural variation between the parental lines of the cross and DNA methylation are among the most problematic ones. Large indels, translocations, inversions, tandem gene duplication, transposable element burst, are all sources of lack of chromosome pairing and gamete elimination during meiosis in hybrids of distant parental lines. It is therefore of uppermost importance for QTL studies and their use in plant breeding to be able to correctly predict recombination in function of structural variation and methylation observed between the parental lines of an experimental cross.

[FR] Objectif principal : Déterminer les effets des variations structurales et de la méthylation des génomes sur la recombinaison méiotique. Objectifs spécifiques : (1) développer une méthode d'identification automatique et de classification de l'ensemble des variants structuraux (VS) entre deux génomes,
(2) analyser les profils de méthylation de l'ADN des parents et de leur hybride F1,
(3) établir des règles de causalité entre VS, profil de méthylation et recombinaison locale, au moyen de méthodes statistiques -y-compris de machine learning-, et
(4) établir un modèle prédictif de la recombinaison dans un hybride en fonction de la séquence génomique des parents de l'hybride.

[EN] Main objective: To determine the effects of structural variations and methylation in genomes on meiotic recombination. Specific objectives are to: (1) develop an automated method for the identification and classification of structural variants (SVs) between genomes;
(2) characterize and compare DNA methylation landscapes in the parental lines and their F1 hybrid;
(3) identify and model causal relationships between structural variation, DNA methylation patterns, and local recombination rates using advanced statistical approaches, including machine learning methods; and
(4) construct a predictive model of meiotic recombination in hybrids based on the genomic features of their parental lines.

[FR] Matériels et méthodes
Données disponibles : (1) Données génotypiques d'une grande population F2 (2 000 individus) dérivée de l'hybride F1 [Oryza sativa ssp. indica cv. IR64 et Oryza sativa ssp. japonica cv. Azucena] obtenu au laboratoire IRD-CIAT de génétique et de génomique du riz. Données générées par le séquençage du génome entier à faible couverture(~3x) au Génoscope, Evry. L'extraction de SNP de haute qualité et l'imputation génotypique a permis de construire une carte de crossing over ultra-dense (plus d'un million de SNP). (2) Séquences génomiques des parents du croisement, établies avec la technologie PacBio HiFi. (3) Profils de méthylation de l'ADN obtenus par séquençage bisulfite des gamétocytes des parents.
1 - Caractériser les génomes parentaux : (1) Analyser la variation structurale des génomes parentaux. En utilisant des outils bioinformatiques dédiés (MUMmer/NUCmer, Minimap2, etc) pour la détection des variants structuraux (VS), détecter et classer les indels, les inversions, les translocations, la variation du nombre de copies - y compris les CNV des éléments transposables - entre les séquences de référence disponibles (RefSeqs, assemblage PacBio) des groupes indica et japonica. Les génomes d'entraînement seront les RefSeqs des groupes indica cv. IR64 et japonica cv. Azucena (Zhou et al. 2019). (2) Analyser et comparer les profils de méthylation des génomes parentaux (méiocytes). (3) Analyser la composition en k-mer.
2 - Analyser la corrélation entre les caractéristiques des génomes parentaux et le taux de recombinaison locale le long de chaque chromosome. Utiliser des modèles de machine/deep learning ou des genomic language models (gLM) pour trouver la combinaison de VS / méthylation / k-mer qui produit la meilleure prédiction de la recombinaison locale.
3 - Développer un modèle général pour le riz, basé sur des corrélations établies, capable de prédire les taux de recombinaison locale et les fréquences alléliques à partir de la variation structurale et de la méthylation de l'ADN entre les groupes indica et japonica.
4 - Effectuer une validation croisée du modèle entre les chromosomes et ajuster les paramètres
5 - Tester le modèle en utilisant des paramètres de formation et des sorties de modèle obtenues à partir de données réelles de génotypage par séquençage (GBS) sur dix populations de Nested-Association Mapping (NAM). Nous croiserons les paramètres de formation et les sorties du modèle pour les 45 combinaisons possibles entre les dix ensembles de données de populations.
[EN] Materials and Methods
Available data:
(1) Genotypic data from a large F2 population (2,000 individuals) derived from the F1 hybrid [Oryza sativa ssp. indica cv. IR64 × Oryza sativa ssp. japonica cv. Azucena], produced at the IRD-CIAT rice genetics and genomics laboratory. The data were generated by low-coverage (~3×) whole-genome sequencing at the Genoscope (Évry). High-quality SNP extraction and genotype imputation enabled the construction of an ultra-dense crossover map (more than one million SNPs).
(2) Genomic sequences of the parents of the cross, generated using PacBio HiFi technology.
(3) DNA methylation profiles obtained by bisulfite sequencing of parental gametocytes.
1. Determine parental genomes features: (1) Analyze structural variation in the parental genomes. Using dedicated bioinformatics tools (MUMmer/NUCmer, Minimap2, etc.) for structural variant (SV) detection, identify and classify insertions/deletions, inversions, translocations, and copy number variation-including CNVs of transposable elements-between the available reference sequences (RefSeqs, PacBio assemblies) of the indica and japonica groups. The training genomes will be the RefSeqs of indica cv. IR64 and japonica cv. Azucena (Zhou et al. 2019). (2) Analyze and compare methylation profiles of the parental genomes (meiocytes). (3) Analyze k-mer composition.
2. Analyze the correlation between parental genomic features and local recombination rates along each chromosome. Use machine-learning/deep-learning or genomic language models (gLM) to identify the combination of SVs and methylation patterns that best predicts local recombination.
3. Develop a general model for rice, based on the established correlations, capable of predicting local recombination rates and allelic frequencies from structural variation and DNA methylation differences between the indica and japonica groups.
4. Perform cross-validation of the model across chromosomes and adjust parameters.
5. Test the model using training parameters and model outputs derived from real genotyping-by-sequencing (GBS) data from ten Nested Association Mapping (NAM) populations. Training parameters and model outputs will be crossed for all 45 possible combinations among the ten population datasets.

Le profil recherché

Master en bioinformatique ou Biologie avec module bio-informatique. Bonnes connaissances en génétique et génomique. Goût pour la modélisation et les méthodes d'intelligence artificielle (machine/deep learning). Bonne maîtrise de l'anglais.

Postuler sur le site du recruteur

Ces offres pourraient aussi vous correspondre.