Thèse Parallélisme Implicite pour les Traitements de Données Biologiques H/F - Université d'Orléans
- Orléans - 45
- CDD
- Université d'Orléans
Les missions du poste
Établissement : Université d'Orléans
École doctorale : Mathématiques, Informatique, Physique Théorique et Ingénierie des Systèmes - MIPTIS
Laboratoire de recherche : LIFO - Laboratoire d'Informatique Fondamentale d'Orléans
Direction de la thèse : Sébastien LIMET ORCID 0000000193922626
Début de la thèse : 2026-10-01
Date limite de candidature : 2026-05-17T23:59:59
L'objectif de cette thèse est donc de concevoir un environnement de programmation permettant de
construire des pipelines efficaces de traitement et d'analyse de données issues de séquenceurs pour
des études omiques. Ces pipelines devront être capables d'exploiter efficacement les différents
types de parallélisme, que ce soit au niveau d'un noeud de calcul (CPU et GPU) qu'au niveau d'une
grappe de PC. Cet environnement inclura les outils nécessaires à la description et à la construction
de ces pipelines par des biologistes sans avoir de connaissances particulières en calcul parallèle.
L'étude de l'état de l'art montre que les traitements classiquement utilisés dans la génomique et la
transcriptomique sont constitués par des grandes étapes assez similaires. De manière très gros grain
il s'agit de rechercher des alignements de séquences d'ADN ou d'ARN dans une référence suivi
d'une étude statistique des résultats d'alignements. Cependant, même si les données sont de même
type et les techniques d'analyse similaires, les traitements peuvent être différents suivant le type
d'études. Il est donc important d'être capable de construire le pipeline à partir de briques de bases
décrivant les étapes similaires mais qui devront être adaptés aux particularités de l'analyse de
données souhaités par le biologiste pour son étude.
Les sciences omiques sont une branche de la biologie où on étudie le vivant à l'échelle
moléculaire et cellulaire afin d'en comprendre le fonctionnement. Cette branche inclut notamment
la génomique (où on étudie l'ADN) et la transcriptomique (où on étudie l'ARN). Les données de
bases de ces deux derniers types d'études sont des séquences de nucléotides (ADN ou ARN) issue
des séquenceurs. Les progrès technologiques de ces dernières années ont permis de mettre à
disposition des chercheurs des séquenceurs de plus en plus précis et de plus en plus rapides. Cela a
eu pour conséquence une augmentation extrêmement forte des volumes de données à disposition
des biologistes. Les pipelines de traitements informatiques existants pour les omiques ne sont pas
toujours adaptés à cette augmentation massive de données.
Dans cadre du projet APR-IA BioSkel, un prototype a été développé pour une analyse de données et
un pipeline de traitement classique pour une application en transcriptomique. Ce prototype
permet d'utiliser des machines parallèles multicoeurs ainsi que des machines types grappe de PC
dans un même cadre pour traiter des volumes importants de donner.
L'objectif principal de cette thèse est de permettre une généralisation de ce travail permettant de
construire des pipelines adaptables à différents types de traitements pour les études omiques basé
sur des squelettes de programmation.
Le profil recherché
Les candidats devront posséder un Master en informatique ou un niveau équivalent. Ils devront posséder un bon niveau en programmation, parallélisme et mathématiques.