Recrutement CNRS

Doctorant Correction d'Erreurs pour le Stockage de Données dans des Molécules d'Adn H/F - CNRS

  • Rennes - 35
  • CDD
  • CNRS
Publié le 22 juillet 2025
Postuler sur le site du recruteur

Les missions du poste

STOCKAGE DE DONNEES DANS DES MOLECULES D'ADN SYNTHETIQUE

Les centres de données représentent aujourd'hui autour de 20% de la consommation d'énergie du numérique en France. Une alternative, le stockage de l'information dans des molécules d'ADN synthétique, est ainsi explorée activement depuis quelques années. En plus d'offrir une densité de stockage bien supérieure aux technologies actuelles (jusqu'`a plusieurs exabits au mm3), l'ADN est un support robuste, capable de résister à de fortes variations de température, et durable dans le temps. Il devrait donc permettre de conserver l'information sur le long terme, et de diminuer significativement la consommation d'énergie du stockage.

Une molécule d'ADN est constituée d'une séquence de bases, ou nucléotides, de types A,C,G, T. L'opération de synthèse de l'ADN consiste à construire la molécule correspond à une suite donnée de symboles quaternaires. Actuellement, l'opération de synthèse représente le principal goulot d'étranglement de cette technologie, car elle est lente et coûteuse, bien que très fiable car dédiée à l'origine au domaine médical. La lecture de l'information se fait ensuite par une opération de séquençage, une technique qui introduit une proportion importante d'erreurs (environ 5%) dans les données séquencées.

CORRECTION D'ERREURS

Le codage canal consiste à introduire des redondances structurées dans les données, qui seront exploitées lors du décodage pour corriger les erreurs introduites lors de la transmission ou du stockage des données. Les solutions modernes de codage canal telles que les codes Turbo, les codes LDPC ou les codes Polaires, sont aujourd'hui un rouage indispensable de la majorité des standards de télécommunications (Wi-Fi, radio mobile, etc.) et de stockage de l'information (mémoires RAM, disques durs, etc.), car ils permettent de fiabiliser la transmission et le stockage. Cependant, le stockage de données dans l'ADN introduit des erreurs (insertions, délétions), que les codes canal usuels ne savent pas corriger car ces erreurs cassent leur structure de redondance.

Ceci dit, une opportunité intéressante du point de vue de la correction d'erreurs réside dans le fait que le séquençage produit naturellement un grand nombre de lectures de la même molécule, avec des erreurs différentes à chaque lecture. Une solution issue du domaine de la bio-informatique consiste à utiliser des algorithmes de consensus pour reconstruire la séquence d'entrée `à partir des lectures multiples. Dans cette thèse, l'idée sera de développer des approches hybrides combinant ces deux solutions complémentaires (algorithmes de consensus et codage canal), pour reconstruire plus efficacement les données d'entrée en exploitant à la fois les lectures multiples et les redondances du code.Contexte de travail
La thèse s'effectuera dans le cadre du PEPR MolécularXiv (voir https://pepr-molecularxiv.fr/le-pepr/). La personne recrutée sera affectée à l'équipe GebScale de l'IRISA à Rennes, et travaillera également avec le département MEE de l'IMT Atlantique, à Brest. Cette thèse s'adresse à des personnes ayant un diplôme de Master, ou d'ingénieur, ou équivalent, ayant suivi un cursus en informatique, en télécommunications, ou en traitement du signal. Des connaissances préalables en codage canal seraient un plus. En revanche, il n'est pas nécessaire d'avoir des connaissances préalables en biologie pour travailler sur ce sujet.

A propos du laboratoire
=============
www.irisa.fr
L'IRISA est aujourd'hui l'un des plus grands laboratoires de recherche français (plus de 850 personnes) dans le domaine de l'informatique et des technologies de l'information. Structuré en sept départements scientifiques, l'IRISA est un laboratoire d'excellence dont les priorités scientifiques sont la bioinformatique, la sécurité des systèmes, les nouvelles architectures logicielles, la réalité virtuelle, l'analyse des big data et l'intelligence artificielle. Tourné vers l'avenir de l'informatique et nécessairement tourné vers l'international, l'IRISA est au coeur même de la transition numérique de la société et de l'innovation au service de la cybersécurité, de la santé, de l'environnement et de l'écologie, des transports, de la robotique, de l'énergie, de la culture et de l'intelligence artificielle.

Présentation du CNRS en tant qu'employeur : https://www.cnrs.fr/fr/le-cnrs
Présentation de l'IRISA comme laboratoire d'affectation : https://www.irisa.fr/umr-6074

Le poste se situe dans un secteur relevant de la protection du potentiel scientifique et technique (PPST), et nécessite donc, conformément à la réglementation, que votre arrivée soit autorisée par l'autorité compétente du MESR.

Le poste se situe dans un secteur relevant de la protection du potentiel scientifique et technique (PPST), et nécessite donc, conformément à la réglementation, que votre arrivée soit autorisée par l'autorité compétente du MESR.

Postuler sur le site du recruteur

Ces offres pourraient aussi vous correspondre.