Thèse Reproductibilité de Résultats Scientifiques en Héliophysique au Moyen de Modèles de Langue H/F - Doctorat.Gouv.Fr
- Paris - 75
- CDD
- Doctorat.Gouv.Fr
Les missions du poste
Établissement : Université Paris-Saclay GS Informatique et sciences du numérique École doctorale : Sciences et Technologies de l'Information et de la Communication Laboratoire de recherche : Laboratoire Interdisciplinaire des Sciences du Numérique Direction de la thèse : Cyril GROUIN ORCID 000000015809188X Début de la thèse : 2026-10-01 Date limite de candidature : 2026-05-12T23:59:59 L'héliophysique (HP) est une branche de l'astrophysique qui s'intéresse au soleil, à ses interactions avec les planètes et leurs magnétosphères, ainsi qu'au domaine plus large de la météorologie spatiale. Aujourd'hui, la plupart des recherches en HP sont axées sur les données, avec des chaînes de traitement qui produisent des séries chronologiques, des images, des spectres, etc., à partir d'observations recueillies par un ou plusieurs instruments, ou d'expériences numériques. La communauté s'appuie sur des centres de données (tels que le Centre de Données de la Physique des Plasmas) qui utilisent des métadonnées et des formats de données normalisés, ce qui facilite l'accès aux études et leur reproductibilité.
Cette thèse examine la reproductibilité des chaînes de traitement de données en utilisant de grands modèles de langue (LLM) pour reproduire des résultats de calculs publiés.
Selon Starace et al. (2025), les LLM à l'état-de-l'art dans la reproductibilité de l'IA ont atteint un taux de reproductibilité de 21,0 % grâce à Claude 3.5 Sonnet. La capacité générative des grands modèles de langage, en particulier ChatGPT, fait actuellement l'objet de débats au sein de la communauté astronomique. Une initiative récente, PyHC-chat, a tenté d'adapter les modèles GPT en leur fournissant des bibliothèques de code et des points de terminaison de données pertinents issus du cadre PyHC afin d'aider les héliophysiciens à écrire du code. Cependant, cet outil n'est pas conçu pour reproduire intégralement les flux de travail expérimentaux décrits dans les articles scientifiques ; il nécessite donc un certain effort d'adaptation à notre application.
Lorsqu'on aborde la question de la reproductibilité des expériences de traitement de données en héliophysique, trois grandes questions de recherche se posent :
1. Dans un article scientifique donné, quels termes, illustrations ou ressources citées sont indispensables pour reproduire la chaîne de calcul d'origine, et comment les extraire efficacement ?
2. Comment un modèle peut-il transformer ces éléments extraits en code exécutable produisant des résultats comparables à ceux rapportés dans l'étude d'origine ?
3. Comment évaluer et interpréter de manière pertinente le taux de reproductibilité des LLM ?
Impact scientifique
Cette thèse vise à sensibiliser la communauté HP et, au-delà, à la question de la reproductibilité des pipelines. Une enquête sera menée afin d'étudier les pratiques des chercheurs en matière de reproduction d'expériences issues d'articles publiés, ainsi que la manière dont ils prennent en compte la reproductibilité au cours du processus de rédaction. Ce travail permettra également d'améliorer la qualité des données issues des référentiels HP (tels que le CDPP et les autres référentiels associés) et de vérifier la cohérence des ensembles de données avec les publications. Le comité des utilisateurs du CDPP participera à l'évaluation de la valeur ajoutée de ces travaux.
Impact environnemental
Compte tenu des coûts élevés en termes de ressources informatiques et d'énergie liés aux grands modèles de langage (LLM), ces travaux se concentreront sur des modèles plus petits et spécialisés dans un domaine particulier. La plupart des recherches en HP sont axées sur les données, avec des chaînes de traitement qui produisent des séries chronologiques, des images, des spectres, etc., à partir d'observations recueillies par un ou plusieurs instruments, ou d'expériences numériques. La capacité générative des grands modèles de langage, en particulier ChatGPT, fait l'objet de débats au sein de la communauté astronomique. Une initiative récente, PyHC-chat, a tenté d'adapter les modèles GPT en fournissant des bibliothèques de code et des points de terminaison de données pertinents issus du cadre PyHC afin d'aider les héliophysiciens à écrire du code. Cependant, cet outil n'est pas conçu pour reproduire intégralement les flux de travail expérimentaux décrits dans les articles scientifiques ; il nécessite donc un certain effort d'adaptation à notre application. A. Extraction des données
Cette thèse s'appuie sur BibHelioTech, qui extrait des métadonnées d'articles scientifiques à l'aide de diverses techniques fondées sur des règles. Ces techniques s'avèrent toutefois insuffisantes pour reproduire les flux de travail scientifiques, car elles s'appuient sur des modèles prédéfinis et ne parviennent pas à saisir les informations contextuelles telles que les descriptions du traitement des données ou les formules mathématiques. En revanche, l'association des modèles de langage de grande envergure (LLM) à la vision par ordinateur offre un cadre plus flexible pour comprendre et reproduire les pipelines de calcul décrits dans un article.
B. Génération de code
La reproduction des flux de traitement des données s'appuiera sur un modèle GPT capable de générer du code exécutable. Elle s'appuiera sur des techniques similaires à celles utilisées dans le PyHC-chat mentionné plus haut, en fournissant au modèle génératif les bibliothèques HP et les points de terminaison de données, tout en tenant compte du réglage fin des modèles linguistiques.
C. Évaluation
Cette étape consiste à évaluer le code généré par le LLM en comparant les graphiques obtenus à ceux présentés dans l'article original. D'autres indicateurs de reproductibilité fourniront des informations précieuses pour interpréter le taux de reproductibilité du LLM. Première année
- Constitution de l'état de l'art
- Constitution et annotation de corpus depuis les bases de connaissances de la communauté
- Affinage de modèles de langue pour la reconnaissance d'entités nommées
- Utilisation de modèles de vision par ordinateur pour extraire les informations des diagrammes et formules mathématiques
Deuxième année
- Poursuite de l'état de l'art
- Identification des librairies et des jeux de données utilisés par les chercheurs et les fournisseurs de données
- Utilisation de LLM affinés pour générer du code informatique à partir des articles scientifiques et des resources en héliophysique pertinentes
- Développement d'algorithmes pour comparer les résultats rapportés dans la littérature avec ceux obtenus par les modèles de langue employés
Troisième année
- Comparaison des indicateurs de reproductibilité avec les résultats obtenus
- Évaluation avec des utilisateurs des centres de données
- Rédaction du manuscrit et soutenance de thèse
Le profil recherché
Master en traitement automatique des langues (TAL) ou master en informatique avec de solides compétences en TAL.
Des connaissances en astronomie ou en héliophysique constituent un atout.