Thèse Evaluation de la Pertinence des Techniques Rag et Graph-Rag pour la Conformité Règlementaire des Technologies de Santé H/F - Doctorat.Gouv.Fr
- Compiègne - 60
- CDD
- Doctorat.Gouv.Fr
Les missions du poste
Établissement : Université de Technologie de Compiègne École doctorale : Sciences pour l'ingénieur Laboratoire de recherche : Biomécanique et bioingénierie Direction de la thèse : Julie FOLLET Début de la thèse : 2026-10-01 Date limite de candidature : 2026-05-04T23:59:59 Le projet doctoral vise à étudier la pertinence de l'exploitation LLMs (Large Language Models) améliorés par des techniques graph-RAG (Retrieval augmented generation) pour assister les concepteurs académiques de technologies de santé et leurs exploitants hospitaliers, sous dotés en profils juridiques experts, dans leurs démarches de mise en conformité réglementaire, avec entre autres la recherche d'exigences contradictoires entre textes.
Ce projet s'inscrit dans la continuité de travaux initiés dans le cadre d'un stage de Master 2 sur un corpus de près de 700 textes juridiques à divers stades d'élaboration (du projet de loi au décret), avec notamment la construction des bases de données tokenisées et de contextes (chunks) pour l'évaluation de modèles d'instructions améliorés par des techniques RAG. Priorité étant donnée aux modèles open source pour lesquels les bases de données d'entrainement sont connues et dont le ratio performance/coût est le plus favorable.
Le projet doctoral se focalisera sur l'étude de l'apport des techniques graph-RAG dans l'amélioration des résultats obtenus et impliquera l'identification des contenus les plus pertinents à convertir en graphes, la recherche et la mise en oeuvre de stratégies optimisées de prompt engineering exploitant les bases de connaissances ainsi construites (bases de chunks et bases de graphes). Un volet conséquent du projet sera consacré à la recherche et au test des critères d'évaluation des modèles les plus pertinents au vu des tâches qui leur seront déléguées. Selon les cas d'usages retenus durant la mise en oeuvre du projet, l'exploration de stratégies de fine tuning de modèles pourra s'envisager.
Le projet sera conduit en collaboration avec l'Instituto de Tecnología para la Innovación en Salud y Bienestar (ITISB) de l'Université chilienne Andrés Bello (UNAB), et donnera l'opportunité au.à la doctorant.e de conduire une partie de ses recherches au Chili. FR : Selon le statut juridique, la finalité d'usage, les moyens d'action, la connectivité et le caractère disruptif des technologies de santé, leurs conception, évaluation, mise sur le marché, et exploitation en Union Européenne, impliquent de satisfaire simultanément aux exigences de nombreux règlements et directives. A ce corpus de textes d'application obligatoire, il faut ajouter des guides méthodologiques d'application volontaire, censés « faciliter » la mise en conformité réglementaire sur le plan opérationnel (jusqu'à 70 documents de référence par règlement), et prendre en compte les particularités juridiques de chaque Etat Membre.
Pour les concepteurs (académiques ou de TPE/PME) et exploitants hospitaliers de ces technologies, non juristes et pourtant tenus de connaitre, comprendre, faire comprendre et respecter au quotidien l'ensemble de ces exigences est un véritable défi, d'autant plus en contexte de surcharge de travail permanent, interdisant toute veille réglementaire, pourtant indispensable dans un environnement juridique instable.
Proposer à ces professionnels un outil d'aide à la mise en conformité réglementaire basé sur un LLM semble donc adéquat. Des solutions logicielles sont d'ailleurs disponibles. Elaborées au sein de cabinets de conseils, d'organismes de normalisation, ou par des sociétés privées dédiées, leur fonctionnement demeure opaque, tant sur les caractéristiques détaillées du modèle exploité et des bases de données d'entraînement utilisées, la stratégie d'évaluation des modèles, que sur leur impact environnemental. Le contexte géopolitique actuel incite à prioriser l'action de recherche sur le développement de solutions souveraines, véritablement open source (Liesenfeld & Dingemanse, 2024), éco-responsables, participant de la résilience des Etats (Glasze et al., 2023).
Récemment, certains auteurs ont proposé d'exploiter les LLM pour extraire des données spécifiques à partir de bases de données juridiques (Hassani, 2024), automatiser le processus de veille réglementaire (Ioannidis et al., 2023), ou identifier les lignes directrices applicables à la mise sur le marché de produits pharmaceutiques et en tirer des informations pertinentes vis-à-vis des requêtes de l'utilisateur (Kim & Min, 2024).
S'agissant de la mise en conformité réglementaire des technologies de santé, il apparaît qu'une des premières problématiques intéressantes à traiter est la recherche automatique des contradictions intra- et inter-textes en vue de prioriser le temps de travail des juristes sur l'analyse des contradictions plutôt que sur leur identification, particulièrement chronophage (jusqu'à plusieurs mois selon les textes). A cet effet, le projet doctoral poursuivra des travaux actuellement menés dans le cadre d'un stage de Master 2, qui s'intéressent à la recherche de contradictions entre textes juridiques produits par les Institutions de 9 pays d'Amérique du Sud, consacrés à l'exploitation des données personnelles et l'utilisation de l'intelligence artificielle.
EN : Depending on the legal status, purpose of use, means of action, connectivity and disruptive nature of health technologies, their design, evaluation, placing on the market, and operation in the European Union, involve simultaneously meeting the requirements of many regulations and directives. To this body of mandatory texts must be added methodological guides for voluntary application, which are supposed to ease regulatory compliance at the operational level (up to 70 reference documents per regulation), as well as legal particularities of each Member State.
For designers (academic or SMEs) and hospital operators of these technologies, low qualified about law concerns and yet required to know, understand and respect on a daily basis all these requirements is a real challenge, especially in a context of permanent overload, prohibiting any regulatory watch, yet essential in an unstable legal environment.
Offering these professionals a tool to help them comply with regulations based on an LLM seems appropriate. Software solutions are also available. Made by consulting firms, standardization bodies, or by specialised companies, how such solutions work remain opaque, as the detailed characteristics of the models, their training databases, assessment methodology, and environmental impact. The current geopolitical context calls for prioritizing research on the development of sovereign solutions, truly open source (Liesenfeld & Dingemanse, 2024), eco-responsible, that participe in the resilience of States (Glasze et al., 2023).
Recently, some authors have proposed using LLMs to extract specific data from legal databases (Hassani, 2024), automate the regulatory intelligence process (Ioannidis et al., 2023), or identify guidelines for the marketing of pharmaceutical products and derive relevant information from them in relation to user requests (Kim & Min, 2024).
With regard to the regulatory compliance of health technologies, it appears that one of the first interesting issues to be addressed is the automatic search for intra- and inter-text contradictions in order to prioritize the working time of lawyers on the analysis of contradictions rather than on their identification, particularly time-consuming (up to several months depending on the texts). To this end, the thesis project will continue the work currently carried out as part of a Master 2 internship, which aims to search for contradictions between legal texts produced by the Institutions of 9 South American countries, on personal data and artificial intelligence use. FR : Le projet doctoral a pour objectif de :
- identifier les étapes du processus de mise en conformité réglementaire des technologies de santé pour lesquelles le recours aux LLM améliorera la performance tout en intégrant un plan de gestion des risques adapté ;
- concevoir et mettre en oeuvre des protocoles d'amélioration de LLMs, entraînés sur des bases de données textuelles de nature juridique en langues latines et open source, par des techniques graph-RAG pour, en autres, l'identification de contractions inter-textes.
EN : The thesis project aims to :
- identify the steps of the health technologies regulatory compliance process for which the use of LLMs will improve performance while integrating an appropriate risk management plan ;
- design and implement improvement protocols with graph-RAG techniques of LLMs trained on legal text databases in Latin languages and open source, for, among other things, the identification of inter-text contractions. FR : Le projet consiste en la mise en oeuvre de stratégies d'optimisation de la structuration (Tiezzi et al., 2025) et du fonctionnement de LLMs existants par une technique d'ingénierie de requêtage (ou prompt engineering) dite de « génération à enrichissement contextuel » ou de « génération augmentée par récupération » (Retrieval Augmented Generation ou RAG).
Les limites techniques de l'utilisation des LLMs améliorés par RAG seront adressées par l'élaboration de stratégies de couplage à des algorithmes « explicables » pour augmenter la fiabilité des données de sortie des modèles, instaurer la confiance des utilisateurs dans l'usage d'un tel outil, tout en réduisant les empreintes carbone et hydrique de son exploitation.
Des travaux encourageants ont été obtenus à partir de la structuration de textes juridiques sous forme de graphes qu'un LLM, par ailleurs amélioré par RAG, peut appeler (techniques GraphRAG). Cette méthodologie permet de naviguer avec efficacité à l'intérieur d'un même texte (renvois vers les divers articles, annexes...), en suivant les noeuds et arêtes du graphe créé à partir du texte (Galli et al., 2026 ; Garza et al., 2024), mais aussi d'un texte à l'autre (renvoi d'un règlement à une autre référence). Selon la même démarche, il est possible :
- d'extraire des exigences spécifiques pour chaque « rôle » défini dans un texte (par exemple, selon le Règlement européen relatif aux dispositifs médicaux, un fabricant n'est pas soumis aux mêmes exigences qu'un mandataire ou un importateur),
- de procéder à l'analyse comparée de textes différents (d'une loi très conceptuelle à un guide opérationnel, ou d'application territoriale différente Etats-Unis vs UE) (Barry et al., 2025),
- même lorsque que les terminologies utilisées pour désigner un même objet ou un même concept varient d'un texte à l'autre.
Etant donnée la quantité de textes à exploiter selon les cas d'usages identifiés, générer un graphe par texte, et des graphes de graphes représentant les relations entre les textes, paraît peu efficient. L'enjeu du projet est donc de définir la stratégie optimale de couplage de LLMs améliorés par RAG à des bases de connaissances structurées en graphes.
Cette première approche n'exclut pas, selon les performances obtenues avec les techniques RAG et graph-RAG, de recourir au fine tuning de modèles.
EN : The project consists in the implementation of optimizing strategies of existing LLMs structuring and function by a prompt engineering technique called « retrieval augmented generation » (RAG) (Tiezzi et al., 2025).
The technical limitations of RAG-enhanced LLMs will be addressed by developing coupling strategies with « explainable » algorithms to increase the reliability of model output data, and user confidence of such a tool, while reducing the carbon and water footprints of its operation.
Encouraging resuslts have been obtained with RAG-enhanced LLMs calling legal texts structured in graphs (GraphRAG techniques). This method makes it possible to navigate efficiently within the same text (references to the various articles, annexes, etc.), by following the nodes and edges of the graph created from the text (Galli et al., 2026; Garza et al., 2024), but also from one text to another (reference from one regulation to another reference). Following the same approach, it is possible to:
- extract specific requirements for each role' defined in a text (e.g. according to the European Medical Devices Regulation, a manufacturer is not subject to the same requirements as an authorized representative or importer),
- to carry out a comparative analysis of different texts (from a very conceptual law to an operational guide, or of different territorial application in the United States of America vs. the European Union) (Barry et al., 2025),
- even when the terminologies used to designate the same object or the same concept vary from one text to another.
Given the quantity of texts to be analysed according to the use cases identified, generating a graph per text, and graphs of graphs representing the relations between the texts, seems inefficient. The challenge of the project is therefore to define the optimal strategy for coupling RAG-enhanced LLMs to knowledge bases structured in graphs.
Depending on the performance obtained with the RAG and graph-RAG techniques, the thesis project does not exclude LLMs fine tuning techniques.
Le profil recherché
Titulaire d'un diplôme d'ingénieur en génie informatique ou de Master 2 en Informatique ou Mathématiques appliquées avec une spécialité dans le traitement automatique des langues.
Solide formation théorique sur les algorithmes d'apprentissage automatique, et en particulier les LLMs, et la structuration de graphes de connaissances.
Première expérience réussie de la production de jeux de données textuelles tokenisées et contextuelles à partir de grands corpus de textes (plusieurs centaines de documents de plusieurs dizaines de pages, idéalement de nature juridique), du benchmark et de l'évaluation de LLMs, ainsi que de leur amélioration par des techniques RAG (et idéalement graph-RAG).
Maîtrise démontrée du codage dans les langages Python et JavaScript, des bibliothèques et du cadre d'apprentissage PyTorch, ainsi que des outils GitLab/GitHub.
Expérience de la gestion de projet démontrée.
Savoir-être avérés: très fortes proactivité et capacité d'auto-organisation, curiosité scientifique et dynamisme, grande rigueur, fort engagement, adaptabilité aux aléas, esprit d'équipe et communication.
Capacité à comprendre et s'exprimer en espagnol est un plus.