Thèse Alignement d'Entités dans des Graphes de Connaissances Évolutifs et Épars par des Approches d'IA Hybride et Frugale H/F - Doctorat.Gouv.Fr
- Paris - 75
- CDD
- Doctorat.Gouv.Fr
Les missions du poste
Établissement : Université Paris-Saclay GS Informatique et sciences du numérique École doctorale : Sciences et Technologies de l'Information et de la Communication Laboratoire de recherche : Laboratoire Interdisciplinaire des Sciences du Numérique Direction de la thèse : Fatiha SAÏS ORCID 0000000269952785 Début de la thèse : 2026-10-01 Date limite de candidature : 2026-05-12T23:59:59 Cette thèse porte sur l'alignement d'entités dans des graphes de connaissances évolutifs et épars, c'est-à-dire l'identification d'entités équivalentes dans des graphes hétérogènes, incomplets et mis à jour au fil du temps.
L'objectif est de dépasser les limites des approches actuelles, souvent conçues pour des graphes statiques et denses, en proposant des méthodes adaptées à des contextes réels. Les données expérimentales ont déjà été en partie identifiées et concerneront notamment des données issues de Data Terra, en particulier des portails et pôles de données ouverts liés à l'observation du système Terre.
La thèse explorera des approches d'IA hybride, combinant apprentissage automatique, notamment auto-supervisé, et connaissances symboliques sous forme de contraintes sémantiques, structurelles ou spatio-temporelles. Un enjeu central sera également la frugalité : les méthodes proposées devront maintenir de bonnes performances tout en réduisant les coûts de calcul, la consommation mémoire, le besoin en annotations et l'empreinte énergétique.
La thèse visera ainsi à développer des méthodes d'alignement plus robustes, explicables et soutenables pour les graphes de connaissances du monde réel.
La plupart des méthodes d'alignement d'entités de l'état de l'art abordent encore le problème dans un cadre essentiellement statique. Elles supposent que les graphes à aligner sont disponibles à un instant donné et présentent une structure relativement stable. Pourtant, dans de nombreux contextes réels, les graphes de connaissances évoluent continuellement : de nouvelles entités apparaissent, certaines propriétés sont modifiées, des liens sont supprimés ou enrichis, et les descriptions associées aux entités changent au cours du temps.
Cette question est particulièrement importante pour les infrastructures de données ouvertes et scientifiques. Dans le contexte de Data Terra, les pôles AERIS, FormaTerre, ODATIS, Theia et PNDB collectent en continu des observations sur différents compartiments du système Terre [13, 5, 1, 6, 8]. Ces données, qui peuvent potentiellement être représentées sous forme de graphes de connaissances, sont fortement hétérogènes, évolutives et étroitement liées à des dimensions spatiales et temporelles [2]. L'alignement d'entités dans un tel environnement ne peut donc pas se réduire à la comparaison de deux graphes figés : il doit prendre en compte l'évolution des ressources, leur caractère épars, ainsi que les contraintes sémantiques, spatiales et temporelles qui structurent les données.
Un autre défi majeur concerne la frugalité des méthodes proposées. Les approches modernes fondées sur l'apprentissage profond peuvent obtenir de bonnes performances, mais elles impliquent souvent des coûts computationnels et énergétiques importants, notamment lorsqu'elles nécessitent un réentraînement complet après chaque évolution du graphe. Ce projet de thèse adopte donc une perspective d'IA hybride et frugale, combinant apprentissage numérique, extraction de connaissances symboliques et stratégies économes en ressources.
L'objectif principal de ce projet de thèse est de proposer de nouvelles méthodes d'alignement d'entités adaptées aux graphes de connaissances évolutifs, hétérogènes et épars. Il s'agit de dépasser les limites des approches existantes, principalement conçues pour des graphes statiques et souvent denses, en développant des méthodes capables d'intégrer les évolutions des graphes sans nécessiter un réentraînement complet après chaque mise à jour.
Plus précisément, la thèse poursuivra les objectifs suivants :
1- Construire et exploiter des graphes de connaissances évolutifs réels.Il s'agira de collecter, moissonner et structurer des données issues de portails de données ouvertes, en particulier les pôles de l'infrastructure Data Terra, afin d'obtenir des graphes représentatifs de contextes réels, évolutifs et hétérogènes.
2- Analyser et réimplémenter des méthodes récentes d'alignement d'entités.La thèse étudiera des approches supervisées, non supervisées et auto-supervisées d'alignement d'entités, ainsi que des bibliothèques existantes, afin d'évaluer leurs performances sur des graphes plus réalistes que les benchmarks classiques.
3- Développer des approches hybrides d'alignement.Les méthodes proposées combineront des techniques d'apprentissage, telles que les plongements de graphes ou les réseaux d'attention, avec des connaissances symboliques, notamment des contraintes sémantiques, spatiales et temporelles.
4- Concevoir des stratégies frugales et incrémentales.Une attention particulière sera portée à la réduction du coût computationnel, de la consommation mémoire, du nombre de paramètres et de l'empreinte énergétique des modèles. L'objectif est de concevoir des méthodes capables de s'adapter aux évolutions des graphes sans réentraînement complet.
5- Évaluer les méthodes proposées sur des données réelles et de référence.Les approches seront évaluées à la fois sur des archives de graphes dérivées de sources connues, par exemple liées à Wikipédia, et sur des graphes construits à partir de portails de données scientifiques ouvertes. La méthodologie proposée est organisée autour de trois axes complémentaires.
Collecte et construction de graphes de connaissances évolutifs.La première étape consistera à construire des jeux de données adaptés à l'étude de l'alignement d'entités dans des contextes évolutifs et réalistes. Deux sources principales seront explorées. Premièrement, les données issues des pôles AERIS, FormaTerre, ODATIS, Theia et PNDB de l'infrastructure Data Terra seront moissonnées et structurées sous forme de graphes de connaissances [13, 5, 1, 6, 8, 2]. Deuxièmement, des archives représentant l'évolution de bases de connaissances dérivées d'une source commune, comme Wikipédia, pourront être exploitées afin de reconstruire différentes versions temporelles de graphes et de comparer les méthodes proposées avec les approches de l'état de l'art.
État de l'art et évaluation comparative des méthodes existantes.La thèse conduira une étude approfondie des méthodes d'alignement d'entités, couvrant notamment les approches fondées sur les plongements de graphes, les méthodes tenant compte des relations, les approches non supervisées, les méthodes robustes pour les données réelles et les stratégies récentes d'alignement à grande échelle [10, 14, 7, 4, 16]. Cette étape inclura également la mise en oeuvre ou l'adaptation de bibliothèques existantes afin d'établir une base expérimentale solide et reproductible.
Méthodes hybrides, frugales et incrémentales.La contribution centrale de la thèse consistera à proposer des méthodes hybrides combinant apprentissage automatique et extraction de connaissances symboliques. Ces méthodes pourront exploiter des contraintes sémantiques, des clés approximatives ou des dépendances découvertes dans les données [11, 12], ainsi que des informations spatiales et temporelles. L'objectif sera de concevoir des modèles améliorant la qualité de l'alignement tout en limitant les coûts computationnels. La frugalité sera évaluée selon plusieurs dimensions : temps d'exécution, consommation mémoire, nombre de paramètres, coût de mise à jour et estimation de l'empreinte énergétique.
Le profil recherché
Formation, compétences :
- Master 2 en Informatique, Science des données, IA, avec de solides bases en représentation de connaissances, Apprentissage et raisonnement automatique
- Des connaissances et des expériences en apprentissage automatique et statistique seront particulièrement appréciées
- Manipulation, traitement, analyse de données réelles
- Compétences rédactionnelles
Programmation Informatique :
- Python (indispensable) ;
- Manipulation des librairies ML : Open EA, PyKeen, Scikit-learn, TensorFlow etc.
Autre :
- Goût et capacités pour les approches exploratoires, dans un contexte international et multilingue
- Intérêt pour le travail collaboratif