Thèse Intégration et Exploitation de Connaissances en Apprentissage Profond H/F - Doctorat.Gouv.Fr
- Orléans - 45
- CDD
- Doctorat.Gouv.Fr
Les missions du poste
Établissement : Université d'Orléans École doctorale : Mathématiques, Informatique, Physique Théorique et Ingénierie des Systèmes - MIPTIS Laboratoire de recherche : LIFO - Laboratoire d'Informatique Fondamentale d'Orléans Direction de la thèse : Thi Bich Hanh DAO ORCID 0000000227406954 Début de la thèse : 2026-10-01 Date limite de candidature : 2026-05-22T23:59:59 L'intelligence artificielle symbolique englobe toute approche permettant de représenter des connaissances, de raisonner ou d'apprendre en s'appuyant sur ces connaissances. Son principal atout est sa transparence et sa capacité à interpréter les décisions. Elle souffre cependant de difficultés liées à l'acquisition des connaissances et la capacité d'évoluer ou de s'adapter à un autre contexte. D'autre part, l'apprentissage automatique (Machine Learning) propose des méthodes très puissantes pour apprendre des modèles à partir de données. Cependant il nécessite de grands volumes de données et l'apprentissage sur ces données requiert des capacités de calcul importantes. Un autre problème important est que les méthodes actuelles reposent sur l'apprentissage profond (Deep Learning) et bien qu'elles soient puissantes, manque de transparence et d'explicabilité.
Cette thèse s'inscrit dans le courant des approches neuro-symboliques qui cherchent à coupler IA symbolique et apprentissage profond pour tirer parti des avantages des deux approches. Selon le type de couplage, cela permet de rendre les modèles appris par l'apprentissage profond plus explicables mais aussi plus proches des attentes de l'expert, et donc plus facilement acceptés, car guidés par des connaissances générales ou thématiques. On peut aussi espérer que l'apport des connaissances permettrait un apprentissage nécessitant moins de données, ou moins de données annotées et moins de ressources en termes de calcul (IA frugal).
Nous nous intéressons ici aux approches neuro-symboliques qui intègrent des connaissances exprimées en logique des propositions ou en logique des prédicats, en général pondérées pour gérer l'incertitude. Ces connaissances peuvent être des faits ou des règles et différents modèles de gestion de l'incertitude peuvent être considérés, comme les réseaux bayésiens ou les modèles de Markov. Des approches comme [1,2,3] intègrent des règles données à l'avance, et [4,5] apprennent des règles, cependant ces travaux n'intègrent pas des connaissances préalables.
Nous nous intéressons dans cette thèse à intégrer des connaissances sous forme de règles et à apprendre de nouvelles règles dans le contexte d'une approche neuro-symbolique. Les défis suivants sont considérés :
- Les règles apprises dépendront d'un critère en fonction de l'objectif recherché, par exemple la simplicité d'une explication ou la précision d'une prédiction.
- Les règles apprises doivent être cohérentes par rapport à des connaissances préalables, par exemple des connaissances expertes thématiques à respecter.
- Les règles seront adaptables, en particulier dans le contexte de transfert learning (adaptation du modèle appris à un autre environnement).
- Les règles seront apprises dans un contexte de données multi-modales ou multi-vues, où par exemples des données sont décrites par des attributs catégoriques ou booléens, des données numériques ou des images.
Le travail de thèse vise à développer une méthode générique. Cependant nous envisageons de valider l'approche sur une application concrète en chemo-informatique, à savoir la prédiction d'activité de molécules sur des protéines. Chaque molécule est décrite d'un côté par des attributs booléens exprimant la présence ou non des pharmacophores, et d'autre côté par des activités sur des kinases.
Nous nous intéressons ici aux approches neuro-symboliques qui intègrent des connaissances exprimées en logique des propositions ou en logique des prédicats, en général pondérées pour gérer l'incertitude. Ces connaissances peuvent être des faits ou des règles et différents modèles de gestion de l'incertitude peuvent être considérés, comme les réseaux bayésiens ou les modèles de Markov. Des approches comme [1,2,3] intègrent des règles données à l'avance, et [4,5] apprennent des règles, cependant ces travaux n'intègrent pas des connaissances préalables. Nous nous intéressons dans cette thèse à intégrer des connaissances sous forme de règles et à apprendre de nouvelles règles dans le contexte d'une approche neuro-symbolique. Les défis suivants sont considérés :
- Les règles apprises dépendront d'un critère en fonction de l'objectif recherché, par exemple la simplicité d'une explication ou la précision d'une prédiction.
- Les règles apprises doivent être cohérentes par rapport à des connaissances préalables, par exemple des connaissances expertes thématiques à respecter.
- Les règles seront adaptables, en particulier dans le contexte de transfert learning (adaptation du modèle appris à un autre environnement).
- Les règles seront apprises dans un contexte de données multi-modales ou multi-vues, où par exemples des données sont décrites par des attributs catégoriques ou booléens, des données numériques ou des images.
Le travail de thèse vise à développer une méthode générique. Cependant nous envisageons de valider l'approche sur une application concrète en chemo-informatique, à savoir la prédiction d'activité de molécules sur des protéines. Chaque molécule est décrite d'un côté par des attributs booléens exprimant la présence ou non des pharmacophores, et d'autre côté par des activités sur des kinases.
Le profil recherché
Idéalement, la personne recrutée sera titulaire d'un Master en informatique, et disposera de connaissances théoriques et pratiques sur l'apprentissage automatique. Le candidat doit démontrer :
- Des compétences en programmation, telles que la maîtrise de Python, par exemple
- Une expérience en apprentissage automatique, en fouille de données ou en mathématiques appliquées
- Des compétences en synthèse et rédaction permettant de rendre compte clairement et efficacement du travail réalisé
- La capacité de communiquer en français ou en anglais, à l'oral et à l'écrit.