Recrutement CNRS

Thèse Requêtes Analytiques pour la Découverte et l'Exploration de Données H/F - CNRS

  • Saint-Martin-d'Hères - 38
  • CDD
  • CNRS
Publié le 5 juin 2025
Postuler sur le site du recruteur

Les missions du poste

La découverte de jeux de données est le processus d'identification et de collecte de jeux de données. Son premier objectif est de créer un nouveau jeu de données, potentiellement virtuel. Cela peut se faire, par exemple, directement par le biais d'une recherche, en naviguant à partir d'ensembles de données connexes ou en parcourant les jeux de données à l'aide d'une annotation spécifique. L'exploration des jeux de données consiste à comprendre les propriétés des jeux de données et les relations entre eux. Cela peut se faire, par exemple, en explorant les relations d'un jeu de données donné, en visualisant les annotations partagées au niveau du jeu de données ou de ses attributs, ou en explorant les relations qui sont partagées par plusieurs jeux de données. L'exploration des données est le processus d'interrogation séquentielle d'un jeu de données donné. L'objectif de cette thèse est de combler l'écart conceptuel entre la découverte de jeux de données, l'exploration de jeux de données et l'exploration de données, afin d'accomplir une tâche précise.

L'objectif principal est - en utilisant un modèle de données qui capture les données et les métadonnées, l'apprentissage automatique et les opérateurs de transformation - d'explorer différentes approches pour construire des modèles de planification de processus analytiques de découverte de données et de les appliquer aux 3 cas d'utilisation du projet : l'éducation, le lifelong learning et l'analyse des données météorologiques.

Tâches :
1. Concevoir une sémantique pour les requêtes analitiques et des algorithmes efficaces
2. Développer des algorithmes pour les motifs d'analyse pour les cas pratiques du projet
3. Mettre en oeuvre et évaluer les prototypes (performance) ; diffuser les résultats (publication, code source).

Les compétences souhaitées sont : capacité d'abstraction, maîtrise de langages de programmation C/C++ et Python, maîtrise des algorithmes de graphe et d'apprentissage séquentiel, maîtrise de l'anglais.

Contexte de travail
Le travail s'effectuera au sein du Laboratoire d'Informatique de Grenoble. Le LIG rassemble près de 450 chercheurs, enseignants-chercheurs, doctorants et personnels en soutien à la recherche. Ils relèvent des différents organismes et sont répartis sur trois sites du LIG : le campus, Minatec et Montbonnot. Le LIG se veut un laboratoire centré sur les fondements et le développement des sciences informatiques, tout en veillant à une ouverture ambitieuse sur la société pour en accompagner les nouveaux défis. L'ambition est de s'appuyer sur la complémentarité et la qualité reconnue des 22 équipes de recherche du LIG pour contribuer au développement des aspects fondamentaux de l'informatique (modèles, langages, méthodes, algorithmes) et pour développer une synergie entre les défis conceptuels, technologiques et sociétaux associés à cette discipline. Relever ces défis trouve une résonance dans les cinq axes thématiques de recherche explorés au LIG.
L'équipe d'accueil, DAISY, est une équipe de recherche commune CNRS, Grenoble INP, UGA, qui est concernée par les défis de recherche qui se situent à l'intersection de l'IA et la gestion de données, ainsi que aux données en provenance de domaines interdisciplinaire comme l'éducation et la médecine.

Recrutement dans le cadre du projet H2024-INFRA DataGEMS
Les données sont un atout qui stimule l'innovation, oriente la prise de décision, améliore les opérations et a un impact sur plusieurs domaines, notamment la science, l'environnement, la santé, l'énergie, l'éducation, l'industrie et la société dans son ensemble. Un nombre croissant d'ensembles de données ouvertes provenant des gouvernements, des établissements universitaires et des entreprises offrent de nouvelles opportunités en matière d'innovation, de croissance économique et de bénéfices sociétaux. Des données en temps réel aux données historiques, des données structurées sous forme de tableaux aux textes, images ou vidéos non structurés, les données sont très hétérogènes. De plus, son volume et sa complexité créent un problème « d'aiguille dans la botte de foin » : il est extrêmement difficile et prend beaucoup de temps de découvrir, d'exploiter et de combiner des données au sein de cet océan de données en expansion. Les systèmes de découverte de données, tels que Google Datasets, et les portails de données ouvertes, tels que le portail EOSC, promettent de rapprocher les données des utilisateurs, mais échouent pour les raisons suivantes : (a) Capacités limitées de découverte de données, (b) Mauvaises métadonnées, (c) Réponse superficielle aux requêtes, et (d) Ensembles de données à table unique. Les outils existants permettent de rechercher des feuilles de calcul ou des données publiées dans des formats tels que CSV ou JSON, mais pas d'ensembles de données complexes, par exemple des collections de tableaux, de texte ou de données temporelles.

Pour répondre aux limitations ci-dessus, le projet DataGEMS propose une plateforme de découverte de données avec des capacités d'exploration, de gestion et de recherche généralisées. DataGEMS repose sur les principes d'équité, d'ouverture et de réutilisation des données. Il vise à intégrer de manière transparente le partage, la découverte et l'analyse des données dans un système qui couvre l'ensemble du cycle de vie des données, c'est-à-dire le partage, le stockage, la gestion, la découverte, l'analyse et la réutilisation (données et/ou métadonnées), comblant le fossé entre le fournisseur de données et le consommateur de données.
DataGEMS est une action de recherche et d'innovation HORIZON-INFRA-2024-EOSC-01-05 - HORIZON-RIA HORIZON dont le but est de construire un écosystème entièrement opérationnel et durable d'outils open source pour l'équité des données et de fournir un écosystème d'outils gratuits et ouverts. Le projet compte 12 partenaires répartis dans 8 pays européens qui collaboreront pour développer de nouveaux outils et services permettant d'accéder plus rapidement qu'auparavant aux ensembles de données FAIR-by-design. Ils facilitent la collecte et l'analyse d'ensembles de données hétérogènes et/ou à grande échelle, assurent la production automatique de données FAIR au niveau des instruments de recherche (par exemple, les stations météorologiques) et soutiennent les infrastructures par des outils et techniques d'automatisation des métadonnées.

Le poste se situe dans un secteur relevant de la protection du potentiel scientifique et technique (PPST), et nécessite donc, conformément à la réglementation, que votre arrivée soit autorisée par l'autorité compétente du MESR.

Le poste se situe dans un secteur relevant de la protection du potentiel scientifique et technique (PPST), et nécessite donc, conformément à la réglementation, que votre arrivée soit autorisée par l'autorité compétente du MESR.

Postuler sur le site du recruteur

Ces offres pourraient aussi vous correspondre.