Analyste-Chercheur·se en Science des Données Juridiques et en IA H/F - Universite de Strasbourg
- Strasbourg - 67
- CDD
- Universite de Strasbourg
Les missions du poste
CDD de projet 12 mois
Démarrage à compter du 18/05/2026
Catégorie : A Corps : Ingénieur de recherche
Quotité : 20% temps incomplet
Emploi ouvert aux agents contractuels uniquement
Rémunération selon grille de la Fonction Publique
Activités
Collecte & normalisation des textes (UE) :
- Moissonnage ciblé (EUR-Lex/CELEX/ELI) des actes identifiés ; archivage des versions (proposition/adoption/JO/consolidés), ainsi que des métadonnées (dates, base juridique, procédure, institutions).
- Capture des liens intertextes (articles/considérants/amendements), des phases de mise en application et des documents interprétatifs (lignes directrices, communications).
- Harmonisation des références (formatage uniforme des citations, identifiants uniques, nomenclature des actes).
Livrables : Corpus UE (répertoires textuels/JSON), table instruments.csv (métadonnées normalisées), table links.csv (renvois explicites).
Nettoyage & préparation des données. Extraction d'entités :
- Constitution d'un jeu d'annotation or (guidelines + 100-150 extraits annotés) - Livrable : guide d'annotation + dataset gold.
- Nettoyage structurel (suppression artefacts PDF/HTML, titres/annexes repérés, segmentation articles/considérants).
- Détection des doublons/versions ; harmonisation de l'encoding ; alignement inter-versions (diffs) pour suivre les évolutions.
- Contrôles qualité : complétude champs, cohérence des dates, validité des URLs sources ; journalisation des corrections (audit trail).
Livrables : Textes nettoyés (par langue/version) + diffs inter-versions ; rapport de contrôle qualité QA.
Embeddings & indexation sémantique & indicateurs d'évolution :
- Granularité d'indexation : passage du texte en chunks juridiques (article, alinéa, considérant), avec contexte (titre, chapitre, instrument).
- Embeddings : entraînement/choix de modèles adaptés au fr/en/de (ou multilingues) ; normalisation vectorielle ; stockage en vecteur-store (FAISS/pgvector).
- Évaluation : jeux de requêtes juridiques de test (xxxx, nDCG), hard negatives (renvois proches mais non pertinents), courbes précision-rappel.
- RAG contrôlé (optionnel pour la suite) : composition keyword + vector search ; garde-fous (citations pin-point, passage exact).
Livrables : Index sémantique (vectors + métadonnées), cartes de similarité (topics/communautés), bench d'évaluation (scripts + scores).
Comparaison UE États membres (FR/DE/IT + 1 pays)
- France : recensement et cartographie de transposition/appropriation
- Allemagne : idem
- Italie : idem
- Pays additionnels (extension possible à l'Afrique, à confirmer) : idem
Livrables : Par pays : fiche pays (textes, échéances, autorités, écarts). Synthèse comparative & tableaux d'écart.: note comparative UE EM + tableaux consolidés.
a) Savoir sur l'environnement professionnel
Coeur NLP juridique
- Embeddings : expérience pratique des modèles d'embeddings (monolingues et multilingues), normalisation vectorielle, indexation (FAISS/pgvector), évaluation IR (xxxx, nDCG, P/R), réduction dimensionnelle (UMAP/t-SNE) et RAG sous contraintes juridiques (citation exacte, grounding).
- Annotation : maîtrise d'outils d'annotation (notamment Prodigy) pour définir jeux gold, schémas d'étiquettes et boucles d'amélioration ; appétence pour l'automatisation (scripts QA).
- Préparation de corpus : parsing/cleaning de textes juridiques multi-formats (PDF/HTML/JO), segmentation articles/considérants, alignement inter-versions, gestion multilingue.
Droit & régulation
- Propriété intellectuelle (indispensable) : solides bases en brevets, dessins et modèles, marques, et droit d'auteur (originalité, titularité, exceptions), avec un intérêt marqué pour les problématiques liées à l'IA (oeuvres générées, inventivité, données d'entraînement).
- Droit de l'UE lié à l'IA : connaissance des principaux instruments (données/plateformes/sécurité produits/cybersécurité) et de leurs mécanismes (amendements, sans préjudice, articulation règlements/directives).
- Comparé / international (atout) : premières notions des cadres afric@ines (UA/organisations régionales) ou appétence pour les approches comparatives.
Data & visualisation
- Structuration de données, graphes (NetworkX/Gephi), timelines, matrices ; rigueur documentaire (dictionnaires de données, versioning).
- Communication claire des résultats (tableaux de bord, notes exécutives) ; niveaux anglais et français professionnels.
b) Savoir-faire opérationnel
- Capacités organisationnelles et de planification ; gestion de projets.
- Capacité à rédiger une note de synthèse technique.
c) Savoir-faire comportemental
- Initiative, autonomie, sens de l'organisation, reporting, respect des délais.
- Capacités d'observation, d'analyse et de synthèse.
- Disponibilité et flexibilité.
- Capacité à innover, curiosité intellectuelle.
- Capacité à travailler en équipe, à collaborer.
- Capacité à s'adapter dans différents contextes.
- Rigueur professionnelle.
- Capacité d'écoute et d'accompagnement.
L'Université de Strasbourg est une université pluridisciplinaire de recherche qui comprend 56 000 étudiants et 5 800 personnels, dont 2 800 enseignants-chercheurs.
Elle propose un environnement professionnel intellectuellement stimulant, marqué par l'excellence de la recherche, un leadership régional et européen, et porté par un projet stratégique qui la définit comme internationale, ouverte, créative et inclusive.
Attentive à la qualité de vie au travail, à l'égalité femmes-hommes, et handi-bienveillante, l'Université de Strasbourg propose des opportunités professionnelles nombreuses et variées, au service de la formation des générations futures et du progrès scientifique.
Descriptif du service
Nom du service : CEIPI
Nombre d'agents à encadrer (éventuellement) : /
Lieu d'exercice : CEIPI - Bâtiment LE CARDO
Contexte
L'Union européenne (UE) a produit, au cours des dix dernières années, un corpus dense de normes touchant l'IA (de manière générale) et en particulier de la propriété intellectuelle ainsi que des données en lien direct avec l'IA (règlements, directives, actes d'exécution). Ce corpus, disponible via des plateformes telles que Eur-Lex, est riche d'enseignements sur le développement normatif autour de l'IA. Il est cependant à ce jour largement inexploité.
Le projet vise à modéliser, visualiser et analyser :
- L'évolution temporelle des textes (proposition adoption entrée en vigueur application)
- leurs interdépendances (p.ex. renvois, sans préjudice de..., modifications, alignements sectoriels)
- la présence et l'empreinte de l'IA dans ces instruments
- L'évolution des sens de termes techniques (Big Data, IA, IA generative, Modèles de fondation, etc.)
- L'impact dans les ordres juridiques nationaux (transposition/appropriation : France, Allemagne, Italie, etc.).
Ce poste s'inscrit dans le développement des activités prévues dans le cadre de la Chaire DENoTE portée par le CEIPI et l'Université de Strasbourg, visant à développer une analyse de l'évolution des normes face aux technologies émergentes.