Stagiaire Assistant IA - Data - Rag Hiérarchique H/F - Crédit Mutuel ARKEA
- Brest - 29
- Stage
- Crédit Mutuel ARKEA
Les missions du poste
Le Crédit Mutuel Arkéa est un groupe bancaire coopératif, territorial et collaboratif de 10 500 collaborateurs.
Depuis toujours, le Crédit Mutuel Arkéa innove pour répondre aux défis croissants d'un secteur bancaire en pleine mutation. C'est un modèle original aux performances reconnues.
C'est aujourd'hui un groupe puissant et diversifié, avec une trentaine d'entités et une centaine de métiers différents, principalement dans des fonctions commerciales, mais aussi dans l'IT, les risques, la comptabilité, le contrôle/audit, le marketing, le digital ou encore la finance... Toute une palette de métiers, de compétences, de savoir-être pour lesquels le Crédit Mutuel Arkéa accompagne ses collaborateurs pour les faire évoluer et révéler de nouveaux talents
Le Groupe Crédit Mutuel Arkéa s'engage en faveur de l'inclusion, afin de garantir un cadre de travail respectueux de la diversité de chacun. Nous formons et sensibilisons l'ensemble des acteurs de l'entreprise par le biais d'une stratégie inclusion groupe dédiée et nous nous appuyons sur une communauté de salariés engagés, les ambassadeurs inclusion, pour faire vivre et rayonner cette dynamique au sein du groupe.Stage de 6 mois à pourvoir sur Brest à partir du 02/03/2026
- État de l'art : Étudier les méthodes de retrieval denses (bi-encodeurs) et les techniques d'encodage de documents structurés (ex: modèles de layout-aware).
- Modélisation & Implémentation :
- Conserver la représentation latente (embedding) de chaque "chunk" (élément fin).
- Entraîner un modèle d'agrégation au niveau de la Page, qui produit un unique vecteur sémantique encapsulant tous les éléments qu'elle contient.
- Entraîner un modèle d'agrégation au niveau du Document, qui produit un vecteur global encapsulant l'ensemble de ses pages.
- Expérimentation :
- Mettre en oeuvre le pipeline de recherche hiérarchique.
- Évaluer rigoureusement la performance du retriever en utilisant notre benchmark interne déjà établi, basé sur une évaluation au niveau de la page.
- Analyse & Synthèse : Comparer l'approche hiérarchique aux méthodes de RAG "plates" (flat RAG) et rédiger un rapport technique.
Le profil recherché
- Étudiant(e) en Master 2 ou dernière année d'École d'Ingénieur (Informatique, IA, Data Science, NLP).
- Compétences solides en Python et dans un framework de Deep Learning majeur (PyTorch).
- Un premier contact avec les systèmes RAG (ex: LangChain, LlamaIndex) ou les bases de données vectorielles est un plus très apprécié.
- Qualités : Rigueur scientifique, curiosité, autonomie et goût pour la R&D fondamentale.