Stage - Stratégies de Sélection de Données pour l'Auto-Supervision des Modèles de Fondation H/F - Safran
- Châteaufort - 78
- Stage
- Safran
Les missions du poste
Safran est un groupe international de haute technologie opérant dans les domaines de l'aéronautique (propulsion, équipements et intérieurs), de l'espace et de la défense. Sa mission : contribuer durablement à un monde plus sûr, où le transport aérien devient toujours plus respectueux de l'environnement, plus confortable et plus accessible. Implanté sur tous les continents, le Groupe emploie 100 000 collaborateurs pour un chiffre d'affaires de 27,3 milliards d'euros en 2024, et occupe, seul ou en partenariat, des positions de premier plan mondial ou européen sur ses marchés.
Safran est la 2ème entreprise du secteur aéronautique et défense du classement « World's Best Companies 2024 » du magazine TIME.
Parce que nous sommes persuadés que chaque talent compte, nous valorisons et encourageons les candidatures de personnes en situation de handicap pour nos opportunités d'emploi
Safran est un groupe international de haute technologie. Il est un fournisseur majeur de systèmes et d'équipements aéronautiques et de défense. SAFRAN Tech, son centre de recherche et développement, conçoit de nouvelles technologies pour les sociétés du groupe, dans le but de décarboner l'aviation.
Dans l'équipe PERCIVAL (PERCeption, Inspection, Vision & Autonomy Lab), nous développons des algorithmes avancés pour faire progresser la perception automatique basée sur la vision et l'exploitation de capteurs variés. Notre objectif est de concevoir des solutions capables d'analyser des environnements complexes, afin de répondre à des besoins allant de l'inspection et du contrôle qualité, jusqu'à l'autonomie des systèmes et la robotique.
Dans ce contexte, les modèles de fondation s'imposent comme une technologie clé, entraînés sur un grand volume de données variées, dans une perspective d'auto-supervision qui permet d'exploiter les données non labellisées, à l'aide de techniques telles que la reconstruction avec les Masked AutoEncoders (MAE). Une fois pré-entraînés, ces modèles de fondation peuvent être adaptés avec des méthodes spécifiques de fine-tuning efficace à une grande diversité de tâches aval, gagnant ainsi en flexibilité, en robustesse et en capacité de généralisation.
Toutefois, la qualité et la représentativité des données de pré-entraînement jouent un rôle déterminant : au-delà du volume de données, l'enjeu majeur réside dans l'identification et la sélection de données réellement informatives favorisant la transférabilité vers les tâches cibles. Des études proposent ainsi des approches visant à sélectionner un sous-ensemble pertinent du jeu de données initial, montrant qu'un jeu de données bien ciblé et pertinent peut offrir des performances comparables à celles obtenues avec des volumes massifs de données, tout en nécessitant un temps de calcul réduit. Dans cette continuité, plusieurs travaux adaptent l'Active Learning à l'apprentissage auto-supervisé en définissant des critères permettant de sélectionner les données sur lesquelles se focaliser, plutôt que de traiter l'ensemble du corpus de manière uniforme.
Dans ce contexte, ce stage a pour objectifs :
1. De réaliser un état de l'art sur les approches de sélection de jeux de données pour l'apprentissage auto-supervisé.
2. De concevoir une méthodologie robuste pour la définition et la sélection de jeux de données adaptés.
3. D'évaluer l'efficacité de l'approche développée dans des applications liées à l'autonomie des systèmes et au contrôle non destructif.
4. De fournir un code opérationnel, clair et bien documenté.
Ce stage pourra aboutir à la rédaction de brevet et publication.
Le profil recherché
Compétences techniques : apprentissage profond, programmation (python, pytorch),
Compétences non techniques : Rigueur, bonnes capacités de communication, aptitude à proposer des solutions et mises en oeuvre innovantes, ainsi qu'un intérêt marqué pour la recherche.