
Ingénieur en Traitement des Données H/F - INSERM
- Nantes - 44
- CDD
- INSERM
Les missions du poste
Mission principale
Vous souhaitez contribuer à un projet de recherche interdisciplinaire innovant croisant science des données, intelligence artificielle, santé publique et enjeux de genre ? Rejoignez notre équipe pour étudier les mécanismes expliquant les différences hommes/femmes de fonction respiratoire, à partir de données massives recueillies sur cent mille individus (UK Biobank).
Ce projet de recherche vise à déployer des approches de fouille exploratoire de données et d'apprentissage supervisé pour identifier les déterminants de la fonction respiratoire et analyser la présence/absence des différences entre les hommes et les femmes, à l'aide de méthodes avancées de machine learning. Il s'agira en particulier d'évaluer l'impact combiné de facteurs biologiques, comportementaux, socioéconomiques et environnementaux, sans se limiter à une dichotomie homme/femme. L'objectif est de développer des modèles prédictifs innovants, potentiellement transposables à la prévention et à l'interprétation clinique de la mesure de la fonction respiratoire, tout en réduisant les biais liés au genre.
L'ingénieur recruté (F/H) sera chargé·e de l'implémentation, de l'optimisation et de l'interprétation de modèles statistiques et prédictifs, en lien avec les responsables scientifiques du projet. Il/elle jouera un rôle central dans l'analyse des données, la comparaison de modèles et l'identification de biais potentiels liés au genre dans les outils de prédiction médicale. Il/elle sera intégré·e dans une équipe pluridisciplinaire composée de chercheur·es en santé, en statistique et en IA et de soignant·es.
Activités principales
· Préparation, nettoyage et exploration de jeux de données de grande taille.
· Mise en oeuvre de modèles statistiques et de machine learning (modèles linéaires, forêts aléatoires, réseaux de neurones...).
· Comparaison de modèles, sélection de variables explicatives, interprétation des résultats.
· Participation à la rédaction de rapports et aux échanges scientifiques.
· Documentation claire et reproductible du code (R, Git).
Le profil recherché
Connaissances
· Formation en data science, statistiques appliquées ou domaine connexe.
· Bases en machine learning (modélisation, classification, évaluation des performances).
· Maîtrise du langage R et des principaux outils associés (tidyverse, tidymodels, RMarkdown, Git).
· Intérêt pour l'analyse de données de santé et de grandes cohortes (expérience appréciée).
· Des connaissances en épidémiologie ou santé publique seraient un plus.
Afficher la suite
Savoir-faire
· Savoir structurer et mener des analyses statistiques sur de grands jeux de données.
· Être à l'aise avec l'environnement R et ses principaux packages pour l'analyse et la modélisation (tidyverse, tidymodels, etc.).
· Mettre en oeuvre différentes approches de machine learning (supervisées ou non), comme les forêts aléatoires, SVM ou réseaux de neurones.
· Utiliser des outils de travail reproductible (RMarkdown, Quarto) et de gestion de versions (Git).
· Interpréter les modèles à l'aide d'outils dédiés (SHAP, importance des variables, visualisations).
· Contribuer à la rédaction de rapports, de synthèses techniques et à la valorisation des résultats du projet.
Aptitudes
· Capacité à travailler de manière autonome tout en s'intégrant dans une équipe pluridisciplinaire.
· Goût pour les démarches rigoureuses et structurées, avec attention portée à la qualité et à la fiabilité des résultats.
· Facilité à collaborer avec des interlocuteur·ices de différents horizons scientifiques.
· Aisance à l'écrit, en français et/ou en anglais, pour restituer et valoriser les résultats.
Expérience souhaitée
De 0 à 5 ans d'expérience
Niveau de diplôme et formation(s)
M2 en statistiques ou en informatique ou école d'ingénieur