Data Ingénieur H/F - Centres Unicancer
- Le Kremlin-Bicêtre - 94
- CDI
- Centres Unicancer
Les missions du poste
Unicancer est l'unique réseau hospitalier français dédié à 100 % à la lutte contre le cancer et la seule fédération hospitalière nationale dédiée à la cancérologie. Il réunit 18 Centres de lutte contre le cancer (CLCC), établissement de santé privé à but non lucratif, répartis sur 20 sites hospitaliers en France. 540 000 patients par an sont pris en charge dans le réseau Unicancer, plus de 20 000 femmes et hommes sont engagés, au quotidien, dans une quête permanente d'excellence en matière de soins, de recherche et d'enseignement supérieur.
Unicancer est aussi le premier promoteur académique d'essais cliniques, en oncologie, à l'échelle européenne. Reconnu comme leader de la recherche en cancérologie en France, le réseau Unicancer bénéficie d'une réputation mondiale avec la production d'un tiers des publications internationales en oncologie. Les 18 CLCC et l'activité R&D d'Unicancer sont certifiés ISO 9001 pour leur recherche clinique.Finalité du poste :
Acteur majeur dans la construction de pipelines de données évolutifs pour traiter des données structurées et non structurées (données de santé de vie réelle).
Développer, maintenir et améliorer les solutions et infrastructures datas nécessaires à la collecte, la centralisation, le stockage et l'accès aux données de santé collectées auprès des établissements de soins contributeurs et mises à disposition des équipes scientifiques.
Missions :
Concevoir efficacement et maintenir des flux d'intégration (collecte, Ingestion, Stockage) permettant de centraliser les données issues de plusieurs établissements de santé (et de plusieurs sources de données pour chaque établissement) dans un entrepôt de données de santé tout en garantissant une qualité de données.
Mettre en place des pipelines de données sécurisées qui seront traitées et nettoyées par les data managers pour délivrer des bases « gelées » mises à disposition des experts scientifiques, biostatisticiens et data scientistes.
Concevoir et mettre en oeuvre un process et un data pipeline permettant de valider la qualité des données intégrées automatiquement dans les Bases et entrepôts de données, par confrontation avec les données intégrées à partir de collecte manuelle.
Améliorer et automatiser les flux d'intégration existants
Participer à la conception de plateformes pour le traitement efficace de volumes importants de données tout en garantissant leur sécurité
Accompagner le développement des outils permettant l'extraction des données sous forme structurée
Assister des prestataires externes spécialistes de la structuration de données non structurées issues de compte-rendu médicaux ou fiche RCP (Réunion de Concertation Pluridisciplinaire) ou documents du DPI, avec des solutions de type Natural Language Processing (NLP) et Named Entity Recognition (NER).
Etre force de proposition sur l'évolution de la data stack du Pôle Gestion de Données de la DDP permettant d'apporter des solutions innovantes pour répondre aux challenges des nouveaux projets de la DDP : EDS fédérés et projet d'appariement des EDS actuels avec un système fils du SNDS (Système National des Données de Santé)
Assurer la montée en compétence de l'équipe Data Engineers
Rédiger et mettre à disposition la documentation (guide de procédure, documents utilisateurs, référentiels, ...) dans le respect du système de Management de la Qualité en place (SMQ - Certification ISO 9001)
Proposer des indicateurs pertinents du suivi de l'activité des Data Ingénieurs et construire un dashboard permettant de visualiser ces indicateurs et leurs évolutions
Communication/collaboration avec les pilotes des différents projets : reporting auprès du manager hiérarchique et des managers fonctionnels
Assister et participer aux réunions avec les équipes projets et avec le Pôle Gestion de Données
Le profil recherché
Computing : SQL, Javascript, Python, Pandas, Numpy, Spark, PySpark, Elasticsearch, Spacy, Kibana, Java, Camel, Nginx, Liferay, Angular, XML, HTML, JSON, PDF/A (Texte), CSS, Windows, Unix/Linux (Debian), Solaris, NLP - NER, PowerBI, KNIME, Talend, SAS (plus appréciable)
Base de Données : SQL et NoSQL (PostgreSQL, MariaDB)
Cloud : connaissances est un plus
Intégration continue : Git, CI/CD
Transverses : Méthodologie Agile
Interopérabilité : connaissance format OMOP, FHIR HL7, OSIRIS serait un plus
Fonctionnelles : secteur de la santé, Entrepôts de Données de Santé, curiosité très prononcée pour la cancérologie
Plus de 2 ans d'expérience en tant que Data Engineer, avec une première expérience réussie en tant que Data Engineer dans le secteur de la santé.
Bonne compréhension du cycle de vie de la donnée, de la data lineage, de la data gouvernance et de la data privacy.
Capacité à travailler en agilité dans un environnement collaboratif.