Data Ingénieur H/F - Huxley
- Paris - 75
- Indépendant
- Huxley
Les missions du poste
Le rôle du Data Engineer dans ce projet consistera à :
- Concevoir et implémenter les composants/pipelines d'ingestion de données en scala spark (glue jobs, sans utilisation de solutions managées type Databricks)
- Traiter et normaliser les données
- Refactoriser des imports existants pour être compliant avec l'architecture medaillon (silver + gold layers) et notre modèle uniformisé/harmonisé à toutes les plateformes (aggrégateurs, market exchanges)
- Appliquer/challenger les règles métier pour générer la couche gold tout en garantissant les performances, la scalabilité et les coûts cloud
- Distribuer les données aux différents consommateurs/Métiers
- Implémenter les règles de Data Quality (DataQuality framework : great expectation) et gérer le data calatog
- Développer et améliorer les frameworks communs (monitoring, CI/CD, tests, performance, résilience, standards de développement, qualité du code)
- Rédiger et maintenir la documentation technique des développements réalisés : schéma d'architecture, Infra, Flux, ...
- Garantir le respect des standards du Groupe en matière de qualité, sécurité, partage, usage et architecture des données
- Participer au développement et à la maintenance du calculateur en Scala Spark avec l'objectif :
- d'optimiser le temps de calculs,
- d'optimiser les performances,
- de garantir la scalabilité au regard d'un accroissement annuel important du volume des market operations,
- de maîtriser et d'optimiser les coûts cloud.
- Être force de proposition pour améliorer les processus et les performances des systèmes.Le rôle du Data Engineer dans ce projet consistera à :
- Concevoir et implémenter les composants/pipelines d'ingestion de données en scala spark (glue jobs, sans utilisation de solutions managées type Databricks)
- Traiter et normaliser les données
- Refactoriser des imports existants pour être compliant avec l'architecture medaillon (silver + gold layers) et notre modèle uniformisé/harmonisé à toutes les plateformes (aggrégateurs, market exchanges)
- Appliquer/challenger les règles métier pour générer la couche gold tout en garantissant les performances, la scalabilité et les coûts cloud
- Distribuer les données aux différents consommateurs/Métiers
- Implémenter les règles de Data Quality (DataQuality framework : great expectation) et gérer le data calatog
- Développer et améliorer les frameworks communs (monitoring, CI/CD, tests, performance, résilience, standards de développement, qualité du code)
- Rédiger et maintenir la documentation technique des développements réalisés : schéma d'architecture, Infra, Flux, ...
- Garantir le respect des standards du Groupe en matière de qualité, sécurité, partage, usage et architecture des données
- Participer au développement et à la maintenance du calculateur en Scala Spark avec l'objectif :
- d'optimiser le temps de calculs,
- d'optimiser les performances,
- de garantir la scalabilité au regard d'un accroissement annuel important du volume des market operations,
- de maîtriser et d'optimiser les coûts cloud.
- Être force de proposition pour améliorer les processus et les performances des systèmes.
Le profil recherché
Compétences requises :
- Expertise en Scala et Spark.
- Expérience significative dans le développement d'ETL en contexte Big Data.
- Expérience AWS (Glue, Lambda, Step Function, S3, etc.) : niveau intermédiaire avec exéprience pratique
- Compétences Dev/Ops
- Capacité à travailler en équipe et à communiquer efficacement avec les parties prenantes.
- Organisation, orientation résultats et intérêt marqué pour le fonctionnel.
- Des compétences en Python et REACT seraient un plus pour le candidat
Profil recherché :
- Minimum 5 ans d'expérience en développement Scala Spark.
- Expérience avérée dans des projets Big Data et ETL.
- Capacité à être force de proposition et à travailler de manière autonome.
- Intérêt pour le secteur de l'énergie, du trading et de la détection d'abus de marché.