Architecte Big Data - Spark Performance H/F - Maestria
- Valbonne - 06
- CDI
- Maestria
Les missions du poste
MAESTRIA est une jeune entreprise de services & conseil de 30 collaborateurs spécialisée dans les activités d'innovation et transformation digitale à destination de ses clients. L'entreprise est située au sein de la Technopole de Sophia Antipolis, une position stratégique vis-à-vis de ses clients majeurs.
MAESTRIA, soutient startups, PME et grandes entreprises en Provence-Alpes-Côte d'Azur mais aussi sur Paris, Toulouse, Montpellier, Marseille, Lyon, Bordeaux ... en privilégiant la confiance, la transparence et la proximité.
Ce que nous offrons
Un cadre de travail stimulant avec des projets variés à fort impact
Un accompagnement de proximité et des formations continues
Une culture d'entreprise centrée sur la collaboration, l'innovation et le bien-être
Télétravail partiel possible, paniers repas, mutuelle premium
Envie de rejoindre une entreprise où il fait bon vivre ? Postulez dès maintenant et devenez acteur de votre avenir avec MAESTRIA.
Dans le cadre d'un programme stratégique de transformation Data à très grande échelle, nous recherchons un(e) Architecte Big Data orienté Spark & Performance afin d'accompagner l'évolution et l'optimisation d'une plateforme de traitement de données massives.
Vous interviendrez dans un environnement critique à forte volumétrie, au sein d'un programme Agile à l'échelle regroupant plusieurs centaines de collaborateurs.
Contexte
La plateforme traite chaque mois plusieurs milliards de lignes de données issues de flux massifs et critiques pour l'activité métier.
Les enjeux principaux :
- performance des traitements distribués,
- optimisation des pipelines batch,
- maîtrise des temps d'exécution,
- qualité et exploitabilité opérationnelle des données,
- conservation longue durée des historiques.
L'environnement technique repose sur :
- une plateforme Big Data Hadoop / Cloudera,
- des traitements Spark distribués,
- un écosystème Java / Spring Batch,
- des infrastructures conteneurisées et cloud-native.
La volumétrie et les contraintes de performance imposent une forte maîtrise des problématiques liées :
- au partitionnement,
- aux traitements distribués,
- à la mémoire,
- aux shuffles,
- à l'optimisation des transformations Spark.
Vos missions
En tant qu'Architecte Big Data, vous serez amené(e) à :
- Concevoir et faire évoluer les architectures de traitement de données massives
- Accompagner les équipes sur les problématiques de performance Spark
- Optimiser les traitements batch distribués à très grande échelle
- Définir les bonnes pratiques de développement et d'industrialisation Data
- Participer aux choix d'architecture autour des plateformes Data et des flux événementiels
- Accompagner les équipes de développement dans l'optimisation des traitements
- Contribuer aux travaux d'urbanisation et de gouvernance technique
- Participer aux comités d'architecture et à la définition des standards techniques
- Superviser la bonne application des pratiques d'architecture et de performance
Environnement technique
Big Data & Data Engineering
- Spark / PySpark
- Hadoop
- Cloudera
- HDFS
- Hive
- Traitements DataFrame
- Traitements batch distribués
Développement & Frameworks
- Python
- Java
- Spring Batch
Orchestration & Industrialisation
- Airflow / Oozie
- CI/CD & industrialisation Data
Streaming & Messaging
- Kafka
- Architectures événementielles
Infrastructure
- Kubernetes (connaissances appréciées)
Pourquoi rejoindre ce projet ?
- Volumétries rares et problématiques techniques stimulantes
- Programme stratégique à très forte visibilité
- Environnement Big Data mature et industrialisé
- Equipes expertes et culture forte de l'ingénierie
- Sujets mêlant architecture, performance et optimisation à grande échelle
Le profil recherché
- Expérience significative en architecture Big Data ou Data Platform
- Très bonne maîtrise de Spark en environnement de production critique
- Expérience sur plateformes Hadoop / Cloudera
- Capacité à intervenir à la fois sur :
- l'architecture,
- la performance,
- l'industrialisation,
- l'accompagnement des équipes
- Expérience dans des environnements Agile à grande échelle appréciée
Nous recherchons un profil capable d'intervenir sur des problématiques avancées autour de Spark et des traitements distribués.
Une expertise est attendue sur des sujets tels que :
- optimisation des traitements Spark,
- gestion du partitionnement,
- réduction des coûts de shuffle,
- optimisation des joins et windowing,
- persistance/caching des DataFrames,
- tuning mémoire et parallélisation,
- optimisation des DAG Spark,
- compréhension du moteur d'exécution Spark.
Une bonne maîtrise des problématiques liées aux traitements massifs et aux architectures distribuées est indispensable.
Les plus
- Expérience Kafka / architectures événementielles
- Participation à des comités d'architecture
- Maîtrise des problématiques d'observabilité et supervision Data
- Connaissance des outils de modélisation d'architecture (Archimate ou équivalent)