Stage - Chercheur Intelligence Artificielle - Machine Learning H/F
- Châtillon - 92
- Stage
- Entreprise anonyme
Les missions du poste
Au sein d'Orange Innovation, le département Data Intelligence Factory accueille toutes
les activités permettant d'extraire, de traiter et de valoriser des données dans des
environnements clouds natifs et d'en assurer la sécurité. Il porte en particulier les
activités de moteurs de traitement de données, d'observabilité, ainsi que des
environnements et enablers en data science et machine learning.
Au sein de ce département, l'équipe ADIS (Automated Data Intelligence at Scale)
développe de nouvelles méthodes d'analyse de données, et fournit les
environnements et outils de traitements et analyse de données en production. Elle
apporte un soutien aux équipes métiers pour l'analyse de leurs données, et
notamment sur l'usage des outils et le développement de cas d'usage dans un
environnement de production. Elle identifie, qualifie des solutions (internes ou
externes) selon les besoins.Classification précoce de séries temporelles F/H
Dans ce stage, nous nous intéresserons à la classification précoce de séries temporelles (ECTS), où les séries sont observées au fur et à mesure, et dont l'objectif est de déclencher les prédictions de classe avant que les séries observées ne soient complètes. D'un côté, la collecte de plus d'information permet souvent d'obtenir une meilleure prédiction, mais attendre peut poser des problèmes importants (pannes, sécurité, ...). Il s'agit donc d'optimiser le compromis entre la qualité des prédictions et leur précocité. Pour ce faire, on suppose disposer d'une matrice de coût de mauvaise classification et d'un coût d'attente.
Récemment, Orange a réalisé de nombreuses contributions dans ce domaine, notamment : (i) une étude comparative des principales approches de la littérature [1] ; (ii) une librairie python open source [2] ; (iii) une nouvelle approche basée sur l'apprentissage par renforcement [3] surpassant les méthodes de l'état de l'art.
Historiquement, les algorithmes d'ECTS ont été développés et testés sur des ensembles de données ouverts, très populaires au sein de la communauté, mais souffrant de plusieurs défauts, comme : un nombre d'exemple d'apprentissage restreint, des pré-traitements inconnus, des données ne représentant pas des séries temporelles. Récemment, un nouvel ensemble de jeux de données résolvant la plupart des points négatifs identifiés a été proposé [4].
Le but de ce stage est d'appliquer les algorithmes ECTS développés par Orange sur ces nouvelles données et plus particulièrement d'optimiser ces algorithmes pour traiter de gros volumes de données. La parallélisation, l'accélération matériel sur GPU seront des pistes à explorer. En complément, le développement de nouvelles approches (i) basées sur l'apprentissage faiblement supervisé [5] (ii) capables de traiter des séries temporelles ouvertes [6] fera l'objet d'un travail de recherche et d'expérimentations.
[1] Renault, Aurélien, et al. "Early Classification of Time Series: Taxonomy and Benchmark.", 2024
[2] Renault, Aurélien, et al. "ml_edm package: a Python toolkit for Machine Learning based Early Decision Making.", 2024
[3] Renault, Aurélien, et al. "Deep Reinforcement Learning based Triggering Function for Early Classifiers of Time Series", 2025.
[4] Angus Dempster, et al. "MONSTER: Monash Scalable Time Series Evaluation Repository", 2025.
Le profil recherché
Vous préparez un Bac +5 en Intelligence Artificielle / Machine Learning / Statistiques et recherchez un stage de 6 mois à temps plein à partir de mars 2026. Vous avez une réelle appétence pour l'Informatique.
Ce stage doit s'inscrire et se poursuivre dans un projet d'une thèse CIFRE sur le même sujet, sous réserve de validation interne.
(Pour information, nous ne proposons pas de stage alterné.)
Compétences :
- Intérêt pour la recherche et pour les aspects applicatifs et théoriques du sujet.
- Les connaissances en Python et Scikit-learn sont indispensables
- Des connaissances minimales en statistiques, mathématiques et/ou apprentissage statistique sont également indispensables
__PRESENT
__PRESENT
__PRESENT