Post-Doctorant Auprès du Professeurdehaene H/F - Collège de France
- Paris - 75
- CDD
- Collège de France
Les missions du poste
Contexte
Le Collège de France est à la fois un centre de recherche de très haut niveau et un lieu ouvert à tous ceux ayant soif de connaissance. Dernièrement, l'institution a lancé le projet : « Agir pour Éducation - Un enjeu scientifique pour la société » Dans le cadre de cette initiative, le professeur Stanislas Dehaene a lancé un projet pour l'application des sciences cognitives à l'éducation, appelé Excello.
L'association à but non lucratif EXCELLO a vocation à développer, expérimenter, et diffuser en milieu scolaire des nouveaux outils d'apprentissage fondés sur les sciences cognitives. Nous sommes passionnés par l'accélération de l'apprentissage par le biais des meilleures pratiques qui sont les plus conformes à la façon dont le cerveau de l'enfant apprend.
Notre culture est délibérément axée sur les résultats. En tant qu'organisme à but non lucratif, nous avons la liberté de développer et de tester nos produits, et nous ne les mettons sur le marché qu'une fois qu'ils ont fait leurs preuves en classe. Par ailleurs, notre travail est développé en utilisant des outils open-source pour un partage facile avec la communauté des chercheurs et des éducateurs.
A propos de nous
Excello a pour mission de transformer l'apprentissage de la lecture des enfants à travers le monde grâce à Kalulu, une méthode phonétique conçue pour fonctionner dans n'importe quelle langue.Mission
Vous jouerez un rôle central dans la construction de l'infrastructure de données de Kalulu. Vous serez responsable de la mise en place d'une collecte de données sécurisée et respectueuse de la vie privée dans les environnements in-app et en ligne. Votre rôle comprend la création de systèmes d'utilisateurs basés sur des comptes, la gestion de flux de données, la mise en place de fonctionnalités de test A/B et la garantie que les utilisateurs, les parents et les administrateurs peuvent visualiser les données sur un tableau de bord centralisé. Ce rôle nécessite un mélange d'ingénierie back-end, d'ingénierie des données et de compétences DevOps, ainsi qu'une solide compréhension des réglementations en matière de protection de la vie privée.
Activités principales
Reconnaissance vocale de l'enfant
- Développer et adapter des modèles de reconnaissance automatique de la parole (ASR) spécifiquement entraînés sur des voix d'enfants (3-12 ans), en tenant compte des particularités phonétiques, prosodiques et articulatoires de cette population.
- Mettre en oeuvre des pipelines de traitement audio in-app capables de fonctionner en temps réel et hors ligne (stockage local chiffré, synchronisation différée).
- Concevoir des protocoles de collecte vocale standardisés pour une utilisation dans des contextes de test et d'évaluation des apprentissages.
- Évaluer les performances des modèles (WER, CER) sur des corpus multilingues et multi-accents d'enfants, et contribuer à l'amélioration continue des modèles.
- Assurer la robustesse du système face aux conditions acoustiques variables (bruit de fond, environnements scolaires ou domestiques).
Collecte de données à grande échelle depuis l'application
- Construire un système de collecte de données in-app haute fiabilité (événements d'interaction, enregistrements vocaux, métriques de progression) fonctionnant offline-first avec synchronisation serveur.
- Concevoir des flux de données sécurisés (ETL) pour traiter, anonymiser et stocker les données utilisateurs - en particulier les données vocales - en garantissant chiffrement TLS/SSL en transit et AES-256 au repos.
- Mettre en place une infrastructure d'ingestion capable de gérer des volumes importants de données multimodales (audio, logs, métadonnées) provenant d'un grand nombre d'utilisateurs simultanés.
Communication avec la plateforme de visualisation
- Concevoir et implémenter des APIs (REST ou GraphQL) permettant la transmission structurée des données collectées depuis l'application vers une plateforme centralisée.
- Développer des connecteurs et pipelines de données permettant l'alimentation en temps réel ou quasi-réel de tableaux de bord destinés aux enseignants, parents et administrateurs
Le profil recherché
- Doctorat en traitement automatique de la parole, linguistique computationnelle, apprentissage automatique ou domaine connexe.
- Expérience démontrée en reconnaissance vocale de l'enfant ou en adaptation de modèles ASR à des populations spécifiques.
- Expérience en collecte et traitement de données à grande échelle depuis des applications mobiles ou web.
- Une expérience dans le domaine EdTech ou dans des applications impliquant des données enfants est un atout fort.