Thèse Vers une Description Automatique d'Images Centrée Utilisateur Génération et Évaluation de Textes Alternatifs pour les Personnes Déficientes Visuelles H/F - Doctorat.Gouv.Fr
- Paris - 75
- CDD
- Doctorat.Gouv.Fr
Les missions du poste
Établissement : Université Paris-Saclay GS Informatique et sciences du numérique École doctorale : Sciences et Technologies de l'Information et de la Communication Laboratoire de recherche : Laboratoire Interdisciplinaire des Sciences du Numérique Direction de la thèse : Camille GUINAUDEAU ORCID 0000000172498715 Début de la thèse : 2026-10-01 Date limite de candidature : 2026-05-12T23:59:59 Cette thèse porte sur la génération et l'évaluation de textes alternatifs pour améliorer l'accessibilité des contenus visuels aux personnes déficientes visuelles. Le texte alternatif, pourtant essentiel pour décrire les images en ligne, est aujourd'hui souvent insuffisant, imprécis ou peu informatif, ce qui limite l'autonomie des utilisateurs concernés.
Les recherches actuelles en génération automatique de descriptions s'appuient sur des jeux de données et des modèles vision-langage récents, mais ces approches restent limitées, notamment en raison de descriptions parfois trop détaillées ou inadaptées au contexte d'usage. Une problématique centrale est donc l'intégration du contexte utilisateur et informationnel dans la génération des descriptions.
L'objectif de la thèse est de concevoir des méthodes automatiques capables de produire des textes alternatifs pertinents, utiles et adaptés au contexte, en exploitant des informations multimodales et sémantiques, tout en développant des approches d'évaluation alignées avec les besoins réels des personnes déficientes visuelles. Dans un monde où le contenu visuel occupe une place de plus en plus centrale, les personnes déficientes visuelles se heurtent à des obstacles majeurs pour accéder à l'information contenue dans les images. Le texte alternatif, conçu pour fournir une description textuelle des éléments visuels, est essentiel pour ces utilisateurs, car il remplace l'image là où une simple légende ne fait que l'accompagner. Toutefois, les descriptions actuellement disponibles en ligne, souvent intégrées sous forme de balises alt-text, sont fréquemment incomplètes, imprécises, voire difficilement distinguables de légendes standard peu informatives. Cette carence limite considérablement l'accessibilité visuelle et l'autonomie numérique des personnes aveugles ou malvoyantes. La génération automatique de textes alternatifs pertinents et informatifs devient ainsi une nécessité urgente pour améliorer l'accessibilité numérique et garantir une expérience inclusive pour tous les utilisateurs, indépendamment de leurs capacités visuelles.
La génération de texte alternatif constitue une tâche complexe qui reste encore peu explorée, à l'exception de quelques travaux menés sur des jeux de données collectés en ligne (Twitter, Wikipedia, etc.) ou à partir de vidéos (Kreiss, 2022 ; Srivatsan, 2024 ; Han, 2023). Ce domaine mérite une attention particulière de la part de la communauté travaillant sur les données multimodales. Une première avancée en ce sens a consisté en la création du jeu de données AD2AT (Audio Description to Alternative Text), construit à partir d'annotations réalisées par des experts. Ce corpus, spécifiquement conçu pour la génération de texte alternatif, a permis de conduire des expériences préliminaires avec certains des modèles vision-langage les plus avancés, tels que Llava (Liu, 2024) et InstructBLIP (Dai, 2024). Toutefois, ces premières expérimentations ont mis en lumière les limites de ces modèles, qui produisent souvent des descriptions trop détaillées ou fondées sur des hypothèses non souhaitées (Lincker, 2025).
Des travaux de recherche récents ont souligné l'importance cruciale de prendre en compte le contexte dans lequel une image apparaît pour générer et évaluer des textes alternatifs de qualité. Une direction de recherche prioritaire consistera donc à explorer comment intégrer ce contexte dans le processus de génération. Quelles informations présentes dans l'image sont déjà connues de l'utilisateur, et quels éléments doivent être décrits pour combler les manques informationnels ?
C'est dans ce contexte que s'inscrit la thèse sur la génération et l'évaluation de textes alternatifs pour les personnes déficientes visuelles. Elle visera à concevoir des méthodes capables de produire des descriptions adaptées au contexte d'usage, véritablement utiles pour l'utilisateur, en évitant les redondances ou les descriptions superflues. L'objectif de cette thèse est de contribuer au développement de méthodes automatiques pour la génération et l'évaluation de textes alternatifs destinés aux personnes déficientes visuelles. Les axes de recherche porteront sur l'analyse multimodale d'images ainsi que sur la conception de modèles de génération de descriptions accessibles, intégrant des connaissances sémantiques et contextuelles. Une attention particulière sera portée à l'évaluation de la qualité et de l'utilisabilité des textes générés, en lien avec les besoins spécifiques des utilisateurs. La thèse visera deux objectifs principaux : la génération et l'évaluation de texte alternatif.
Dans un premier temps, afin d'approfondir la compréhension du texte alternatif, le ou la doctorant·e s'appuiera sur les travaux de Muehlbradt et Kane (2022), qui ont analysé les stratégies utilisées par les utilisateurs pour produire des textes alternatifs, ainsi que sur notre propre jeu de données (Lincker, 2025), afin d'étudier les éléments visuels effectivement intégrés dans les descriptions. De plus, en utilisant ce corpus annoté, le ou la doctorant·e pourra mobiliser des outils tels que la métrique InfoMetIC (Hu, 2023), développée pour évaluer les légendes d'images, afin d'identifier les parties de l'image qui apparaissent dans les textes alternatifs annotés et mieux cerner les informations visuelles clés à inclure dans une description. En parallèle, des méthodes de détection de saillance visuelle (Ullah, 2020) seront explorées afin d'identifier les éléments importants d'une image qui ne sont pas explicitement décrits, mais qui peuvent s'avérer pertinents dans le contexte de l'image.
Ces connaissances pourront ensuite être employées pour générer des textes alternatifs grâce à des approches de génération automatique multimodale, en s'appuyant notamment sur des modèles vision-langage de pointe (comme InstructBLIP ou Llava), adaptés ou entraînés spécifiquement pour prendre en compte le contexte d'apparition de l'image et les besoins des utilisateurs. Un effort particulier sera porté sur la génération de descriptions concises, informatives et adaptées à l'intention de communication, en évitant les biais fréquents liés à une surinterprétation ou à une trop grande exhaustivité.
Dans un second temps, la thèse visera à proposer une nouvelle métrique d'évaluation sans référence, spécifiquement conçue pour répondre aux exigences de l'accessibilité. Cette métrique devra être capable d'évaluer de manière fine et pertinente la qualité des textes alternatifs produits, en tenant compte à la fois du contenu visuel de l'image, de son contexte d'usage, et des attentes spécifiques des personnes déficientes visuelles. L'évaluation pourra s'appuyer à la fois sur des protocoles automatiques et sur des retours utilisateurs, afin de mieux ancrer les résultats dans des usages réels.
Le profil recherché
Nous recherchons des candidat·e·s très motivé·e·s répondant aux critères suivants :
- Formation : Master 2 en informatique, avec une préférence pour les profils ayant une expérience en traitement automatique des langues (TAL), vision par ordinateur (CV) ou intelligence artificielle (IA).
- Compétences techniques :
o Maîtrise du langage Python et bonne connaissance des bibliothèques de deep learning telles que TensorFlow, PyTorch ou Keras.
o Une expérience en analyse de données et en traitement de jeux de données multimodaux constitue un atout.
- Compétences transversales : Excellentes capacités d'analyse, intérêt pour les questions d'accessibilité et pour une IA centrée sur l'humain, aptitude à travailler de manière autonome tout en collaborant dans un environnement de recherche.