Thèse Méthodes Génératives par Diffusion Stable avec Contraintes de Parcimonie et Architectures Transformer pour Données Continues Non-Textuelles H/F - Doctorat.Gouv.Fr
- Paris - 75
- CDD
- Doctorat.Gouv.Fr
Les missions du poste
Établissement : Université Paris-Saclay GS Sciences de l'ingénierie et des systèmes École doctorale : Sciences et Technologies de l'Information et de la Communication Laboratoire de recherche : Laboratoire des Signaux et Systèmes Direction de la thèse : Frédéric PASCAL ORCID 0000000301966395 Début de la thèse : 2026-03-01 Date limite de candidature : 2026-05-30T23:59:59 La génération de descriptions textuelles cohérentes à partir d'entrées structurées complexes représente un défi fondamental en IA multimodale, particulièrement lorsque l'entrée implique des mélanges combinatoires avec des interactions dépendantes de la concentration. Les approches actuelles excellent dans le traitement d'entités individuelles mais peinent avec les représentations de mélanges où des propriétés émergentes apparaissent à partir d'interactions entre composants plutôt que de simples effets additifs. Des avancées récentes dans les modèles de diffusion discrets, en particulier la Score Entropy Discrete Diffusion (SEDD) [LME24], ont atteint des performances compétitives avec les modèles autorégressifs pour la génération de texte. D'autre part, pour de nombreuses applications, la sortie finale prédite est souvent une combinaison parcimonieuse des quantités disponibles. C'est le cas dans la génération de fragrances où les formules sont le mélange d'un petit nombre de composants dans des combinaisons très diverses. Pour faire face à la complexité d'une telle tâche, les avancées dans les architectures transformer parcimonieuses [Chi+19] ont démontré des gains significatifs en efficacité computationnelle. Cependant, la convergence de ces technologies pour la génération mélange-vers-texte reste inexplorée, représentant une lacune critique dans la recherche en IA multimodale.
Cette recherche aborde le défi fondamental de relier les représentations structurées de mélanges aux descriptions par tokens à travers des innovations architecturales novatrices. La nature stochastique des modèles de diffusion s'aligne naturellement avec l'incertitude inhérente à la description de propriétés subjectives, tandis que les transformers parcimonieux offrent l'efficacité computationnelle nécessaire pour traiter des entrées combinatoires complexes. Les mélanges d'ingrédients dans les applications de parfumerie servent de banc d'essai idéal pour ces méthodes en raison de leur structure chimique bien définie et de leur riche langage descriptif.
[LME24] Aaron Lou, Chenlin Meng, and Stefano Ermon. Discrete diffusion modeling by
estimating the ratios of the data distribution. In: International Conference on Machine
Learning (2024). Best Paper Award.
[Chi+19] Rewon Child et al. Generating long sequences with sparse transformers. In: arXiv preprint arXiv:1904.10509 (2019). The generation of structured outputs from complex multimodal inputs sits at the intersection of three rapidly evolving research areas: generative modeling, representation learning for compositional data, and conditional sequence generation. Over the past five years, diffusion-based generative models have progressively displaced autoregressive paradigms as the state of the art for high-fidelity synthesis in continuous domains such as images, audio, and molecular structures, owing to their stable training dynamics and superior controllability. The recent extension of these methods to discrete state spaces - through frameworks such as D3PM [Aus+21], continuous-time discrete diffusion [Cam+22], and Score Entropy Discrete Diffusion (SEDD) [LME24] - has opened the door to applying diffusion principles to inherently symbolic problems, including text and chemical formula generation. In parallel, the transformer architecture has become the dominant computational primitive for sequence modeling, but its quadratic attention cost has motivated a substantial body of work on sparse and structured attention mechanisms [Chi+19; Lou+24], which trade dense connectivity for tractable scaling without sacrificing long-range dependency modeling. A third strand of research, exemplified by MoleculeSTM [Liu+23] and ChemFormer [Irw+22], has begun to align symbolic chemical representations with natural language, yet remains restricted to single-entity reasoning. The proposed work positions itself precisely at the convergence of these three trajectories, addressing a class of problems - mixture-to-text generation under sparsity and concentration constraints - that none of the existing frameworks handles natively. Fragrance formulation provides a particularly compelling scientific testbed: it combines a well-defined combinatorial structure (a small set of olfactive molecules drawn from a large library), strongly nonlinear interaction effects between components, and an associated descriptive vocabulary that is both rich and inherently subjective, thereby exercising every dimension of the methodological challenge. This research aims to develop novel architectures through the following objectives:
- Design and implement a hybrid diffusion-transformer architecture capable of generating
coherent formulas, incorporating concentration-aware attention mechanisms and sparsity
constraints for computational efficiency.
- Develop mixture-specific embedding strategies and attention patterns that capture both
individual component properties and emergent mixture behaviors through hierarchical
representation learning.
- Establish convergence guarantees for sparse attention mechanisms within discrete diffusion
frameworks, providing mathematical foundations for reliable training and generation.
- Demonstrate the effectiveness of proposed methods on fragrance applications while establishing
evaluation frameworks applicable to other generation domains. Collaboration with
industry partners provides access to proprietary datasets while ensuring practical relevance
of the developed methods. Mixture-Aware Transformer Architecture: The core innovation involves developing hierarchical
attention mechanisms that operate at multiple levels of abstraction. Mixture-level attention should
capture interaction effects and concentration dependencies. Concentration-aware embeddings
will encode concentration ratios through learnable position encodings that reflect interaction
strengths. This approach ensures that concentration changes appropriately influence the generated descriptions while maintaining structural coherence.
Sparse Diffusion Integration: The diffusion component will incorporate mixture-specific noise
schedules that respect chemical constraints and interaction patterns. Rather than applying uniform noise, the schedule will be conditioned on mixture composition to preserve meaningful
relationships during the denoising process. Sparse attention patterns will be dynamically determined interaction strengths, reducing computational complexity while maintaining crucial
long-range dependencies. This informed sparsity pattern represents a significant departure from
generic sparse attention approaches.
Theoretical Framework Development: Convergence analysis will focus on the interaction between
sparse attention mechanisms and discrete diffusion processes. The theoretical framework will establish conditions under which the hybrid architecture converges to stable solutions, providing
practical guidance for architecture design and training procedures. The analysis will
incorporate both the stochastic nature of the diffusion process and the structural constraints
imposed by ingredient interactions, leading to novel theoretical insights applicable beyond the
specific application domain.
Le profil recherché
Le ou la candidat·e devrait posséder de solides fondamentaux en apprentissage automatique, en particulier en architectures transformer et modèles de diffusion, ainsi qu'une expertise en programmation en PyTorch ou JAX. Une formation mathématique en théorie de l'optimisation et en analyse de convergence est essentielle pour les composantes théoriques du travail.