Denis Cavallucci


Fixing paper assignments

  1. Please select all papers that belong to the same person.
  2. Indicate below which author they should be assigned to.
Provide a valid ORCID iD here. This will be used to match future papers to this author.
Provide the name of the school or the university where the author has received or will receive their highest degree (e.g., Ph.D. institution for researchers, or current affiliation for students). This will be used to form the new author page ID, if needed.

TODO: "submit" and "cancel" buttons here


2025

pdf bib
Prétraitement syntaxique pour enrichir le Bag of Words en Topic Modeling
Connor MacLean | Denis Cavallucci
Actes de l'atelier Avancement de l’AMR et de l’Analyse Sémantique 2025 (4AS)

Cet article propose une méthode de prétraitement innovante pour la topic modeling avec les modèles Latent Dirichlet Allocation (LDA) (Blei et al. , 2003) et Embedding Topic Model (ETM) (Dieng et al. , 2019), qui repose sur l’analyse des dépendances syntaxiques afin de construire des représentations plus riches du texte. En extrayant les têtes des groupes nominaux et verbaux ainsi que leurs compléments, notre approche génère des n-grammes syntaxiques (sn-grammes) plus informatifs que des bigrammes linéaires. Nous démontrons que cette stratégie permet de capturer les structures sémantiques complexes dans un corpus scientifique en français sur les énergies. Une évaluation expérimentale montre que, comparée à un prétraitement classique basé sur des unigrammes, notre approche accroît la diversité des sujets générés, tout en maintenant une cohérence raisonnable. Nous recommandons l’usage de métriques supplémentaires, telles que l’ Inversed Rank-Biased Overlap (IRBO), pour évaluer cette diversité thématique. Nos résultats suggèrent que cette méthode enrichit la granularité des sujets extraits et permet des analyses plus fines de grands corpus textuels. Ce travail s’inscrit dans un projet de thèse de fouille de textes dans le but de mieux cibler des startups innovantes dans les énergies et les analyser selon la méthode TRIZ de résolution de contradictions techniques.