@inproceedings{maclean-cavallucci-2025-pretraitement,
title = "Pr{\'e}traitement syntaxique pour enrichir le Bag of Words en Topic Modeling",
author = "MacLean, Connor and
Cavallucci, Denis",
editor = "Bechet, Fr{\'e}d{\'e}ric and
Chifu, Adrian-Gabriel and
Pinel-sauvagnat, Karen and
Favre, Benoit and
Maes, Eliot and
Nurbakova, Diana",
booktitle = "Actes de l'atelier Avancement de l{'}AMR et de l{'}Analyse S{\'e}mantique 2025 (4AS)",
month = "6",
year = "2025",
address = "Marseille, France",
publisher = "ATALA {\textbackslash}{\textbackslash}{\&} ARIA",
url = "https://preview.aclanthology.org/corrections-2025-10/2025.jeptalnrecital-4as.2/",
pages = "9--16",
language = "fra",
abstract = "Cet article propose une m{\'e}thode de pr{\'e}traitement innovante pour la topic modeling avec les mod{\`e}les Latent Dirichlet Allocation (LDA) (Blei et al. , 2003) et Embedding Topic Model (ETM) (Dieng et al. , 2019), qui repose sur l{'}analyse des d{\'e}pendances syntaxiques afin de construire des repr{\'e}sentations plus riches du texte. En extrayant les t{\^e}tes des groupes nominaux et verbaux ainsi que leurs compl{\'e}ments, notre approche g{\'e}n{\`e}re des n-grammes syntaxiques (sn-grammes) plus informatifs que des bigrammes lin{\'e}aires. Nous d{\'e}montrons que cette strat{\'e}gie permet de capturer les structures s{\'e}mantiques complexes dans un corpus scientifique en fran{\c{c}}ais sur les {\'e}nergies. Une {\'e}valuation exp{\'e}rimentale montre que, compar{\'e}e {\`a} un pr{\'e}traitement classique bas{\'e} sur des unigrammes, notre approche accro{\^i}t la diversit{\'e} des sujets g{\'e}n{\'e}r{\'e}s, tout en maintenant une coh{\'e}rence raisonnable. Nous recommandons l{'}usage de m{\'e}triques suppl{\'e}mentaires, telles que l' Inversed Rank-Biased Overlap (IRBO), pour {\'e}valuer cette diversit{\'e} th{\'e}matique. Nos r{\'e}sultats sugg{\`e}rent que cette m{\'e}thode enrichit la granularit{\'e} des sujets extraits et permet des analyses plus fines de grands corpus textuels. Ce travail s{'}inscrit dans un projet de th{\`e}se de fouille de textes dans le but de mieux cibler des startups innovantes dans les {\'e}nergies et les analyser selon la m{\'e}thode TRIZ de r{\'e}solution de contradictions techniques."
}
Markdown (Informal)
[Prétraitement syntaxique pour enrichir le Bag of Words en Topic Modeling](https://preview.aclanthology.org/corrections-2025-10/2025.jeptalnrecital-4as.2/) (MacLean & Cavallucci, JEP/TALN/RECITAL 2025)
ACL