@inproceedings{maclean-cavallucci-2025-pretraitement,
    title = "Pr{\'e}traitement syntaxique pour enrichir le Bag of Words en Topic Modeling",
    author = "MacLean, Connor  and
      Cavallucci, Denis",
    editor = "Bechet, Fr{\'e}d{\'e}ric  and
      Chifu, Adrian-Gabriel  and
      Pinel-sauvagnat, Karen  and
      Favre, Benoit  and
      Maes, Eliot  and
      Nurbakova, Diana",
    booktitle = "Actes de l'atelier Avancement de l{'}AMR et de l{'}Analyse S{\'e}mantique 2025 (4AS)",
    month = "6",
    year = "2025",
    address = "Marseille, France",
    publisher = "ATALA {\textbackslash}{\textbackslash}{\&} ARIA",
    url = "https://preview.aclanthology.org/ingest-emnlp/2025.jeptalnrecital-4as.2/",
    pages = "9--16",
    language = "fra",
    abstract = "Cet article propose une m{\'e}thode de pr{\'e}traitement innovante pour la topic modeling avec les mod{\`e}les Latent Dirichlet Allocation (LDA) (Blei et al. , 2003) et Embedding Topic Model (ETM) (Dieng et al. , 2019), qui repose sur l{'}analyse des d{\'e}pendances syntaxiques afin de construire des repr{\'e}sentations plus riches du texte. En extrayant les t{\^e}tes des groupes nominaux et verbaux ainsi que leurs compl{\'e}ments, notre approche g{\'e}n{\`e}re des n-grammes syntaxiques (sn-grammes) plus informatifs que des bigrammes lin{\'e}aires. Nous d{\'e}montrons que cette strat{\'e}gie permet de capturer les structures s{\'e}mantiques complexes dans un corpus scientifique en fran{\c{c}}ais sur les {\'e}nergies. Une {\'e}valuation exp{\'e}rimentale montre que, compar{\'e}e {\`a} un pr{\'e}traitement classique bas{\'e} sur des unigrammes, notre approche accro{\^i}t la diversit{\'e} des sujets g{\'e}n{\'e}r{\'e}s, tout en maintenant une coh{\'e}rence raisonnable. Nous recommandons l{'}usage de m{\'e}triques suppl{\'e}mentaires, telles que l' Inversed Rank-Biased Overlap (IRBO), pour {\'e}valuer cette diversit{\'e} th{\'e}matique. Nos r{\'e}sultats sugg{\`e}rent que cette m{\'e}thode enrichit la granularit{\'e} des sujets extraits et permet des analyses plus fines de grands corpus textuels. Ce travail s{'}inscrit dans un projet de th{\`e}se de fouille de textes dans le but de mieux cibler des startups innovantes dans les {\'e}nergies et les analyser selon la m{\'e}thode TRIZ de r{\'e}solution de contradictions techniques."
}Markdown (Informal)
[Prétraitement syntaxique pour enrichir le Bag of Words en Topic Modeling](https://preview.aclanthology.org/ingest-emnlp/2025.jeptalnrecital-4as.2/) (MacLean & Cavallucci, JEP/TALN/RECITAL 2025)
ACL