SELEXINI – un grand corpus français, divers et parsé automatiquement
Manon Scholivet, Agata Savary, Louis Estève, Marie Candito, Carlos Ramisch
Abstract
L’annotation de grands corpus de texte est essentielle pour de nombreuses tâches de Traitement Automatique des Langues. Dans cet article, nous présentons SELEXINI, un grand corpus français annoté automatiquement en syntaxe. Ce corpus est composé de deux parties : la partie BigScience, et la partie HPLT. Les documents de la partie HPLT ont été sélectionnés dans le but de maximiser la diversité lexicale du corpus total SELEXINI. Une analyse de l’impact de cette sélection sur la diversité syntaxique a été réalisée, ainsi qu’une étude de la qualité des nouveaux mots issus de la partie HPLT du corpus SELEXINI. Nous avons pu montrer que malgré l’introduction de nouveaux mots considérés comme intéressants (formes de conjugaison rares, néologismes, mots rares,...), les textes issus de HPLT sont extrêmement bruités. De plus, l’augmentation de la diversité lexicale n’a pas permis d’augmenter la diversité syntaxique.- Anthology ID:
- 2025.jeptalnrecital-trad.25
- Volume:
- Actes des 32ème Conférence sur le Traitement Automatique des Langues Naturelles (TALN), volume 2 : traductions d'articles publiés
- Month:
- 6
- Year:
- 2025
- Address:
- Marseille, France
- Editors:
- Frédéric Bechet, Adrian-Gabriel Chifu, Karen Pinel-sauvagnat, Benoit Favre, Eliot Maes, Diana Nurbakova
- Venue:
- JEP/TALN/RECITAL
- SIG:
- Publisher:
- ATALA \\& ARIA
- Note:
- Pages:
- 58
- Language:
- French
- URL:
- https://preview.aclanthology.org/corrections-2025-10/2025.jeptalnrecital-trad.25/
- DOI:
- Cite (ACL):
- Manon Scholivet, Agata Savary, Louis Estève, Marie Candito, and Carlos Ramisch. 2025. SELEXINI – un grand corpus français, divers et parsé automatiquement. In Actes des 32ème Conférence sur le Traitement Automatique des Langues Naturelles (TALN), volume 2 : traductions d'articles publiés, pages 58–58, Marseille, France. ATALA \\& ARIA.
- Cite (Informal):
- SELEXINI – un grand corpus français, divers et parsé automatiquement (Scholivet et al., JEP/TALN/RECITAL 2025)
- PDF:
- https://preview.aclanthology.org/corrections-2025-10/2025.jeptalnrecital-trad.25.pdf