Attribution d’Auteur : approche multilingue fondée sur les répétitions maximales

Romain Brixtel, Charlotte Lecluze, Gaël Lejeune


Abstract
Cet article s’attaque à la tâche d’Attribution d’Auteur en contexte multilingue. Nous proposons une alternative aux méthodes supervisées fondées sur les n-grammes de caractères de longueurs variables : les répétitions maximales. Pour un texte donné, la liste de ses n-grammes de caractères contient des informations redondantes. A contrario, les répétitions maximales représentent l’ensemble des répétitions de ce texte de manière condensée. Nos expériences montrent que la redondance des n-grammes contribue à l’efficacité des techniques d’Attribution d’Auteur exploitant des sous-chaînes de caractères. Ce constat posé, nous proposons une fonction de pondération sur les traits donnés en entrée aux classifieurs, en introduisant les répétitions maximales du nème ordre (c’est-à-dire des répétitions maximales détectées dans un ensemble de répétitions maximales). Les résultats expérimentaux montrent de meilleures performances avec des répétitions maximales, avec moins de données que pour les approches fondées sur les n-grammes.
Anthology ID:
2015.jeptalnrecital-long.18
Volume:
Actes de la 22e conférence sur le Traitement Automatique des Langues Naturelles. Articles longs
Month:
June
Year:
2015
Address:
Caen, France
Venue:
JEP/TALN/RECITAL
SIG:
Publisher:
ATALA
Note:
Pages:
208–219
Language:
URL:
https://aclanthology.org/2015.jeptalnrecital-long.18
DOI:
Bibkey:
Cite (ACL):
Romain Brixtel, Charlotte Lecluze, and Gaël Lejeune. 2015. Attribution d’Auteur : approche multilingue fondée sur les répétitions maximales. In Actes de la 22e conférence sur le Traitement Automatique des Langues Naturelles. Articles longs, pages 208–219, Caen, France. ATALA.
Cite (Informal):
Attribution d’Auteur : approche multilingue fondée sur les répétitions maximales (Brixtel et al., JEP/TALN/RECITAL 2015)
Copy Citation:
PDF:
https://preview.aclanthology.org/auto-file-uploads/2015.jeptalnrecital-long.18.pdf