Une catégorisation de fins de lignes non-supervisée (End-of-line classification with no supervision)

Pierre Zweigenbaum, Cyril Grouin, Thomas Lavergne


Abstract
Dans certains textes bruts, les marques de fin de ligne peuvent marquer ou pas la frontière d’une unité textuelle (typiquement un paragraphe). Ce problème risque d’influencer les traitements subséquents, mais est rarement traité dans la littérature. Nous proposons une méthode entièrement non-supervisée pour déterminer si une fin de ligne doit être vue comme un simple espace ou comme une véritable frontière d’unité textuelle, et la testons sur un corpus de comptes rendus médicaux. Cette méthode obtient une F-mesure de 0,926 sur un échantillon de 24 textes contenant des lignes repliées. Appliquée sur un échantillon plus grand de textes contenant ou pas des lignes repliées, notre méthode la plus prudente obtient une F-mesure de 0,898, valeur élevée pour une méthode entièrement non-supervisée.
Anthology ID:
2016.jeptalnrecital-poster.7
Volume:
Actes de la conférence conjointe JEP-TALN-RECITAL 2016. volume 2 : TALN (Posters)
Month:
7
Year:
2016
Address:
Paris, France
Venue:
JEP/TALN/RECITAL
SIG:
Publisher:
AFCP - ATALA
Note:
Pages:
364–371
Language:
French
URL:
https://aclanthology.org/2016.jeptalnrecital-poster.7
DOI:
Bibkey:
Cite (ACL):
Pierre Zweigenbaum, Cyril Grouin, and Thomas Lavergne. 2016. Une catégorisation de fins de lignes non-supervisée (End-of-line classification with no supervision). In Actes de la conférence conjointe JEP-TALN-RECITAL 2016. volume 2 : TALN (Posters), pages 364–371, Paris, France. AFCP - ATALA.
Cite (Informal):
Une catégorisation de fins de lignes non-supervisée (End-of-line classification with no supervision) (Zweigenbaum et al., JEP/TALN/RECITAL 2016)
Copy Citation:
PDF:
https://preview.aclanthology.org/ingestion-script-update/2016.jeptalnrecital-poster.7.pdf