@inproceedings{lejeune-etal-2015-evaluation,
title = "{\'E}valuation intrins{\`e}que et extrins{\`e}que du nettoyage de pages Web",
author = {Lejeune, Ga{\"e}l and
Brixtel, Romain and
Lecluze, Charlotte},
editor = "Lecarpentier, Jean-Marc and
Lucas, Nadine",
booktitle = "Actes de la 22e conf{\'e}rence sur le Traitement Automatique des Langues Naturelles. Articles courts",
month = jun,
year = "2015",
address = "Caen, France",
publisher = "ATALA",
url = "https://preview.aclanthology.org/fix-sig-urls/2015.jeptalnrecital-court.15/",
pages = "95--101",
abstract = "Le nettoyage de documents issus du web est une t{\^a}che importante pour le TAL en g{\'e}n{\'e}ral et pour la constitution de corpus en particulier. Cette phase est peu trait{\'e}e dans la litt{\'e}rature, pourtant elle n{'}est pas sans influence sur la qualit{\'e} des informations extraites des corpus. Nous proposons deux types d'{\'e}valuation de cette t{\^a}che de d{\'e}tourage : (I) une {\'e}valuation intrins{\`e}que fond{\'e}e sur le contenu en mots, balises et caract{\`e}res ; (II) une {\'e}valuation extrins{\`e}que fond{\'e}e sur la t{\^a}che, en examinant l{'}effet du d{\'e}tourage des documents sur le syst{\`e}me plac{\'e} en aval de la cha{\^i}ne de traitement. Nous montrons que les r{\'e}sultats ne sont pas coh{\'e}rents entre ces deux {\'e}valuations ainsi qu{'}entre les diff{\'e}rentes langues. Ainsi, le choix d{'}un outil de d{\'e}tourage devrait {\^e}tre guid{\'e} par la t{\^a}che vis{\'e}e plut{\^o}t que par la simple {\'e}valuation intrins{\`e}que."
}
Markdown (Informal)
[Évaluation intrinsèque et extrinsèque du nettoyage de pages Web](https://preview.aclanthology.org/fix-sig-urls/2015.jeptalnrecital-court.15/) (Lejeune et al., JEP/TALN/RECITAL 2015)
ACL