Abstract
Nous proposons une démonstration sur l’extraction de contenu textuel dans des pages web ainsi que son évaluation. Nous nous concentrons sur les pages web contenant du texte (articles de presse, magazines en ligne et blogs) et montrons que les textes peuvent varier grandement selon différentes dimensions : diachronique, géographique et typologique. Dès lors, les outils et mesures d’évaluation correspondantes sont sujettes à caution : les indicateurs communément utilisés et censés présider au choix de l’outil approprié par les utilisateurs finaux sont à la fois imprécis et difficiles à interpréter.- Anthology ID:
- 2020.jeptalnrecital-demos.12
- Volume:
- Actes de la 6e conférence conjointe Journées d'Études sur la Parole (JEP, 33e édition), Traitement Automatique des Langues Naturelles (TALN, 27e édition), Rencontre des Étudiants Chercheurs en Informatique pour le Traitement Automatique des Langues (RÉCITAL, 22e édition). Volume 4 : Démonstrations et résumés d'articles internationaux
- Month:
- 6
- Year:
- 2020
- Address:
- Nancy, France
- Editors:
- Christophe Benzitoun, Chloé Braud, Laurine Huber, David Langlois, Slim Ouni, Sylvain Pogodalla, Stéphane Schneider
- Venue:
- JEP/TALN/RECITAL
- SIG:
- Publisher:
- ATALA et AFCP
- Note:
- Pages:
- 46–49
- Language:
- French
- URL:
- https://aclanthology.org/2020.jeptalnrecital-demos.12
- DOI:
- Cite (ACL):
- Gaël Lejeune and Adrien Barbaresi. 2020. Bien choisir son outil d’extraction de contenu à partir du Web (Choosing the appropriate tool for Web Content Extraction ). In Actes de la 6e conférence conjointe Journées d'Études sur la Parole (JEP, 33e édition), Traitement Automatique des Langues Naturelles (TALN, 27e édition), Rencontre des Étudiants Chercheurs en Informatique pour le Traitement Automatique des Langues (RÉCITAL, 22e édition). Volume 4 : Démonstrations et résumés d'articles internationaux, pages 46–49, Nancy, France. ATALA et AFCP.
- Cite (Informal):
- Bien choisir son outil d’extraction de contenu à partir du Web (Choosing the appropriate tool for Web Content Extraction ) (Lejeune & Barbaresi, JEP/TALN/RECITAL 2020)
- PDF:
- https://preview.aclanthology.org/nschneid-patch-1/2020.jeptalnrecital-demos.12.pdf