Caractérisation des discours scientifiques et vulgarisés en français, japonais et russe

Lorraine Goeuriot, Natalia Grabar, Béatrice Daille


Abstract
L’objectif principal de notre travail consiste à étudier la notion de comparabilité des corpus, et nous abordons cette question dans un contexte monolingue en cherchant à distinguer les documents scientifiques et vulgarisés. Nous travaillons séparément sur des corpus composés de documents du domaine médical dans trois langues à forte distance linguistique (le français, le japonais et le russe). Dans notre approche, les documents sont caractérisés dans chaque langue selon leur thématique et une typologie discursive qui se situe à trois niveaux de l’analyse des documents : structurel, modal et lexical. Le typage des documents est implémenté avec deux algorithmes d’apprentissage (SVMlight et C4.5). L’évaluation des résultats montre que la typologie discursive proposée est portable d’une langue à l’autre car elle permet en effet de distinguer les deux discours. Nous constatons néanmoins des performances très variées selon les langues, les algorithmes et les types de caractéristiques discursives.
Anthology ID:
2007.jeptalnrecital-poster.9
Volume:
Actes de la 14ème conférence sur le Traitement Automatique des Langues Naturelles. Posters
Month:
June
Year:
2007
Address:
Toulouse, France
Venue:
JEP/TALN/RECITAL
SIG:
Publisher:
ATALA
Note:
Pages:
93–102
Language:
French
URL:
https://aclanthology.org/2007.jeptalnrecital-poster.9
DOI:
Bibkey:
Cite (ACL):
Lorraine Goeuriot, Natalia Grabar, and Béatrice Daille. 2007. Caractérisation des discours scientifiques et vulgarisés en français, japonais et russe. In Actes de la 14ème conférence sur le Traitement Automatique des Langues Naturelles. Posters, pages 93–102, Toulouse, France. ATALA.
Cite (Informal):
Caractérisation des discours scientifiques et vulgarisés en français, japonais et russe (Goeuriot et al., JEP/TALN/RECITAL 2007)
Copy Citation:
PDF:
https://preview.aclanthology.org/update-css-js/2007.jeptalnrecital-poster.9.pdf