Dusica Terzic


Fixing paper assignments

  1. Please select all papers that belong to the same person.
  2. Indicate below which author they should be assigned to.
Provide a valid ORCID iD here. This will be used to match future papers to this author.
Provide the name of the school or the university where the author has received or will receive their highest degree (e.g., Ph.D. institution for researchers, or current affiliation for students). This will be used to form the new author page ID, if needed.

TODO: "submit" and "cancel" buttons here


2019

pdf bib
Parsing des textes journalistiques en serbe à l’aide du logiciel Talismane (Parsing of newspaper texts in Serbian using Talismane)
Dusica Terzic
Actes de la Conférence sur le Traitement Automatique des Langues Naturelles (TALN) PFIA 2019. Volume III : RECITAL

Cet article présente la création d’un treebank journalistique serbe, ParCoJour. Il est composé de 30K tokens et doté de trois couches d’annotation : étiquetage morphosyntaxique, lemmatisation et annotation syntaxique. Une fois construit, ParCoJour a été utilisé dans trois expériences afin d’évaluer l’impact du domaine textuel sur le parsing du serbe en comparant les performances de Talismane, un système par apprentissage automatique, sur deux types de corpus, journalistique et littéraire : 1) parsing du corpus journalistique avec un modèle entraîné sur le corpus journalistique ; 2) parsing du corpus journalistique avec un modèle entraîné sur le corpus littéraire ; 3) parsing du corpus littéraire avec un modèle entraîné sur le corpus journalistique. Les résultats sont comparés à ceux où les deux corpus relevaient du domaine littéraire. Le changement de domaine textuel dans la deuxième et la troisième expérience entraîne une baisse des performances, mais les résultats de parsing restent satisfaisants.