Ioana-Madalina Silai


2025

pdf bib
Prédiction des pauses dans les données d’écriture en temps réel
Ioana-Madalina Silai | Kehina Manseri | Iris Eshkol-Taravella
Actes de l'atelier Traitement de données langagières dynamiques par les outils et méthodes du TAL 2025 (DYN-TAL)

Cette étude explore la prédiction des pauses dans des données d’écriture enregistrées en temps réel. Deux hypothèses sont testées : (1) les pauses dépendent du contenu lexical des bursts, et (2) les catégories morpho-syntaxiques (POS) influencent leur distribution. Après prétraitement linguistique, plusieurs techniques de classification sont testées. CamemBERT atteint jusqu’à 90 % de précision en classification binaire, suggérant un lien fort entre structure linguistique et pauses.

pdf bib
Extraction of Contrastive Rules from Syntactic Treebanks: A Case Study in Romance Languages
Santiago Herrera | Ioana-Madalina Silai | Caio Corro | Bruno Guillaume | Sylvain Kahane
Proceedings of the Third Workshop on Quantitative Syntax (QUASY, SyntaxFest 2025)

In this paper, we develop a data-driven contrastive framework to extract common and distinctive linguistic descriptions from syntactic treebanks. The extracted contrastive rules are defined by a statistically significant difference in precision and classified as common and distinctive rules across the set of treebanks. We illustrate our method by working on object word order using Universal Dependencies (UD) treebanks in 6 Romance languages: Brazilian Portuguese, Catalan, French, Italian, Romanian and Spanish. We discuss the limitations faced due to inconsistent annotation and the feasibility of conducting contrasting studies using the UD collection.