This is an internal, incomplete preview of a proposed change to the ACL Anthology.
For efficiency reasons, we don't generate MODS or Endnote formats, and the preview may be incomplete in other ways, or contain mistakes.
Do not treat this content as an official publication.
MarceauHernandez
Fixing paper assignments
Please select all papers that belong to the same person.
Indicate below which author they should be assigned to.
L’analyse métrique est une étape importante pour le traitement des textes versifiés. Le résultat d’une telle analyse permet, par exemple, de comparer les textes entre eux, ou, dans le cas de textes chantés, de les comparer avec différents airs. Nous proposons une méthode pour la création d’un modèle produisant diverses analyses métriques pour un vers donné, ainsi qu’une application en diachronie longue de cette méthode sur des données en français produites à partir du 16èmesiècle et jusqu’au début du 20èmesiècle. Cette méthode repose sur la prédiction des noyaux vocaliques d’un vers. Nous offrirons également un point de comparaison et nous poserons la question de la robustesse à la variation de ces méthodes selon l’état de langue considéré et le bruitage provenant de l’application de reconnaissance optique de caractères en amont.
Multiword expressions (MWEs) are a key area of interest in NLP, studied across various languages and inspiring the creation of dedicated datasets and shared tasks such as PARSEME. Puns in multiword expressions (PMWEs) can be described as MWEs that have been “unfrozen” to acquire a new meaning or create a wordplay. Unlike MWEs, they have received little attention in NLP, mainly due to the lack of resources available for their study. In this context, we introduce the French Unfrozen Idioms in Tweets (FRUIT) corpus, a dataset of tweets spanning three years and comprising 60,617 tweets containing both MWEs and PMWE candidates. We first describe the process of constructing this corpus, followed by an overview of the manual annotation task performed by three experts on 600 tweets, achieving a maximum α score of 0.83. Insights from this manual annotation process were then used to develop a Game With A Purpose (GWAP) to annotate more tweets from the FRUIT corpus. This GWAP aims to enhance players’ understanding of MWEs and PMWEs. Currently, 13 players made 2,206 annotations on 931 tweets, reaching an α score of 0.70. In total, 1,531 tweets from the FRUIT corpus have been annotated.
Cet article décrit la participation de l’équipe Sorbonne-SNCF au Défi Fouille de Textes 2024, se concentrant sur la correction automatique de QCM en langue française. Le corpus, constitué de questions de pharmacologie, a été reformulé en assertions. Nous avons employé des techniques avancées de traitement du langage naturel pour traiter les réponses. Trois approches principales, NachosLLM, TTGV byfusion, et TTGV ollama multilabel, sont présentées avec des scores EMR respectifs de 2.94, 4.19 et 1.68. Les résultats obtenus montrent des niveaux de précision différents, en soulignant les limites des approches multi-étiquettes. Des suggestions d’amélioration incluent l’ajustement des modèles de langage et des critères de classification.