Miao He - ACL Anthology

This page is part of a temporary preview of a proposed change that may be incomplete or contain mistakes. It is not official and will be removed when the change is merged or abandoned.

Miao He

2026

The MultiplEYE Text Corpus: Towards a Diverse and Ever-Expanding Multilingual Text Corpus
Ramunė Kasperė | Anna Bondar | Sergiu Nisioi | Maja Stegenwallner-Schütz | Hanne B. Søndergaard Knudsen | Ana Matić | Eva Pavlinušić Vilus | Dorota Klimek-Jankowska | Chiara Tschirner | Not Battesta Soliva | Deborah N. Jakobi | Cui Ding | Dima Abu Romi | Cengiz Acarturk | Matilda Agdler | Anton Marius Alexandru | Mohd Faizan Ansari | Annalisa Arcidiacono | Elizabete Ausma Velta Barisa | Ana Bautista | Lisa Beinborn | Yevgeni Berzak | Nedeljka Bjelanović | Anna Isabelle Bothmann | Jan Brasser | Caterina Cacioli | Anila Çepani | Ilze Ceple | Adelina Cerpja | Dalí Chirino | Jan Chromý | Alessandro Corona Mendozza | Iria de-Dios-Flores | Nazik Dinçtopal Deniz | Ana Došen | Kristian Elersič | Inmaculada Fajardo | Zigmunds Freibergs | Angelina Ganebnaya | Shan Gao | Jéssica Gomes | Annjo Klungervik Greenall | Alba Haveriku | Miao He | Anamaria Hodivoianu | Yu-Yin Hsu | Amanda Isaksen | Andreia Janeiro | Kristine Jensen de López | Aleksandar Jevremovic | Vojislav Jovanovic | Hanna Kędzierska | Nik Kharlamov | Sara Kosutar | Nelda Kote | Vanja Kovic | Izabela Krejtz | Thyra Krosness | Oleksandra Kuvshynova | Eilam Lavy | Ella Lion | Marta Łockiewicz | Kaidi Lõo | Paula Luegi | Mircea Mihai Marin | Clara Martin | Svitlana Matvieieva | Diane C. Mézière | Xavier Mínguez-López | Valeriia Modina | Jurgita Motiejūnienė | Marie-Luise Müller | Tolgonai Nasipbek kyzy | Jamal Abdul Nasir | Johanne S. K. Nedergård | Ayşegül Özkan | Patrizia Paggio | Marijan Palmović | Maria Christina Panagiotopoulou | Alberto Parola | Helena Pérez | Klaudia Petersen | Anja Podlesek | Eva Pospíšilová | Marta Praulina | Mikuláš Preininger | Loredana Pungă | Diego Rossini | Špela Rot | Habib Sani Yahaya | Irina A. Sekerina | Anne Gabija Skadina | Jordi Solé-Casals | Lonneke van der Plas | Saara M. Varjopuro | Spyridoula Varlokosta | João Veríssimo | Oskari Juhapekka Virtanen | Nemanja Vračar | Mila Vulchanova | Ahmad Mustapha Wali | Peizheng Wu | Nilgün Yücel | Stefan Frank | Nora Hollenstein | Lena Jäger | Somayeh Bakhtiari
Proceedings of the Fifteenth Language Resources and Evaluation Conference

We present the MultiplEYE Text Corpus, a large-scale, document-level, multi-parallel resource designed to advance cross-linguistic research on reading and language processing. The corpus provides paragraph-level alignment for texts in 39 languages spanning seven language families and seven scripts. Unlike many existing multilingual corpora, a substantial number of documents were originally written in languages other than English, reducing English-centric bias and supporting more typologically diverse investigations. The texts are carefully selected to balance linguistic richness with experimental feasibility, particularly for eye-tracking-while-reading studies. Developed within a multi-lab initiative, the MultiplEYE Text Corpus follows unified translation, alignment, and experimental design guidelines to ensure cross-linguistic comparability. Its inclusion of texts varying in type and difficulty enables research on discourse- level processing, genre effects, and individual differences across a wide range of languages. The text corpus and accompanying metadata provide a robust foundation for multilingual psycholinguistic and computational modeling research. Data and materials are publicly available at https://doi.org/10.23668/psycharchives.22294.

2025

RD-MCSA: A Multi-Class Sentiment Analysis Approach Integrating In-Context Classification Rationales and Demonstrations
Haihua Xie | Yinzhu Cheng | Yaqing Wang | Miao He | Mingming Sun
Proceedings of the 2025 Conference on Empirical Methods in Natural Language Processing

This paper addresses the important yet underexplored task of **multi-class sentiment analysis (MCSA)**, which remains challenging due to the subtle semantic differences between adjacent sentiment categories and the scarcity of high-quality annotated data. To tackle these challenges, we propose **RD-MCSA** (**R**ationales and **D**emonstrations-based **M**ulti-**C**lass **S**entiment **A**nalysis), an In-Context Learning (ICL) framework designed to enhance MCSA performance under limited supervision by integrating classification rationales with adaptively selected demonstrations. First, semantically grounded classification rationales are generated from a representative, class-balanced subset of annotated samples selected using a tailored balanced coreset algorithm. These rationales are then paired with demonstrations chosen through a similarity-based mechanism powered by a **multi-kernel Gaussian process (MK-GP)**, enabling large language models (LLMs) to more effectively capture fine-grained sentiment distinctions. Experiments on five benchmark datasets demonstrate that RD-MCSA consistently outperforms both supervised baselines and standard ICL methods across various evaluation metrics.

Co-authors

Mohd Faizan Ansari 1

Annalisa Arcidiacono 1

Hanne B. Søndergaard Knudsen 1

Somayeh Bakhtiari 1

Elizabete Ausma Velta Barisa 1

Not Battesta Soliva 1

Lisa Beinborn 1

Yevgeni Berzak 1

Nedeljka Bjelanović 1

Anna Isabelle Bothmann 1

Caterina Cacioli 1

Adelina Cerpja 1

Dalí Chirino 1

Alessandro Corona Mendozza 1

Nazik Dinctopal Deniz 1

Kristian Elersič 1

Inmaculada Fajardo 1

Stefan L. Frank 1

Zigmunds Freibergs 1

Angelina Ganebnaya 1

Jéssica Gomes 1

Annjo Klungervik Greenall 1

Alba Haveriku 1

Anamaria Hodivoianu 1

Nora Hollenstein 1

Amanda Isaksen 1

Deborah N. Jakobi 1

Andreia Janeiro 1

Kristine Jensen de López 1

Aleksandar Jevremovic 1

Vojislav Jovanovic 1

Lena Ann Jäger 1

Ramunė Kasperė 1

Nik Kharlamov 1

Dorota Klimek-Jankowska 1

Sara Košutar 1

Izabela Krejtz 1

Thyra Krosness 1

Oleksandra Kuvshynova 1

Hanna Kędzierska 1

Mircea Mihai Marin 1

Svitlana Matvieieva 1

Valeriia Modina 1

Jurgita Motiejūnienė 1

Diane C. Mézière 1

Xavier Mínguez-López 1

Marie-Luise Müller 1

Tolgonai Nasipbek kyzy 1

Johanne S. K. Nedergård 1

Sergiu Nisioi 1

Patrizia Paggio 1

Marijan Palmović 1

Maria Christina Panagiotopoulou 1

Alberto Parola 1

Eva Pavlinušić Vilus 1

Klaudia Petersen 1

Anja Podlesek 1

Eva Pospíšilová 1

Marta Praulina 1

Mikuláš Preininger 1

Loredana Pungă 1

Helena Pérez 1

Diego Rossini 1

Habib Sani Yahaya 1

Irina A. Sekerina 1

Anne Gabija Skadina 1

Jordi Solé-Casals 1

Maja Stegenwallner-Schütz 1

Chiara Tschirner 1

Saara M. Varjopuro 1

Spyridoula Varlokosta 1

João Veríssimo 1

Oskari Juhapekka Virtanen 1

Nemanja Vračar 1

Mila Vulchanova 1

Ahmad Mustapha Wali 1

Nilgün Yücel 1

Iria de-Dios-Flores 1

Lonneke van der Plas 1

Anila Çepani 1

Ayşegül Özkan 1

Marta Łockiewicz 1

Venues

EMNLP1
LREC1