CommonLID: Re-evaluating State-of-the-Art Language Identification Performance on Web Data

Pedro Ortiz Suarez; Laurie Burchell; Catherine Arnett; Rafael Mosquera; Sara Hincapi\'e Monsalve; Thom Vaughan; Damian Stewart; Malte Ostendorff; Idris Abdulmumin; Vukosi Marivate; Shamsuddeen Hassan Muhammad; Atnafu Lambebo Tonja; Hend Al-Khalifa; Nadia Ghezaiel Hammouda; Verrah Akinyi Otiende; Tack Hwa Wong; Jakhongir Saydaliev; Melika Nobakhtian; Muhammad Ravi Shulthan Habibi; Kranti Chalamalasetti; Carol Muchemi; Khang Nguyen; Faisal Muhammad Adam; Luis Frentzen Salim; Reem Alqifari; Cynthia Jayne Amol; Joseph Marvin Imperial; Ilker Kesen; Ahmad Mustafid; Pavel Stepachev; Leshem Choshen; David Anugraha; Hamada Nayel; Seid Muhie Yimam; Vallerie Alexandra Putra; My Chiffon Nguyen; Azmine Toushik Wasi; Gouthami Vadithya; Rob Van Der Goot; Lanwenn ar C'horr; Karan Dua; Andrew Yates; Mithil Bangera; Yeshil Bangera; Hitesh Laxmichand Patel; Shu Okabe; Fenal Ashokbhai Ilasariya; Dmitry Gaynullin; Genta Indra Winata; Yiyuan Li; Juan Pablo Martínez; Amit Agarwal; Ikhlasul Akmal Hanif; Raia Abu Ahmad; Esther Adenuga; Filbert Aurelian Tjiaranata; Weerayut Buaphet; Michael Anugraha; Sowmya Vajjala; Benjamin L Rice; Azril Hafizi Amirudin; Jesujoba Alabi; Srikant Panda; Yassine Toughrai; Bruhan Kyomuhendo; Daniel Ruffinelli; Akshata; Manuel Goul\~ao; Ej Zhou; Ingrid Gabriela Franco Ramirez; Cristina Aggazzotti; Konstantin Dobler; Jun Kevin; Quentin Pag\`es; Nicholas Andrews; Nuhu Ibrahim; Mattes Ruckdeschel; Amr Keleg; Mike Zhang; Casper Rufaro Muziri; Saron Samuel; Sotaro Takeshita; Kun Kerdthaisong; Luca Foppiano; Rasul Dent; Tommaso Green; Ahmad Mustapha Wali; Kamohelo Makaaka; Vicky Feliren; Inshirah Idris; Hande Celikkanat; Abdulhamid Abubakar; Jean Maillard; Benoît Sagot; Thibault Cl\'erice; Kenton Murray; Sarah K. K. Luger

CommonLID: Re-evaluating State-of-the-Art Language Identification Performance on Web Data

Pedro Ortiz Suarez, Laurie Burchell, Catherine Arnett, Rafael Mosquera, Sara Hincapi\'e Monsalve, Thom Vaughan, Damian Stewart, Malte Ostendorff, Idris Abdulmumin, Vukosi Marivate, Shamsuddeen Hassan Muhammad, Atnafu Lambebo Tonja, Hend Al-Khalifa, Nadia Ghezaiel Hammouda, Verrah Akinyi Otiende, Tack Hwa Wong, Jakhongir Saydaliev, Melika Nobakhtian, Muhammad Ravi Shulthan Habibi, Chalamalasetti Kranti, Carol Muchemi, Khang Nguyen, Faisal Muhammad Adam, Luis Frentzen Salim, Reem Alqifari, Cynthia Jayne Amol, Joseph Marvin Imperial, Ilker Kesen, Ahmad Mustafid, Pavel Stepachev, Leshem Choshen, David Anugraha, Hamada Nayel, Seid Muhie Yimam, Vallerie Alexandra Putra, My Chiffon Nguyen, Azmine Toushik Wasi, Gouthami Vadithya, Rob Van Der Goot, Lanwenn ar C'horr, Karan Dua, Andrew Yates, Mithil Bangera, Yeshil Bangera, Hitesh Laxmichand Patel, Shu Okabe, Fenal Ashokbhai Ilasariya, Dmitry Gaynullin, Genta Indra Winata, Yiyuan Li, Juan Pablo Mart{\'\i}nez, Amit Agarwal, Ikhlasul Akmal Hanif, Raia Abu Ahmad, Esther Adenuga, Filbert Aurelian Tjiaranata, Weerayut Buaphet, Michael Anugraha, Sowmya Vajjala, Benjamin L Rice, Azril Hafizi Amirudin, Jesujoba Oluwadara Alabi, Srikant Panda, Yassine Toughrai, Bruhan Kyomuhendo, Daniel Ruffinelli, Akshata, Manuel Goul\~ao, Ej Zhou, Ingrid Gabriela Franco Ramirez, Cristina Aggazzotti, Konstantin Dobler, Jun Kevin, Quentin Pag\`es, Nicholas Andrews, Nuhu Ibrahim, Mattes Ruckdeschel, Amr Keleg, Mike Zhang, Casper Rufaro Muziri, Saron Samuel, Sotaro Takeshita, Kun Kerdthaisong, Luca Foppiano, Rasul Dent, Tommaso Green, Ahmad Mustapha Wali, Kamohelo Makaaka, Vicky Feliren, Inshirah Idris, Hande Celikkanat, Abdulhamid Abubakar, Jean Maillard, Beno{\^\i}t Sagot, Thibault Cl\'erice, Kenton Murray, Sarah K. K. Luger

Abstract

Language identification (LID) is a fundamental step in curating multilingual corpora. However, LID models still perform poorly for many languages, especially on the noisy and heterogeneous web data often used to train multilingual language models. In this paper, we introduce CommonLID, a community-driven, human-annotated LID benchmark for the web domain, covering 109 languages. Many of the included languages have been previously under-served, making CommonLID a key resource for developing more representative high-quality text corpora. We show CommonLID’s value by using it, alongside five other common evaluation sets, to test eight popular LID models. We analyse our results to situate our contribution and to provide an overview of the state of the art. In particular, we highlight that existing evaluations overestimate LID accuracy for many languages in the web domain. We make CommonLID and the code used to create it available under an open, permissive license.

Anthology ID:: 2026.acl-long.1527
Volume:: Proceedings of the 64th Annual Meeting of the Association for Computational Linguistics (Volume 1: Long Papers)
Month:: July
Year:: 2026
Address:: San Diego, California, United States
Editors:: Maria Liakata, Viviane P. Moreira, Jiajun Zhang, David Jurgens
Venue:: ACL
SIG:
Publisher:: Association for Computational Linguistics
Note:
Pages:: 33063–33080
Language:
URL:: https://preview.aclanthology.org/ingest-acl/2026.acl-long.1527/
DOI:
Bibkey:
Cite (ACL):: Pedro Ortiz Suarez, Laurie Burchell, Catherine Arnett, Rafael Mosquera, Sara Hincapi\'e Monsalve, Thom Vaughan, Damian Stewart, Malte Ostendorff, Idris Abdulmumin, Vukosi Marivate, Shamsuddeen Hassan Muhammad, Atnafu Lambebo Tonja, Hend Al-Khalifa, Nadia Ghezaiel Hammouda, Verrah Akinyi Otiende, Tack Hwa Wong, Jakhongir Saydaliev, Melika Nobakhtian, Muhammad Ravi Shulthan Habibi, Chalamalasetti Kranti, Carol Muchemi, Khang Nguyen, Faisal Muhammad Adam, Luis Frentzen Salim, Reem Alqifari, Cynthia Jayne Amol, Joseph Marvin Imperial, Ilker Kesen, Ahmad Mustafid, Pavel Stepachev, Leshem Choshen, David Anugraha, Hamada Nayel, Seid Muhie Yimam, Vallerie Alexandra Putra, My Chiffon Nguyen, Azmine Toushik Wasi, Gouthami Vadithya, Rob Van Der Goot, Lanwenn ar C'horr, Karan Dua, Andrew Yates, Mithil Bangera, Yeshil Bangera, Hitesh Laxmichand Patel, Shu Okabe, Fenal Ashokbhai Ilasariya, Dmitry Gaynullin, Genta Indra Winata, Yiyuan Li, Juan Pablo Mart{\'\i}nez, Amit Agarwal, Ikhlasul Akmal Hanif, Raia Abu Ahmad, Esther Adenuga, Filbert Aurelian Tjiaranata, Weerayut Buaphet, Michael Anugraha, Sowmya Vajjala, Benjamin L Rice, Azril Hafizi Amirudin, Jesujoba Oluwadara Alabi, Srikant Panda, Yassine Toughrai, Bruhan Kyomuhendo, Daniel Ruffinelli, Akshata, Manuel Goul\~ao, Ej Zhou, Ingrid Gabriela Franco Ramirez, Cristina Aggazzotti, Konstantin Dobler, Jun Kevin, Quentin Pag\`es, Nicholas Andrews, Nuhu Ibrahim, Mattes Ruckdeschel, Amr Keleg, Mike Zhang, Casper Rufaro Muziri, Saron Samuel, Sotaro Takeshita, Kun Kerdthaisong, Luca Foppiano, Rasul Dent, Tommaso Green, Ahmad Mustapha Wali, Kamohelo Makaaka, Vicky Feliren, Inshirah Idris, Hande Celikkanat, Abdulhamid Abubakar, Jean Maillard, Beno{\^\i}t Sagot, Thibault Cl\'erice, Kenton Murray, and Sarah K. K. Luger. 2026. CommonLID: Re-evaluating State-of-the-Art Language Identification Performance on Web Data. In Proceedings of the 64th Annual Meeting of the Association for Computational Linguistics (Volume 1: Long Papers), pages 33063–33080, San Diego, California, United States. Association for Computational Linguistics.
Cite (Informal):: CommonLID: Re-evaluating State-of-the-Art Language Identification Performance on Web Data (Suarez et al., ACL 2026)
Copy Citation:
PDF:: https://preview.aclanthology.org/ingest-acl/2026.acl-long.1527.pdf
Checklist:: 2026.acl-long.1527.checklist.pdf

PDF Cite Search Checklist Fix data