Controlling Language Confusion in Multilingual LLMs

Nahyun Lee; Yeongseo Woo; Hyunwoo Ko; Guijin Son

Controlling Language Confusion in Multilingual LLMs

Nahyun Lee, Yeongseo Woo, Hyunwoo Ko, Guijin Son

Abstract

Large language models often suffer from language confusion, a phenomenon in which responses are partially or entirely generated in unintended languages. This critically degrades the user experience, especially in low-resource settings. We hypothesize that this issue stems from limitations in conventional fine-tuning objectives, such as supervised learning, which optimize the likelihood of correct tokens without explicitly penalizing undesired outputs such as cross-lingual mixing. Analysis of loss trajectories during pretraining further reveals that models fail to distinguish between monolingual and language-mixed texts, highlighting the absence of inherent pressure to avoid such confusion. In this work, we apply ORPO, which adds penalties for unwanted output styles to standard SFT, effectively suppressing language-confused generations. ORPO maintains strong language consistency, even under high decoding temperatures, while preserving general QA performance. Our findings suggest that incorporating appropriate penalty terms can effectively mitigate language confusion in multilingual models, particularly in low-resource scenarios.

Anthology ID:: 2025.acl-srw.81
Volume:: Proceedings of the 63rd Annual Meeting of the Association for Computational Linguistics (Volume 4: Student Research Workshop)
Month:: July
Year:: 2025
Address:: Vienna, Austria
Editors:: Jin Zhao, Mingyang Wang, Zhu Liu
Venues:: ACL | WS
SIG:
Publisher:: Association for Computational Linguistics
Note:
Pages:: 1026–1035
Language:
URL:: https://preview.aclanthology.org/landing_page/2025.acl-srw.81/
DOI:
Bibkey:
Cite (ACL):: Nahyun Lee, Yeongseo Woo, Hyunwoo Ko, and Guijin Son. 2025. Controlling Language Confusion in Multilingual LLMs. In Proceedings of the 63rd Annual Meeting of the Association for Computational Linguistics (Volume 4: Student Research Workshop), pages 1026–1035, Vienna, Austria. Association for Computational Linguistics.
Cite (Informal):: Controlling Language Confusion in Multilingual LLMs (Lee et al., ACL 2025)
Copy Citation:
PDF:: https://preview.aclanthology.org/landing_page/2025.acl-srw.81.pdf

PDF Cite Search Fix data