Examining Multilingual Embedding Models Cross-Lingually Through LLM-Generated Adversarial Examples

Andrianos Michail; Simon Clematide; Rico Sennrich

doi:10.18653/v1/2025.findings-emnlp.115

Examining Multilingual Embedding Models Cross-Lingually Through LLM-Generated Adversarial Examples

Andrianos Michail, Simon Clematide, Rico Sennrich

Abstract

The evaluation of cross-lingual semantic search models is often limited to existing datasets from tasks such as information retrieval and semantic textual similarity. We introduce Cross-Lingual Semantic Discrimination (CLSD), a lightweight evaluation task that requires only parallel sentences and a Large Language Model (LLM) to generate adversarial distractors. CLSD measures an embedding model’s ability to rank the true parallel sentence above semantically misleading but lexically similar alternatives. As a case study, we construct CLSD datasets for German–French in the news domain. Our experiments show that models fine-tuned for retrieval tasks benefit from pivoting through English, whereas bitext mining models perform best in direct cross-lingual settings. A fine-grained similarity analysis further reveals that embedding models differ in their sensitivity to linguistic perturbations.

Anthology ID:: 2025.findings-emnlp.115
Volume:: Findings of the Association for Computational Linguistics: EMNLP 2025
Month:: November
Year:: 2025
Address:: Suzhou, China
Editors:: Christos Christodoulopoulos, Tanmoy Chakraborty, Carolyn Rose, Violet Peng
Venue:: Findings
SIG:
Publisher:: Association for Computational Linguistics
Note:
Pages:: 2161–2170
Language:
URL:: https://preview.aclanthology.org/name-variant-enfa-fane/2025.findings-emnlp.115/
DOI:: 10.18653/v1/2025.findings-emnlp.115
Bibkey:
Cite (ACL):: Andrianos Michail, Simon Clematide, and Rico Sennrich. 2025. Examining Multilingual Embedding Models Cross-Lingually Through LLM-Generated Adversarial Examples. In Findings of the Association for Computational Linguistics: EMNLP 2025, pages 2161–2170, Suzhou, China. Association for Computational Linguistics.
Cite (Informal):: Examining Multilingual Embedding Models Cross-Lingually Through LLM-Generated Adversarial Examples (Michail et al., Findings 2025)
Copy Citation:
PDF:: https://preview.aclanthology.org/name-variant-enfa-fane/2025.findings-emnlp.115.pdf
Checklist:: 2025.findings-emnlp.115.checklist.pdf

PDF Cite Search Checklist Fix data