CRaFT: An Explanation-Based Framework for Evaluating Cultural Reasoning in Multilingual Language Models

Shehenaz Hossain; Haithem Afli

CRaFT: An Explanation-Based Framework for Evaluating Cultural Reasoning in Multilingual Language Models

Abstract

Correct answers do not necessarily reflect cultural understanding. We introduce CRaFT, an explanation-based multilingual evaluation framework designed to assess how large language models (LLMs) reason across cultural contexts. Rather than scoring outputs solely based on accuracy, CRaFT evaluates model explanations using four interpretable metrics: Cultural Fluency, Deviation, Consistency, and Linguistic Adaptation. We apply the framework to 50 culturally grounded questions from the World Values Survey, translated into Arabic, Bengali, and Spanish, and evaluate three models (GPT-4o, DeepSeek, FANAR) across over 2,100 answer–explanation pairs. Results reveal significant cross-lingual variation in reasoning: Arabic reduces fluency, Bengali enhances it, and Spanish remains largely stable. While GPT-4o adapts more effectively across languages, it exhibits lower consistency; FANAR shows stable but rigid reasoning. These findings suggest that cultural awareness in LLMs is not intrinsic but emerges through linguistic framing. CRaFT offers a new lens for evaluating cross-cultural reasoning in multilingual settings, providing actionable insights for building culturally adaptive language models.

Anthology ID:: 2026.lrec-main.406
Volume:: Proceedings of the Fifteenth Language Resources and Evaluation Conference
Month:: May
Year:: 2026
Address:: Palma de Mallorca, Spain
Editors:: Stelios Piperidis, Núria Bel, Henk van den Heuvel, Nancy Ide, Simon Krek, Antonio Toral
Venue:: LREC
SIG:
Publisher:: ELRA Language Resource Association
Note:
Pages:: 5192–5202
Language:
URL:: https://preview.aclanthology.org/ingest-lrec/2026.lrec-main.406/
DOI:
Bibkey:
Cite (ACL):: Shehenaz Hossain and Haithem Afli. 2026. CRaFT: An Explanation-Based Framework for Evaluating Cultural Reasoning in Multilingual Language Models. International Conference on Language Resources and Evaluation, main:5192–5202.
Cite (Informal):: CRaFT: An Explanation-Based Framework for Evaluating Cultural Reasoning in Multilingual Language Models (Hossain & Afli, LREC 2026)
Copy Citation:
PDF:: https://preview.aclanthology.org/ingest-lrec/2026.lrec-main.406.pdf

PDF Cite Search Fix data