CausalityCheck: A Framework for Evaluating Causal Reasoning in Large Language Models

Jiang Li; Zehua Duo; Guanglai Gao; Xiangdong Su

CausalityCheck: A Framework for Evaluating Causal Reasoning in Large Language Models

Jiang Li, Zehua Duo, Guanglai Gao, Xiangdong Su

Abstract

Causal reasoning is a crucial component of understanding complex phenomena and building intelligent systems. Recent advancements in large language models (LLMs) have demonstrated their strong capabilities in reasoning tasks; however, their true understanding of causal relationships remains limited, particularly in cases where causal chains are misidentified or reliance on empirical inference occurs. To mitigate the risk that models misclassify data as false positives due to these issues, we introduce CausalityCheck, an automated tool designed to efficiently generate causal reasoning checklists. This checklist enables the creation of multi-task causal reasoning datasets with task generalization and reasoning robustness from a single causal reasoning dataset. Using CausalityCheck, we developed CausalityCheck-CP to assess the causal reasoning abilities of 18 LLMs. This framework also measures the extent to which causal chains are misidentified or rely on empirical inferences. Our results indicate that the current large language models still face two critical issues when handling complex causal reasoning tasks: incorrect identification of causal chains and reliance on empirical inference. The code and data are available at https://github.com/dzh597/CausalityCheck.

Anthology ID:: 2026.findings-acl.808
Volume:: Findings of the Association for Computational Linguistics: ACL 2026
Month:: July
Year:: 2026
Address:: San Diego, California, United States
Editors:: Maria Liakata, Viviane P. Moreira, Jiajun Zhang, David Jurgens
Venue:: Findings
SIG:
Publisher:: Association for Computational Linguistics
Note:
Pages:: 16403–16429
Language:
URL:: https://preview.aclanthology.org/ingest-acl/2026.findings-acl.808/
DOI:
Bibkey:
Cite (ACL):: Jiang Li, Zehua Duo, Guanglai Gao, and Xiangdong Su. 2026. CausalityCheck: A Framework for Evaluating Causal Reasoning in Large Language Models. In Findings of the Association for Computational Linguistics: ACL 2026, pages 16403–16429, San Diego, California, United States. Association for Computational Linguistics.
Cite (Informal):: CausalityCheck: A Framework for Evaluating Causal Reasoning in Large Language Models (Li et al., Findings 2026)
Copy Citation:
PDF:: https://preview.aclanthology.org/ingest-acl/2026.findings-acl.808.pdf
Checklist:: 2026.findings-acl.808.checklist.pdf

PDF Cite Search Checklist Fix data