Tübingen-CL at SemEval-2026 Task 12: Reinforcement Learning and Verification for Abductive Reasoning

Bolun Liang; Ayperi Khudaybergenova; Shashikala Kankanamge

Tübingen-CL at SemEval-2026 Task 12: Reinforcement Learning and Verification for Abductive Reasoning

Bolun Liang, Ayperi Khudaybergenova, Shashikala Kankanamge

Abstract

We investigate the reliability of verifier-based pipelines for abductive reasoning in SemEval-2026 Task 12. While reinforcement learning improves the base generator’s performance, we find that incorporating a small-model verifier introduces a significant generalization gap: although effective on validation data, the verifier systematically degrades correct predictions on the unseen test set by appending false positives. Furthermore, we reveal a critical vulnerability in the official evaluation metric, which assigns zero reward to abstentions but does not sufficiently penalize incorrect selections. This asymmetry enables trivial heuristic strategies such as blindly selecting a default option to substantially inflate performance, even outperforming more principled reasoning systems. Our analysis demonstrates that current evaluation protocols can misrepresent true reasoning ability and highlights the need for more robust verification methods and scoring schemes.

Anthology ID:: 2026.semeval-1.330
Volume:: Proceedings of the 20th International Workshop on Semantic Evaluation (2026)
Month:: July
Year:: 2026
Address:: San Diego, California, USA
Editors:: Ekaterina Kochmar, Debanjan Ghosh, Kai North, Mamoru Komachi
Venues:: SemEval | WS
SIG:
Publisher:: Association for Computational Linguistics
Note:
Pages:: 2621–2629
Language:
URL:: https://preview.aclanthology.org/ingest-acl-workshops/2026.semeval-1.330/
DOI:
Bibkey:
Cite (ACL):: Bolun Liang, Ayperi Khudaybergenova, and Shashikala Kankanamge. 2026. Tübingen-CL at SemEval-2026 Task 12: Reinforcement Learning and Verification for Abductive Reasoning. In Proceedings of the 20th International Workshop on Semantic Evaluation (2026), pages 2621–2629, San Diego, California, USA. Association for Computational Linguistics.
Cite (Informal):: Tübingen-CL at SemEval-2026 Task 12: Reinforcement Learning and Verification for Abductive Reasoning (Liang et al., SemEval 2026)
Copy Citation:
PDF:: https://preview.aclanthology.org/ingest-acl-workshops/2026.semeval-1.330.pdf
Supplementarymaterial:: 2026.semeval-1.330.SupplementaryMaterial.zip

PDF Cite Search Supplementarymaterial Fix data