基于多维度答案筛选的低资源语言开放域问答方法

Xinyang Wang, Xin Guan, Lifei Zhang, Zhengtao Yu, Yuxin Huang


Abstract
"开放域问答通常是从大规模数据中检索多个相关文档,并利用大语言模型对文档内容进行理解生成答案。然而,面向缅甸语、老挝语等低资源语言,检索到的数据可能存在问题无关的噪声文档,且大语言模型对低资源语言理解能力弱,生成答案错误率高。对此,提出一种基于多维度答案筛选的低资源语言开放域问答方法,将现有基于大模型直接理解文档生成答案的过程,转换成多个候选答案生成并筛选的多阶段过程。在答案生成阶段,从文档中抽取多样化的候选答案,在筛选阶段,设计多维度答案筛选策略,通过全局篇章答案验证、局部证据答案验证以及不同答案相关性排序,筛选出最优答案。在四种东南亚低资源语言开放域问答数据集上的实验结果表明,基于GPT-4o-mini、DeepSeek-V3等大语言模型底座,提出方法相比思维链、摘要验证等最优方法都取得了更好的性能,验证了多阶段答案生成筛选过程在低资源开放域问答任务中有效性。"
Anthology ID:
2025.ccl-1.5
Volume:
Proceedings of the 24th China National Conference on Computational Linguistics (CCL 2025)
Month:
August
Year:
2025
Address:
Jinan, China
Editors:
Maosong Sun, Peiyong Duan, Zhiyuan Liu, Ruifeng Xu, Weiwei Sun
Venue:
CCL
SIG:
Publisher:
Chinese Information Processing Society of China
Note:
Pages:
50–65
Language:
URL:
https://preview.aclanthology.org/ingest-ccl/2025.ccl-1.5/
DOI:
Bibkey:
Cite (ACL):
Xinyang Wang, Xin Guan, Lifei Zhang, Zhengtao Yu, and Yuxin Huang. 2025. 基于多维度答案筛选的低资源语言开放域问答方法. In Proceedings of the 24th China National Conference on Computational Linguistics (CCL 2025), pages 50–65, Jinan, China. Chinese Information Processing Society of China.
Cite (Informal):
基于多维度答案筛选的低资源语言开放域问答方法 (Wang et al., CCL 2025)
Copy Citation:
PDF:
https://preview.aclanthology.org/ingest-ccl/2025.ccl-1.5.pdf