CCL25-Eval任务8系统报告:基于规则奖励与自主思考强化学习的中文电子病历ICD诊断编码探索

Zou You, Lei Zhang, Xiaodong Liang, Kundong Mo, Guozitao Guozitao, Feng Wei, Chenzi Wang


Abstract
"世界卫生组织国际疾病分类ICD诊断编码的自动生成是医疗信息化的核心挑战,面临主诊断单标签分类准确性不足、其他诊断多标签预测不完整以及长尾分布等技术瓶颈。本文系统研究探索了大语言模型在中文电子病历ICD诊断编码任务中的微调范式创新,针对生成式微调、判别式微调,以及强化学习分别提出了不同的微调训练策略。其中,创新性地设计针对医疗特性的基于规则奖励的强化学习框架(RBRs-RL),通过动态难度校准、Token级梯度优化和超长奖励塑造策略改进了GRPO算法的效率和性能,同时结合提出的策略轮动数据增强迭代训练(SRADIT)策略,实现了强化微调性能上限的提升。此外,本文还系统比较了生成式与判别式微调在中文诊断ICD编码任务中的性能边界,同时构建了端到端的临床决策优化框架,为奖励微调提供有效路径。并且针对推理阶段,本文设计了一种温度调节集成共识预测方法(TCECP),提升了推理的稳定性和可靠性。最后基于Qwen2.5-7B模型的微调实验结果表明,通过本文提出的优化后的RBR-R1式强化微调方法,在CCL25-Eval任务朸的A榜和B榜分别取得80.98和82.33的优异成绩,其效果显著超越传统SFT的性能上限。综上所述,本文的探索与发现为医疗诊断编码系统的实际应用提供了重要的技术参考。"
Anthology ID:
2025.ccl-2.38
Volume:
Proceedings of the 24th China National Conference on Computational Linguistics (CCL 2025)
Month:
August
Year:
2025
Address:
Jinan, China
Editors:
Hongfei Lin, Bin Li, Hongye Tan
Venue:
CCL
SIG:
Publisher:
Chinese Information Processing Society of China
Note:
Pages:
322–330
Language:
URL:
https://preview.aclanthology.org/ingest-ccl/2025.ccl-2.38/
DOI:
Bibkey:
Cite (ACL):
Zou You, Lei Zhang, Xiaodong Liang, Kundong Mo, Guozitao Guozitao, Feng Wei, and Chenzi Wang. 2025. CCL25-Eval任务8系统报告:基于规则奖励与自主思考强化学习的中文电子病历ICD诊断编码探索. In Proceedings of the 24th China National Conference on Computational Linguistics (CCL 2025), pages 322–330, Jinan, China. Chinese Information Processing Society of China.
Cite (Informal):
CCL25-Eval任务8系统报告:基于规则奖励与自主思考强化学习的中文电子病历ICD诊断编码探索 (You et al., CCL 2025)
Copy Citation:
PDF:
https://preview.aclanthology.org/ingest-ccl/2025.ccl-2.38.pdf