System Report for CCL25-Eval Task 5: Hierarchical Multi-Task Prompt Fine-Tuning and PPO Reinforcement for Classical Chinese Poetry Comprehension and Sentiment Reasoning

Jingjun Tang; Zhiwen Tang

System Report for CCL25-Eval Task 5: Hierarchical Multi-Task Prompt Fine-Tuning and PPO Reinforcement for Classical Chinese Poetry Comprehension and Sentiment Reasoning

Abstract

"We present a hierarchical multi-task framework to enhance classical Chinese poetry understand-ing and sentiment reasoning using large language models. Centered on Qwen2.5-14B-Instruction or Xunzi-Qwen-14B, we construct a 1,225-sample corpus of Tang and Song poems with parallel translations and multi-label sentiment annotations (e.g., nostalgia, patriotism, contemplation).The task is divided into comprehension, translation, and sentiment inference, each guided by dynamic prompting and task-specific templates. We employ mixed supervised fine-tuning to better capture syntactic and metaphorical patterns. For sentiment reasoning, we apply proximal policy optimization (PPO) with a custom reward function, boosting accuracy from 0.771 to 0.807(p < 0.01). Our model achieves a 0.714 comprehensive score, outperforming single-task base-lines by 12.6%. Ablation studies further confirm the benefits of multi-task learning in promoting cross-task knowledge transfer.Keywords: Classical Chinese Poetry, Multi-Task Fine-Tuning, Data Augmentation, ProximalPolicy Optimization"

Anthology ID:: 2025.ccl-2.23
Volume:: Proceedings of the 24th China National Conference on Computational Linguistics (CCL 2025)
Month:: August
Year:: 2025
Address:: Jinan, China
Editors:: Hongfei Lin, Bin Li, Hongye Tan
Venue:: CCL
SIG:
Publisher:: Chinese Information Processing Society of China
Note:
Pages:: 192–199
Language:
URL:: https://preview.aclanthology.org/ingest-ccl/2025.ccl-2.23/
DOI:
Bibkey:
Cite (ACL):: Jingjun Tang and Zhiwen Tang. 2025. System Report for CCL25-Eval Task 5: Hierarchical Multi-Task Prompt Fine-Tuning and PPO Reinforcement for Classical Chinese Poetry Comprehension and Sentiment Reasoning. In Proceedings of the 24th China National Conference on Computational Linguistics (CCL 2025), pages 192–199, Jinan, China. Chinese Information Processing Society of China.
Cite (Informal):: System Report for CCL25-Eval Task 5: Hierarchical Multi-Task Prompt Fine-Tuning and PPO Reinforcement for Classical Chinese Poetry Comprehension and Sentiment Reasoning (Tang & Tang, CCL 2025)
Copy Citation:
PDF:: https://preview.aclanthology.org/ingest-ccl/2025.ccl-2.23.pdf

PDF Cite Search Fix data