Ti-MISO:基于TiLamb的藏文多模态生成式文本摘要

巩鑫 巩鑫; Xiaodong Yan; 常浩远 常浩远; Jinchao Tian

Ti-MISO:基于TiLamb的藏文多模态生成式文本摘要

巩鑫巩鑫, Xiaodong Yan, 常浩远常浩远, Jinchao Tian

Abstract

"为了解决现有单一文本特征生成的藏文摘要质量较低的问题 , 提出了一种基于TiLamb的多模态生成式文本摘要模型——Ti-MISO。该模型采用ViT(Vision Transformer)模型从图像中提取视觉特征,同时利用预训练微调的TiLamb(Tibetan Large Language Model Base)模型提取藏文文本特征,再通过跨模态交叉注意力机制实现图文特征深层次融合,最终将融合的特征送入模型,借助束搜索算法平衡生成质量更高的摘要。为验证方法有效性,与基于相同语料的其他四种模型进行了对比实验。实验结果表明,Ti-MISO在ROUGE-1、ROUGE-2、ROUGE-L和BLEU四项评价指标上均取得最佳成绩,显示出模型在融合视觉与语言信息、提升摘要质量方面的显著优势。此外,通过一系列消融实验进一步验证了采用ViT模型进行图像特征提取及交叉注意力融合策略的重要性。加入图像信息后采用交叉注意力机制进行特征融合,使融合后的特征保留更多关键信息,帮助模型更加精确地捕捉重点,从而生成的摘要在概括性和可读性上都有明显提升。"

Anthology ID:: 2025.ccl-1.41
Volume:: Proceedings of the 24th China National Conference on Computational Linguistics (CCL 2025)
Month:: August
Year:: 2025
Address:: Jinan, China
Editors:: Maosong Sun, Peiyong Duan, Zhiyuan Liu, Ruifeng Xu, Weiwei Sun
Venue:: CCL
SIG:
Publisher:: Chinese Information Processing Society of China
Note:
Pages:: 551–562
Language:
URL:: https://preview.aclanthology.org/ingest-ccl/2025.ccl-1.41/
DOI:
Bibkey:
Cite (ACL):: 巩鑫巩鑫, Xiaodong Yan, 常浩远常浩远, and Jinchao Tian. 2025. Ti-MISO:基于TiLamb的藏文多模态生成式文本摘要. In Proceedings of the 24th China National Conference on Computational Linguistics (CCL 2025), pages 551–562, Jinan, China. Chinese Information Processing Society of China.
Cite (Informal):: Ti-MISO:基于TiLamb的藏文多模态生成式文本摘要 (巩鑫 et al., CCL 2025)
Copy Citation:
PDF:: https://preview.aclanthology.org/ingest-ccl/2025.ccl-1.41.pdf

PDF Cite Search Fix data