Ti-MISO:基于TiLamb的藏文多模态生成式文本摘要

巩鑫 巩鑫, Xiaodong Yan, 常浩远 常浩远, Jinchao Tian


Abstract
"为 了 解 决 现 有 单 一 文 本 特 征 生 成 的 藏 文 摘 要 质 量 较 低 的 问 题 , 提 出 了 一 种 基于TiLamb的 多 模 态 生 成 式 文 本 摘 要 模 型——Ti-MISO。 该 模 型 采 用ViT(Vision Transformer)模型从图像中提取视觉特征,同时利用预训练微调的TiLamb(Tibetan Large Language Model Base)模型提取藏文文本特征,再通过跨模态交叉注意力机制实现图文特征深层次融合,最终将融合的特征送入模型,借助束搜索算法平衡生成质量更高的摘要。为验证方法有效性,与基于相同语料的其他四种模型进行了对比实验。实验结果表明,Ti-MISO在ROUGE-1、ROUGE-2、ROUGE-L和BLEU四项评价指标上均取得最佳成绩,显示出模型在融合视觉与语言信息、提升摘要质量方面的显著优势。此外,通过一系列消融实验进一步验证了采用ViT模型进行图像特征提取及交叉注意力融合策略的重要性。加入图像信息后采用交叉注意力机制进行特征融合,使融合后的特征保留更多关键信息,帮助模型更加精确地捕捉重点,从而生成的摘要在概括性和可读性上都有明显提升。"
Anthology ID:
2025.ccl-1.41
Volume:
Proceedings of the 24th China National Conference on Computational Linguistics (CCL 2025)
Month:
August
Year:
2025
Address:
Jinan, China
Editors:
Maosong Sun, Peiyong Duan, Zhiyuan Liu, Ruifeng Xu, Weiwei Sun
Venue:
CCL
SIG:
Publisher:
Chinese Information Processing Society of China
Note:
Pages:
551–562
Language:
URL:
https://preview.aclanthology.org/ingest-ccl/2025.ccl-1.41/
DOI:
Bibkey:
Cite (ACL):
巩鑫 巩鑫, Xiaodong Yan, 常浩远 常浩远, and Jinchao Tian. 2025. Ti-MISO:基于TiLamb的藏文多模态生成式文本摘要. In Proceedings of the 24th China National Conference on Computational Linguistics (CCL 2025), pages 551–562, Jinan, China. Chinese Information Processing Society of China.
Cite (Informal):
Ti-MISO:基于TiLamb的藏文多模态生成式文本摘要 (巩鑫 et al., CCL 2025)
Copy Citation:
PDF:
https://preview.aclanthology.org/ingest-ccl/2025.ccl-1.41.pdf