@inproceedings{gong-xin-etal-2025-ti,
title = "Ti-{MISO}:基于{T}i{L}amb的藏文多模态生成式文本摘要",
author = "巩鑫, 巩鑫 and
Yan, Xiaodong and
常浩远, 常浩远 and
Tian, Jinchao",
editor = "Sun, Maosong and
Duan, Peiyong and
Liu, Zhiyuan and
Xu, Ruifeng and
Sun, Weiwei",
booktitle = "Proceedings of the 24th {C}hina National Conference on Computational Linguistics ({CCL} 2025)",
month = aug,
year = "2025",
address = "Jinan, China",
publisher = "Chinese Information Processing Society of China",
url = "https://preview.aclanthology.org/ingest-ccl/2025.ccl-1.41/",
pages = "551--562",
abstract = "``为 了 解 决 现 有 单 一 文 本 特 征 生 成 的 藏 文 摘 要 质 量 较 低 的 问 题 , 提 出 了 一 种 基于TiLamb的 多 模 态 生 成 式 文 本 摘 要 模 型{---}{---}Ti-MISO。 该 模 型 采 用ViT(Vision Transformer)模型从图像中提取视觉特征,同时利用预训练微调的TiLamb(Tibetan Large Language Model Base)模型提取藏文文本特征,再通过跨模态交叉注意力机制实现图文特征深层次融合,最终将融合的特征送入模型,借助束搜索算法平衡生成质量更高的摘要。为验证方法有效性,与基于相同语料的其他四种模型进行了对比实验。实验结果表明,Ti-MISO在ROUGE-1、ROUGE-2、ROUGE-L和BLEU四项评价指标上均取得最佳成绩,显示出模型在融合视觉与语言信息、提升摘要质量方面的显著优势。此外,通过一系列消融实验进一步验证了采用ViT模型进行图像特征提取及交叉注意力融合策略的重要性。加入图像信息后采用交叉注意力机制进行特征融合,使融合后的特征保留更多关键信息,帮助模型更加精确地捕捉重点,从而生成的摘要在概括性和可读性上都有明显提升。''"
}Markdown (Informal)
[Ti-MISO:基于TiLamb的藏文多模态生成式文本摘要](https://preview.aclanthology.org/ingest-ccl/2025.ccl-1.41/) (巩鑫 et al., CCL 2025)
ACL
- 巩鑫 巩鑫, Xiaodong Yan, 常浩远 常浩远, and Jinchao Tian. 2025. Ti-MISO:基于TiLamb的藏文多模态生成式文本摘要. In Proceedings of the 24th China National Conference on Computational Linguistics (CCL 2025), pages 551–562, Jinan, China. Chinese Information Processing Society of China.