基于自提示多模态大语言模型和语义感知离散扩散模型的图像描述生成算法

Yufeng Chen, Aiwen Jiang, Qi Huang, Mingwen Wang


Abstract
"近年来,非自回归图像描述生成技术凭借其双向传播和并行词语生成的能力受到广泛关注。与此同时,基于离散扩散方法的研究也取得了显著进展。然而,在离散噪声添加与去噪过程中,现有方法仍面临图像文本关联性低、目标物体遗漏、描述准确性不足以及词语重复等关键问题。为应对这些挑战,我们提出一种基于语义感知的离散扩散模型。该模型通过可学习查询机制构建语义感知模块,以捕捉与图像物体级语义特征的潜在关联从而更好地生成图像描述。在此基础模型之上,我们进一步引入自提示优化框架,利用大语言模型生成与图像细节内容更相符的丰富描述。在COCO数据集上的综合实验表明,本方法在图像描述任务中取得一定的提升,其性能优于现有的相关方法。"
Anthology ID:
2025.ccl-1.32
Volume:
Proceedings of the 24th China National Conference on Computational Linguistics (CCL 2025)
Month:
August
Year:
2025
Address:
Jinan, China
Editors:
Maosong Sun, Peiyong Duan, Zhiyuan Liu, Ruifeng Xu, Weiwei Sun
Venue:
CCL
SIG:
Publisher:
Chinese Information Processing Society of China
Note:
Pages:
434–447
Language:
URL:
https://preview.aclanthology.org/ingest-ccl/2025.ccl-1.32/
DOI:
Bibkey:
Cite (ACL):
Yufeng Chen, Aiwen Jiang, Qi Huang, and Mingwen Wang. 2025. 基于自提示多模态大语言模型和语义感知离散扩散模型的图像描述生成算法. In Proceedings of the 24th China National Conference on Computational Linguistics (CCL 2025), pages 434–447, Jinan, China. Chinese Information Processing Society of China.
Cite (Informal):
基于自提示多模态大语言模型和语义感知离散扩散模型的图像描述生成算法 (Chen et al., CCL 2025)
Copy Citation:
PDF:
https://preview.aclanthology.org/ingest-ccl/2025.ccl-1.32.pdf