Haochen You


2025

"扩散模型作为新一代生成模型,在文本引导图像生成任务中展现出卓越性能。然而,现有预训练扩散模型的训练目标通常无法直接对齐用户偏好或下游任务需求,导致其生成结果难以兼顾图文语义一致性与主观美学质量。为此,近年来研究者提出将强化学习引入扩散微调过程,使模型在奖励信号引导下优化生成策略,代表性方法如策略优化扩散模型与去噪扩散策略优化已取得显著成果。然而,此类方法所依赖的奖励函数多为黑盒式打分器,难以捕捉生成图像与输入文本之间的结构性语义关系,缺乏对模态间对齐结构的显式建模。为解决上述问题,本文提出一种融合强化学习与结构对齐正则的文本引导扩散模型微调方法GARD(Geometry-Aligned Reinforced Diffusion)。该方法在强化学习微调框架下,引入一种基于嵌入空间几何结构的对齐正则项,即通过计算图像与文本嵌入向量构成的平行多面体体积,衡量其语义对齐程度,并与奖励信号与散度正则共同构成统一优化目标,从而在提升生成质量的同时增强多模态语义一致性。实验结果表明,GARD 在多个公开数据集上相较于现有方法在语义一致性、审美得分与训练稳定性等方面均实现显著提升,验证了本文方法在多模态结构对齐建模与强化学习微调融合方面的有效性与通用性。"