基于细粒度时空建模的语音驱动手势生成模型

Haocong Wan; Changhong Liu; Hai Yang; Aiwen Jiang; Mingwen Wang

基于细粒度时空建模的语音驱动手势生成模型

Haocong Wan, Changhong Liu, Hai Yang, Aiwen Jiang, Mingwen Wang

Abstract

"语音驱动手势生成技术根据输入的语音自动生成丰富的虚拟角色动作,在数字动画、虚拟现实和人机交互等领域具有广泛的应用前景。虽然现有方法在时序连贯性方面取得一定进展,但由于缺乏对关节间局部交互的显式建模,生成的肢体动作往往存在机械感且缺乏自然性。针对这一问题,提出一种基于细粒度时空注意力的扩散模型,从细粒度层面建模骨架关节点间的动态依赖关系。具体而言,设计了一种时空Transformer,其中空间注意力层显式建模了关节间的空间结构关系,而时序注意力层捕获手势运动的动态性。此外,通过自适应实例归一化技术AdaIN引入说话者身份控制,实现个性化手势生成。在BEAT、BEAT2和SHOW数据集上验证了所提模型的有效性。"

Anthology ID:: 2025.ccl-1.51
Volume:: Proceedings of the 24th China National Conference on Computational Linguistics (CCL 2025)
Month:: August
Year:: 2025
Address:: Jinan, China
Editors:: Maosong Sun, Peiyong Duan, Zhiyuan Liu, Ruifeng Xu, Weiwei Sun
Venue:: CCL
SIG:
Publisher:: Chinese Information Processing Society of China
Note:
Pages:: 684–695
Language:
URL:: https://preview.aclanthology.org/ingest-ccl/2025.ccl-1.51/
DOI:
Bibkey:
Cite (ACL):: Haocong Wan, Changhong Liu, Hai Yang, Aiwen Jiang, and Mingwen Wang. 2025. 基于细粒度时空建模的语音驱动手势生成模型. In Proceedings of the 24th China National Conference on Computational Linguistics (CCL 2025), pages 684–695, Jinan, China. Chinese Information Processing Society of China.
Cite (Informal):: 基于细粒度时空建模的语音驱动手势生成模型 (Wan et al., CCL 2025)
Copy Citation:
PDF:: https://preview.aclanthology.org/ingest-ccl/2025.ccl-1.51.pdf

PDF Cite Search Fix data