mPresenter: An Agentic Framework for Generating Multilingual Presentation Videos from Scientific Papers

Wenhan Han; Xiao Xiao; Mykola Pechenizkiy; Meng Fang

mPresenter: An Agentic Framework for Generating Multilingual Presentation Videos from Scientific Papers

Wenhan Han, Xiao Xiao, Mykola Pechenizkiy, Meng Fang

Abstract

Generating presentation videos from scientific papers is challenging due to the need for long-document discourse planning and cross-lingual grounding. Existing Paper2Video systems are largely monolingual and often rely on single-pass pipelines, which can limit the coherence and informativeness of the resulting presentations.We present mPresenter, a multilingual agentic Paper2Video system that decomposes the task into planning, audience-oriented critique, layout-aware slide generation, and multilingual figure interpretation, enabling iterative refinement at the discourse level. To facilitate reproducible evaluation, we also introduce mPreBench, a multilingual benchmark that evaluates presentation videos via question answering as a proxy for effective information transfer. Experimental results indicate that mPresenter improves question-answering accuracy relative to prior systems, while maintaining affordable cost and latency.

Anthology ID:: 2026.findings-acl.805
Volume:: Findings of the Association for Computational Linguistics: ACL 2026
Month:: July
Year:: 2026
Address:: San Diego, California, United States
Editors:: Maria Liakata, Viviane P. Moreira, Jiajun Zhang, David Jurgens
Venue:: Findings
SIG:
Publisher:: Association for Computational Linguistics
Note:
Pages:: 16358–16371
Language:
URL:: https://preview.aclanthology.org/ingest-acl-workshops/2026.findings-acl.805/
DOI:
Bibkey:
Cite (ACL):: Wenhan Han, Xiao Xiao, Mykola Pechenizkiy, and Meng Fang. 2026. mPresenter: An Agentic Framework for Generating Multilingual Presentation Videos from Scientific Papers. In Findings of the Association for Computational Linguistics: ACL 2026, pages 16358–16371, San Diego, California, United States. Association for Computational Linguistics.
Cite (Informal):: mPresenter: An Agentic Framework for Generating Multilingual Presentation Videos from Scientific Papers (Han et al., Findings 2026)
Copy Citation:
PDF:: https://preview.aclanthology.org/ingest-acl-workshops/2026.findings-acl.805.pdf
Checklist:: 2026.findings-acl.805.checklist.pdf

PDF Cite Search Checklist Fix data