Video-MMMU: Evaluating Knowledge Acquisition from Multidisciplinary Professional Videos

Kairui Hu; Penghao Wu; Fanyi Pu; Wang Xiao; Xiang Yue; Bo Li; Yuanhan Zhang; Ziwei Liu

Video-MMMU: Evaluating Knowledge Acquisition from Multidisciplinary Professional Videos

Kairui Hu, Penghao Wu, Fanyi Pu, Wang Xiao, Xiang Yue, Bo Li, Yuanhan Zhang, Ziwei Liu

Abstract

Humans acquire knowledge through three cognitive stages: perceiving information, comprehending knowledge, and adapting knowledge to solve novel problems. Videos serve as an effective medium for knowledge acquisition, facilitating a natural progression through these learning stages. However, existing video benchmarks fail to evaluate the knowledge acquisition capabilities of Large Multimodal Models (LMMs). To address this gap, we introduce Video-MMMU, a multi-modal, multi-discipline, multi-track benchmark that evaluates LMMs’ ability to acquire knowledge from college-level, educational videos. Video-MMMU features a collection of 300 videos and 900 human-annotated questions across six disciplines, evaluating knowledge acquisition through stage-aligned question-answer pairs: Perception, Comprehension, and Adaptation. Beyond measuring final accuracy, Video-MMMU proposes the performance gain metric that quantifies an LMM’s learning gain from video, shifting the focus of evaluation from absolute performance to learning efficiency. Our evaluation reveals a substantial gap between human learners and current LMMs, highlighting the need to improve models’ ability to learn and adapt knowledge from video content.

Anthology ID:: 2026.acl-long.1281
Volume:: Proceedings of the 64th Annual Meeting of the Association for Computational Linguistics (Volume 1: Long Papers)
Month:: July
Year:: 2026
Address:: San Diego, California, United States
Editors:: Maria Liakata, Viviane P. Moreira, Jiajun Zhang, David Jurgens
Venue:: ACL
SIG:
Publisher:: Association for Computational Linguistics
Note:
Pages:: 27798–27828
Language:
URL:: https://preview.aclanthology.org/ingest-acl/2026.acl-long.1281/
DOI:
Bibkey:
Cite (ACL):: Kairui Hu, Penghao Wu, Fanyi Pu, Wang Xiao, Xiang Yue, Bo Li, Yuanhan Zhang, and Ziwei Liu. 2026. Video-MMMU: Evaluating Knowledge Acquisition from Multidisciplinary Professional Videos. In Proceedings of the 64th Annual Meeting of the Association for Computational Linguistics (Volume 1: Long Papers), pages 27798–27828, San Diego, California, United States. Association for Computational Linguistics.
Cite (Informal):: Video-MMMU: Evaluating Knowledge Acquisition from Multidisciplinary Professional Videos (Hu et al., ACL 2026)
Copy Citation:
PDF:: https://preview.aclanthology.org/ingest-acl/2026.acl-long.1281.pdf
Checklist:: 2026.acl-long.1281.checklist.pdf

PDF Cite Search Checklist Fix data