FlagEvalMM: A Flexible Framework for Comprehensive Multimodal Model Evaluation

Zheqi He; Yesheng Liu; Jing-Shu Zheng; Xuejing Li; Jin-ge Yao; Bowen Qin; Richeng Xuan; Xi Yang

FlagEvalMM: A Flexible Framework for Comprehensive Multimodal Model Evaluation

Zheqi He, Yesheng Liu, Jing-Shu Zheng, Xuejing Li, Jin-Ge Yao, Bowen Qin, Richeng Xuan, Xi Yang

Abstract

We present FlagEvalMM, an open-source evaluation framework designed to comprehensively assess multimodal models across a diverse range of vision-language understanding and generation tasks, such as visual question answering, text-to-image/video generation, and image-text retrieval. We decouple model inference from evaluation through an independent evaluation service, thus enabling flexible resource allocation and seamless integration of new tasks and models. Moreover, FlagEvalMM utilizes advanced inference acceleration tools (e.g., vLLM, SGLang) and asynchronous data loading to significantly enhance evaluation efficiency. Extensive experiments show that FlagEvalMM offers accurate and efficient insights into model strengths and limitations, making it a valuable tool for advancing multimodal research. The framework is publicly accessible at https://github.com/flageval-baai/FlagEvalMM, with a demonstration video available at https://youtu.be/L7EtacjoM0k.

Anthology ID:: 2025.acl-demo.6
Volume:: Proceedings of the 63rd Annual Meeting of the Association for Computational Linguistics (Volume 3: System Demonstrations)
Month:: July
Year:: 2025
Address:: Vienna, Austria
Editors:: Pushkar Mishra, Smaranda Muresan, Tao Yu
Venue:: ACL
SIG:
Publisher:: Association for Computational Linguistics
Note:
Pages:: 51–61
Language:
URL:: https://preview.aclanthology.org/ingestion-acl-25/2025.acl-demo.6/
DOI:
Bibkey:
Cite (ACL):: Zheqi He, Yesheng Liu, Jing-Shu Zheng, Xuejing Li, Jin-Ge Yao, Bowen Qin, Richeng Xuan, and Xi Yang. 2025. FlagEvalMM: A Flexible Framework for Comprehensive Multimodal Model Evaluation. In Proceedings of the 63rd Annual Meeting of the Association for Computational Linguistics (Volume 3: System Demonstrations), pages 51–61, Vienna, Austria. Association for Computational Linguistics.
Cite (Informal):: FlagEvalMM: A Flexible Framework for Comprehensive Multimodal Model Evaluation (He et al., ACL 2025)
Copy Citation:
PDF:: https://preview.aclanthology.org/ingestion-acl-25/2025.acl-demo.6.pdf