Document-level Simplification and Illustration Generation Multimodal Coherence

Yuhang Liu; Mo Zhang; Zhaoyi Cheng; Sarah Ebling

Document-level Simplification and Illustration Generation Multimodal Coherence

Yuhang Liu, Mo Zhang, Zhaoyi Cheng, Sarah Ebling

Abstract

We present a novel method for document-level text simplification and automatic illustration generation aimed at enhancing information accessibility for individuals with cognitive impairments. While prior research has primarily focused on sentence- or paragraph-level simplification and text-to-image generation for narrative contexts this work addresses the unique challenges of simplifying long-form documents and generating semantically aligned visuals. The pipeline consists of three stages (1) discourse-aware segmentation using large language models (2) visually grounded description generation via abstraction and (3) controlled image synthesis using state-of-the-art diffusion models including DALLE 3 and FLUX1-dev. We further incorporate stylistic constraints to ensure visual coherence and we conduct a human evaluation measuring comprehension semantic alignment and visual clarity. Experimental results demonstrate that our method effectively combines simplified text and visual content with generated illustrations enhancing textual accessibility.

Anthology ID:: 2025.tsar-1.2
Volume:: Proceedings of the Fourth Workshop on Text Simplification, Accessibility and Readability (TSAR 2025)
Month:: November
Year:: 2025
Address:: Suzhou, China
Editors:: Matthew Shardlow, Fernando Alva-Manchego, Kai North, Regina Stodden, Horacio Saggion, Nouran Khallaf, Akio Hayakawa
Venues:: TSAR | WS
SIG:
Publisher:: Association for Computational Linguistics
Note:
Pages:: 19–35
Language:
URL:: https://preview.aclanthology.org/ingest-emnlp/2025.tsar-1.2/
DOI:
Bibkey:
Cite (ACL):: Yuhang Liu, Mo Zhang, Zhaoyi Cheng, and Sarah Ebling. 2025. Document-level Simplification and Illustration Generation Multimodal Coherence. In Proceedings of the Fourth Workshop on Text Simplification, Accessibility and Readability (TSAR 2025), pages 19–35, Suzhou, China. Association for Computational Linguistics.
Cite (Informal):: Document-level Simplification and Illustration Generation Multimodal Coherence (Liu et al., TSAR 2025)
Copy Citation:
PDF:: https://preview.aclanthology.org/ingest-emnlp/2025.tsar-1.2.pdf

PDF Cite Search Fix data