Language Models as Continuous Self-Evolving Data Engineers

Peidong Wang; Ming Wang; Zhiming Ma; Xiaocui Yang; Shi Feng; Daling Wang; Yifei Zhang; Kaisong Song

Language Models as Continuous Self-Evolving Data Engineers

Peidong Wang, Ming Wang, Zhiming Ma, Xiaocui Yang, Shi Feng, Daling Wang, Yifei Zhang, Kaisong Song

Abstract

Large Language Models (LLMs) have demonstrated remarkable capabilities, yet their further evolution is often hampered by the scarcity of high-quality training data and the heavy reliance of traditional methods on expert-labeled data. This reliance sets a ceiling on LLM performance and is particularly challenging in low data resource scenarios where extensive supervision is unavailable. To address this issue, we propose a novel paradigm named LANCE (**LAN**guage models as **C**ontinuous self-**E**volving data engineers) that enables LLMs to train themselves by autonomously generating, cleaning, reviewing, and annotating data with preference information. Our approach demonstrates that LLMs can serve as continuous self-evolving data engineers, significantly reducing the time and cost of post-training data construction. Through iterative fine-tuning on Qwen2 series models, we validate the effectiveness of LANCE across various tasks, showing that it can maintain high-quality data generation and continuously improve model performance. Across multiple benchmark dimensions, LANCE results in an average score enhancement of **3.64** for Qwen2-7B and **1.75** for Qwen2-7B-Instruct. This autonomous data construction paradigm not only lessens reliance on human experts or external models but also ensures data aligns with human preferences, offering a scalable path for LLM self-improvement, especially in contexts with limited supervisory data. Code is available at: https://github.com/Control-derek/LANCE.

Anthology ID:: 2025.emnlp-main.914
Volume:: Proceedings of the 2025 Conference on Empirical Methods in Natural Language Processing
Month:: November
Year:: 2025
Address:: Suzhou, China
Editors:: Christos Christodoulopoulos, Tanmoy Chakraborty, Carolyn Rose, Violet Peng
Venue:: EMNLP
SIG:
Publisher:: Association for Computational Linguistics
Note:
Pages:: 18108–18127
Language:
URL:: https://preview.aclanthology.org/ingest-emnlp/2025.emnlp-main.914/
DOI:
Bibkey:
Cite (ACL):: Peidong Wang, Ming Wang, Zhiming Ma, Xiaocui Yang, Shi Feng, Daling Wang, Yifei Zhang, and Kaisong Song. 2025. Language Models as Continuous Self-Evolving Data Engineers. In Proceedings of the 2025 Conference on Empirical Methods in Natural Language Processing, pages 18108–18127, Suzhou, China. Association for Computational Linguistics.
Cite (Informal):: Language Models as Continuous Self-Evolving Data Engineers (Wang et al., EMNLP 2025)
Copy Citation:
PDF:: https://preview.aclanthology.org/ingest-emnlp/2025.emnlp-main.914.pdf
Checklist:: 2025.emnlp-main.914.checklist.pdf

PDF Cite Search Checklist Fix data