PGA-SciRE:基于大语言模型的数据增强框架进行科学领域的关系(PGA-SciRE:Harnessing LLM on Data Augmentation for Enhancing Scientific Relation Extraction)
Zhou Yang (周洋), Dan Shimin (单世民), Wei Hongkui (魏宏夔), Zhao Zhehuan (赵哲焕), Feng Wenshuo (冯文铄)
Abstract
“关系提取旨在识别文本中提到的实体对之间的关系。大语言模型的进步对自然语言处理任务产生了巨大的影响。在这项工作中,我们针对科学领域的关系抽取任务,提出一个名为PGA的数据增强框架,用于提升模型在科学领域的关系抽取的性能。框架引入了两种数据增强的方式,利用大语言模型通过转述原训练集样本,得到句意相同但具备不同表述和形式的伪样本。以及指导大语言模型根据原训练集样本的关系和实体标签,生成暗含对应标签信息的句子。这两种伪样本分别与原数据集共同参与关系抽取模型的训练。实验中PGA框架提高了三个主流模型的科学领域内关系抽取的F1分数。同时,使用大语言模型获得样本也能有效减少人工标注数据的成本。”- Anthology ID:
- 2024.ccl-1.27
- Volume:
- Proceedings of the 23rd Chinese National Conference on Computational Linguistics (Volume 1: Main Conference)
- Month:
- July
- Year:
- 2024
- Address:
- Taiyuan, China
- Editors:
- Maosong Sun, Jiye Liang, Xianpei Han, Zhiyuan Liu, Yulan He
- Venue:
- CCL
- SIG:
- Publisher:
- Chinese Information Processing Society of China
- Note:
- Pages:
- 352–369
- Language:
- Chinese
- URL:
- https://preview.aclanthology.org/jlcl-multiple-ingestion/2024.ccl-1.27/
- DOI:
- Cite (ACL):
- Zhou Yang, Dan Shimin, Wei Hongkui, Zhao Zhehuan, and Feng Wenshuo. 2024. PGA-SciRE:基于大语言模型的数据增强框架进行科学领域的关系(PGA-SciRE:Harnessing LLM on Data Augmentation for Enhancing Scientific Relation Extraction). In Proceedings of the 23rd Chinese National Conference on Computational Linguistics (Volume 1: Main Conference), pages 352–369, Taiyuan, China. Chinese Information Processing Society of China.
- Cite (Informal):
- PGA-SciRE:基于大语言模型的数据增强框架进行科学领域的关系(PGA-SciRE:Harnessing LLM on Data Augmentation for Enhancing Scientific Relation Extraction) (Yang et al., CCL 2024)
- PDF:
- https://preview.aclanthology.org/jlcl-multiple-ingestion/2024.ccl-1.27.pdf