基座模型训练中的数据与模型架构(Data and Model Architecture in Base Model Training)

Hang Yan (航 颜), Yang Gao (扬 高), Chaoye Fei (朝烨 费), Xiaopeng Yang (小珪 杨), Xipeng Qiu (锡鹏 邱)


Abstract
“ChatGPT以对话形式的交互方式,降低了使用大模型的门槛,因此迅速在全球范围内流行起来。尽管OpenAI并未公开ChatGPT的技术路线,但一些后续的工作宣称已经在开源的基座模型上复现了ChatGPT的性能。然而,尽管这些模型在某些评测上表现出与ChatGPT相似的性能,但在实际的知识量和推理能力上,它们仍然不如ChatGPT。为了更接近ChatGPT甚至GPT4的性能,我们需要对基座模型的训练进行更深入的研究。本文针对基座模型训练的数据以及模型架构进行讨论,首先总结了当前预训练数据的来源以及基本处理流程,并针对目前关注较少的代码预训练数据和中文预训练数据进行了分析;然后对当前已有基座模型的网络架构进行了回顾,并针对这些架构调整背后的动机进行了阐述。”
Anthology ID:
2023.ccl-2.1
Volume:
Proceedings of the 22nd Chinese National Conference on Computational Linguistics (Volume 2: Frontier Forum)
Month:
August
Year:
2023
Address:
Harbin, China
Editor:
Jiajun Zhang
Venue:
CCL
SIG:
Publisher:
Chinese Information Processing Society of China
Note:
Pages:
1–15
Language:
Chinese
URL:
https://aclanthology.org/2023.ccl-2.1
DOI:
Bibkey:
Cite (ACL):
Hang Yan, Yang Gao, Chaoye Fei, Xiaopeng Yang, and Xipeng Qiu. 2023. 基座模型训练中的数据与模型架构(Data and Model Architecture in Base Model Training). In Proceedings of the 22nd Chinese National Conference on Computational Linguistics (Volume 2: Frontier Forum), pages 1–15, Harbin, China. Chinese Information Processing Society of China.
Cite (Informal):
基座模型训练中的数据与模型架构(Data and Model Architecture in Base Model Training) (Yan et al., CCL 2023)
Copy Citation:
PDF:
https://preview.aclanthology.org/naacl-24-ws-corrections/2023.ccl-2.1.pdf