面向CQL的语料库检索引擎的高效实现(Efficient Implementation of a CQL-oriented Corpus Retrieval Engine)
Liu Tingchao (刘廷超), Lu Luming (鲁鹿鸣), Yang Liner (麟儿 杨), Wang Yu (王雨)
Abstract
“语料库检索工具在语言学研究领域具有举足轻重的地位,对于高效获取信息至关重要。然而,当前国内语料库检索工具在语料库检索语言上缺乏统一标准,尤其支持语料库查询语言(CQL)的中文语料库检索工具相对稀缺。在使用不同分词粒度的语料库工具进行中文语料库检索时,会遇到噪声或数据召回难问题。为应对这些挑战,我们研发了支持多粒度分词的CQL 解析器系统CAMELS:一款支持CQL 语句检索,且兼容多粒度分词,支持非词典词检索的语料库检索引擎。经过多种分词器的测试,该引擎展现出了优异的召回率,并在性能上超越了BlackLab的检索速度,为语言学工作者提供了更加易用、精准的检索工具。”- Anthology ID:
- 2024.ccl-1.4
- Volume:
- Proceedings of the 23rd Chinese National Conference on Computational Linguistics (Volume 1: Main Conference)
- Month:
- July
- Year:
- 2024
- Address:
- Taiyuan, China
- Editors:
- Maosong Sun, Jiye Liang, Xianpei Han, Zhiyuan Liu, Yulan He
- Venue:
- CCL
- SIG:
- Publisher:
- Chinese Information Processing Society of China
- Note:
- Pages:
- 46–56
- Language:
- Chinese
- URL:
- https://preview.aclanthology.org/fix-sig-urls/2024.ccl-1.4/
- DOI:
- Cite (ACL):
- Liu Tingchao, Lu Luming, Yang Liner, and Wang Yu. 2024. 面向CQL的语料库检索引擎的高效实现(Efficient Implementation of a CQL-oriented Corpus Retrieval Engine). In Proceedings of the 23rd Chinese National Conference on Computational Linguistics (Volume 1: Main Conference), pages 46–56, Taiyuan, China. Chinese Information Processing Society of China.
- Cite (Informal):
- 面向CQL的语料库检索引擎的高效实现(Efficient Implementation of a CQL-oriented Corpus Retrieval Engine) (Tingchao et al., CCL 2024)
- PDF:
- https://preview.aclanthology.org/fix-sig-urls/2024.ccl-1.4.pdf