Xiaodong Yan


2020

pdf
基于子词级别词向量和指针网络的朝鲜语句子排序(Korean Sentence Ordering Based on Sub Word Level Word Vector and Pointer Network)
Xiaodong Yan (闫晓东) | Xiaoqing Xie (解晓庆)
Proceedings of the 19th Chinese National Conference on Computational Linguistics

句子排序是多文档摘要系统和机器阅读理解中重要的任务之一,排序的质量将直接 影响摘要和答案的连贯性与可读性。因此,本文采用在中英文上大规模使用的深度 学习方法,同时结合朝鲜语词语形态变化丰富的特点,提出了一种基于子词级别词 向量和指针网络的朝鲜语句子排序模型,其目的是解决传统方法无法挖掘深层语义 信息问题。 本文提出基于形态素拆分的词向量训练方法(MorV),同时对比子词n元 词向量训练方法(SG),得到朝鲜语词向量;采用了两种句向量方法:基于卷积神经网 络(CNN)、基于长短时记忆网络(LSTM),结合指针网络分别进行实验。结果表明本文 采用MorV和LSTM的句向量结合方法可以更好地捕获句子间的语义逻辑关系,提升句 子排序的效果。 关键词: 词向量 ;形态素拆分 ;指针网络 ;句子排序

pdf
基于统一模型的藏文新闻摘要(Abstractive Summarization of Tibetan News Based on Hybrid Model)
Xiaodong Yan (闫晓东) | Xiaoqing Xie (解晓庆) | Yu Zou (邹煜) | Wei Li (李维)
Proceedings of the 19th Chinese National Conference on Computational Linguistics

Seq2seq神经网络模型在中英文文本摘要的研究中取得了良好的效果,但在低资源语言的文本摘要研究还处于探索阶段,尤其是在藏语中。此外,目前还没有大规模的标注语料库进行摘要提取。本文提出了一种生成藏文新闻摘要的统一模型。利用TextRank算法解决了藏语标注训练数据不足的问题。然后,采用两层双GRU神经网络提取代表原始新闻的句子,减少冗余信息。最后,使用基于注意力机制的Seq2Seq来生成理解式摘要。同时,我们加入了指针网络来处理未登录词的问题。实验结果表明,ROUGE-1评分比传统模型提高了2%。 关键词:文本摘要;藏文;TextRank; 指针网络;Bi-GRU