摘要
随着2022年北京冬奥会的临近,有必要构建一个与冬奥会相关的垂直领域知识图谱,但目前网络上没有较完整的冬奥会相关术语集,因此,需要用集合扩展的方法对冬奥会术语集进行补充。近年来,集合扩展的方法主要基于Word2Vec进行研究,但扩展平均词频较低的冬奥会中文领域时效果并不理想。该文提出了中英文双语迭代扩展的方法,利用数量多、词频较高的英文语料库和中英文跨语言同义词数据集解决中文数据集平均质量较低的问题。该文使用维基百科中冬奥会领域相关的词条组成的数据集进行实验。实验结果表明,与其他集合扩展方法相比,该文提出的扩展方法扩展出的新词质量提升了12%以上。
- 单位