一种融合Wikipedia类图和主题特征的短文本检索方法

作者:李璞*; 肖宝; 孙玉胜; 张志锋; 邓璐娟
来源:河南师范大学学报(自然科学版), 2019, 47(06): 22-30.
DOI:10.16366/j.cnki.1000-2367.2019.06.004

摘要

社交网络的快速发展催生出大量短文本数据.鉴于短文本具有长度短、信息量少、特征稀疏、语法不规则等特点,根据Wikipedia类图(Wikipedia Category Graph,WCG)中包含的结构信息,通过分析其中的主题特征,提出一种语义特征选择及关联度计算方法.以此为基础,通过计算用户查询与目标短文本之间的语义关联度,实现对短文本的检索和排序.最后通过在Twitter子集上的实验结果表明,融合Wikipedia类图和主题特征的短文本检索方法比现有一些检索方法在评估指标MAP,P@k及R-Prec上具有更好的效果.