基于词频和情景语义的产品特征提取方法

作者:陈可嘉*; 郑晶晶; 靳健; 赵政
来源:广西大学学报(自然科学版), 2020, 45(06): 1413-1422.
DOI:10.13624/j.cnki.issn.1001-7445.2020.1413

摘要

为解决目前产品特征提取方法在种子特征词集构建上存在需要大量人工标注、代表性不足等问题,提出一种基于词频和情景语义的产品特征提取方法。通过少量高频名词和关联规则构建种子特征词集,采用神经网络语言模型进行词向量训练,再通过计算向量间余弦相似度对种子特征词集进行扩充,最后经人工分类后得到完整的产品特征词典。实验结果显示,该方法采用种子特征词集相似度排名前九的单词(top9)来进行产品特征扩充时效果最好,F1值达到了76.44%。此外,与K-means+Word2vec、LDA等方法在top5,top10,top15,top20水平上的对比实验表明,无论是准确率、召回率还是F1值,该方法都更优。