摘要
【目的】有效地构建消费品缺陷领域词典,有助于了解专业领域动态与领域关键信息。【方法】首先,通过语料中的词频特征挖掘领域相关短语词;其次,使用TF-IDF算法构建领域词库以减少人工标注成本;最后,基于卷积神经网络(CNN)模型融入语义、位置信息进一步生成领域词典,提升领域词典的健壮性与泛化能力。【结果】实验结果表明,本文方法与统计学习方法相比,在准确率、召回率和F1值上提升了6%~9%。【局限】仅在消费品缺陷领域文本上构建词典,在其他领域的效果有待验证。【结论】基于CNN的消费品缺陷领域词典构建方法可以提升消费品缺陷领域词典的构建效果。
-
单位北京信息科技大学; 中国标准化研究院