摘要
电商领域的文本通常不遵循通用领域文本的表达方式,导致传统短语挖掘方法在电商领域文本中的挖掘精度较低。为此,提出一种基于协同训练的电商领域短语挖掘方法。通过基于语义特征的短语分类模型来有效检测电商领域文本中的反序表达,构建协同训练的短语挖掘框架,以降低领域语料中标注训练数据的成本,在此基础上,利用Stacking方法集成统计模型和语义模型的优点,提升模型整体挖掘性能。在淘宝网查询语料上的实验结果表明,相比于ClassPhrase、AutoPhrase方法,该方法具有更高的精度和召回率。
- 单位