摘要
在开放世界假设下,海量商品的属性提取任务是长期困扰电商采购系统的算法问题,提出了采用基于样本量的自适应样本增强策略,改进基于序列标注的问答属性提取算法,并辅以词典树的规则模型。其中,序列标注模型CRF-L4在测试集上的F1达到92%,而使用Softmax预测头的模型Softmax-L4由于缺少上下文语义的约束以及缺乏大规模训练集,表现相比序列标注模型降低了10%~15%。CRF-L4模型在样本数量超过100的属性下几乎都可以超过90%甚至95%,而Softmax-L4即使在样本量足够大的情况下,依然会出现F1小于60%以下的属性类别。模型实验还表明,数据增强对于CRF-L4模型几乎没有提升效果,对于Softmax-L4模型则有2.7%~6.6%的改进。
-
单位中国华能集团有限公司