摘要

【目的】针对淘宝商品上架自动类目识别需求,在电子商务领域中提出商品品名识别问题。【方法】通过合作方获取的大量商品交易数据,构建电商商品描述数据集,并对数据集人工标注;使用基于XGBoost模型的有监督机器学习算法,对电商商品描述短文本进行品名识别研究。【结果】实验结果表明,该算法对最终20059条数据集上的816种商品的识别准确率为85%,召回率为87%。【局限】商品种类不够完善,语料库中的商品种类和描述数量可进一步丰富。【结论】本研究在电子商务领域中尝试使用机器学习算法解决商品品名识别问题。实验证明本算法是合理的、有效的,具有实际应用价值。