摘要
【目的】使用大数据和人工智能技术研究基于寄递大数据的“互联网+寄递”新型涉烟犯罪分析方法。【方法】使用中文分词技术对寄递大数据进行预处理。提出了“寄递时空模式”新概念并计算其时域和频域统计量作为时空特征。使用特征选择和降维方法计算时空特征集合中的优选特征,并比较不同分类器算法结合优选特征构建的涉烟犯罪分析模型的性能。【结果】(1)提出的时空特征具有区分涉烟和不涉烟寄递数据的能力。随机森林和GBDT分类器整体性能最好,在准确率、阳性和阴性预测值等指标上均达到0.94以上。(2)基于优选特征建立的分析模型可以取得和初始特征模型接近的预测结果,优选特征数据储存量仅为原始特征数据的40%。(3)CFS特征选择方法选出的优选特征对涉烟预测模型结果的可解释性提供了依据。(4)初步实验表明本文方法可满足寄递涉烟分析的实时性要求。【结论】基于“寄递时空模式”计算的时空特征结合分类器可区分涉烟和不涉烟寄递数据。
- 单位