摘要

针对核心专利识别准确率低的问题,重构指标体系;针对传统核心专利识别方法处理不平衡数据效果欠佳,提出重采样技术与集成算法的组合模型。首先,在传统指标构建基础上加入专利发明人相关指标;其次,使用合成少数类过采样算法(SMOTE)增加少数类样本解决数据不平衡问题,采用局部离群因子(LOF)算法对新生成样本进行降噪处理,并与自适应集成算法(Adaboost)组合成SMOTE-LOF-Adaboost模型;最后,以智慧芽专利数据库中2012—2016年共22077条光伏领域专利数据为例,使用SVM、Adaboost、SMOTE-Adaboost、SMOTE-LOFAdaboost进行实证分析。结果显示SMOTE-LOF-Adaboost模型AUC均值0.977 6,Recall均值0.986 0,均优于其他3种模型,表明该模型能够提高核心专利预测的准确性。