摘要

目的:针对传统核心专利识别方法处理不平衡数据效果欠佳,和识别准确率低的问题,特重构指标体系,提出重采样与集成算法的组合模型。方法:首先,在传统专利指标的基础上,增加专利发明人指标;其次,采用自适应采样算法ADASYN增加少数类样本以解决不平衡问题,使用局部离群因子LOF对采样后的样本进行降噪,并与随机森林RF组合,形成ADASYN-LOF-RF模型;最后,对智慧芽平台中2012—2016年22 077条光伏专利进行分类预测。结果:ADASYN-LOF-RF的准确率A均值为92.28%、召回率R均值为98.04%,优于SVM、RF、ADASYN-RF模型。结论:本组合模型具有很好的分类性能,能够有效识别出核心专利。