摘要
信息技术的发展,在便利用户生活的同时,也为不法分子进行诈骗活动提供了更便捷的方式,信息诈骗的影响日益严重。通过对通信用户的基础信息、语音通话、短信收发、网站流量记录等行为数据进行分析,基于普通用户和诈骗用户群体间差异较大的行为数据,构建特征向量,针对信息诈骗中样本不平衡问题设计自适应过采样算法进行数据平衡,并通过“阈值筛选”和“嵌入式筛选”降低样本噪声,采用XGBoost构建诈骗用户识别模型。实验表明,模型方法在两个独立数据集上表现良好,在85%精确率上诈骗用户召回率分别为90.8%和89.1%。
- 单位