摘要
针对传统方法筛选用户访问记录过程中,抓取页面行为特征不够全面,影响了用户信息采集成功率等问题,提出基于网络爬虫结合关联大数据的用户信息提取方法。利用网页爬虫技术,协助浏览器抓取网络页面,统计访问模式和网页浏览内容,获取历史行为数据,挖掘用户感兴趣的关联大数据,对行为特征进行预测评分,排序其重要程度,得到用户信息提取列表,进一步筛选列表页面信息,得到能够反映用户兴趣的资源信息。选取时间为30天的手机网络流量数据集进行对比实验,结果表明,上述方法相比传统方法提高了信息采集成功率,提取用户信息更加完整,同时提高了提取信息准确率,提取结果与用户关联程度更高。
- 单位