基于python的分布式网络反爬虫数据有序性研究

朱镕申; 孙川钘; 潘虹

摘要

爬虫产生的负面影响导致网站无法正常访问、运行，故反爬虫技术应运而生，针对反爬虫数据存在的无序性问题，提出面向分布式网络反爬虫数据有序性研究，降低数据后续处理难度。基于python语言及其Scrapy结构，架构分步式网络反爬虫模型，采取人为纠错、主成分分析线性降维以及数据转换等预处理手段，获取特征清晰的反爬虫数据集；根据反爬虫数据样本集与训练集的合并集，结合有向图，利用k最邻近分类算法划分反爬虫数据类别，针对分布式网络反爬虫数据的无序性，设计比特序列递推算法，赋予反爬虫数据有序性。仿真阶段中，经对比百度图片与反爬取到的图片顺序，验证所提方法的有效性，通过探索带宽环境对数据有序性的影响可知，其有序性不受带宽环境影响。

单位
电子科技大学成都学院

收藏分享被引浏览

更新时间：2024-03-15 18:00

基于python的分布式网络反爬虫数据有序性研究

摘要

产品服务

站内浏览

服务支持

联系方式

科研之友