摘要
针对常见的分布式网络爬虫提出了一种对策,研究了爬虫检测的方法,并分析了分布式爬虫如何绕过这些方法。通过关注网络流量遵循功率分配的属性来检测分布式爬虫。当我们按请求数量对网页进行排序时,大多数请求都集中在最常请求的网页上。此外,还会有一些普通用户通常不会要求的网页。但是爬虫会请求这些网页,因为它们的算法旨在通过解析网页来迭代请求,以收集爬虫遇到的每个项目。因此可以假设,如果某些IP地址频繁用于请求位于功率分配图长尾区域的网页,则这些IP地址可以归类为爬虫节点。网络流量数据的实验结果表明,该方法可以有效地识别出0.02%误报的分布式爬虫。
- 单位