该文从各大网页中采集到农作物生长信息的数据,特征数据主要包括农作物生长信息、种植环境、生长周期等。为了更好地完成网络爬取的任务,收集到更多符合条件的网页信息,该文主要运用架构方式实现农作物生长数据的爬取,采用Nutch框架实现分布式网络爬虫,并运用二级哈希算法完成两次URL映射计算。实验结果表明,随着时间的推移,相对于单机,分布式网络爬取能够获取更大的数据信息量,工作效率更高。