网络爬虫技术在农业生产数据获取中的研究和应用

作者:王晓楠; 李杨; 张海峰; 张宇; 杨雪峰
来源:农业工程技术(温室园艺), 2021, 41(03): 49-51.
DOI:10.16815/j.cnki.11-5436/s.2021.03.008

摘要

该文从各大网页中采集到农作物生长信息的数据,特征数据主要包括农作物生长信息、种植环境、生长周期等。为了更好地完成网络爬取的任务,收集到更多符合条件的网页信息,该文主要运用架构方式实现农作物生长数据的爬取,采用Nutch框架实现分布式网络爬虫,并运用二级哈希算法完成两次URL映射计算。实验结果表明,随着时间的推移,相对于单机,分布式网络爬取能够获取更大的数据信息量,工作效率更高。

  • 单位
    黑龙江省农业科学院作物资源研究所

全文