基于网络爬虫的搜索引擎的设计与实现

作者:高文超; 李浩源; 徐永康
来源:电脑知识与技术, 2020, 16(30): 6-12.
DOI:10.14004/j.cnki.ckt.2020.3051

摘要

随着信息量的增多,为用户提供便捷的搜索服务也更加具有挑战性。大规模存储信息并精确搜索的代价是巨大的,人们需要在信息搜索的快捷性与成本中找到平衡。系统实现一个基于网络爬虫的搜索引擎。软件结构分为爬虫部分,数据库部分,前端显示部分。同时,描述了扩展成分布式爬虫的方法。硬件方面需要多台主机,软件方面包括Scrapy爬虫、数据库、Django框架。最终设计并实现了一个具有良好的健壮性和扩展性的网络爬虫系统。