随着智慧校园的建设,各种校内网站平台纷纷涌现,复杂的网络环境使用户难以快速准确地找到所需信息。为此设计并实现了一种分布式架构的网站全文搜索引擎系统。该系统模块采用Docker进行部署,通过Scrapy、ElasticSearch、Redis、Java POI等技术,实现网站正文和附件的采集、内容提取、全文索引及检索功能,具有部署简单、扩展灵活的特点,弥补了多数私有搜索引擎只能检索HTML页面的缺点。