摘要
目前,在国内高校中程序设计课程的资源库建设工作尚未普及,大多数教学资源存在较为严重的老旧、重复等问题,难以满足师生日益增长的对大量新颖教学资源的需求。针对现在流行的网络爬虫框架进行分析和选择,在现有框架的基础上设计了一种适合资源库建设的爬虫系统,利用爬虫的自动化特性完成教学资源库的内容获取及入库工作。同时,选用Scrapyredis对爬虫进行拓展,利用Redis实现对目标网站资源的分布式爬取,提高获取资源的速度。选用SimHash算法对爬取到的资源内容进行相似度判别,过滤掉相似度过高的资源,完成对资源库的增量更新,提高获取到的资源的质量。经测试,研究的系统初步满足资源库建设的自动化需求,能够获取有效的教学资源。
- 单位