摘要

近年来随着大型网络开放平台MOOC的大量出现,学习者需要花费大量的时间在不同的平台搜索自己满意的MOOC课程。为了提高MOOC教育资源的利用率,本文设计并实现面向MOOC领域的垂直搜索引擎系统,提出一种多线程并行紧耦合爬取和索引优化方案;根据课程列表的3种加载方法,实现课程相关信息的下载;分析被提取课程网页的特征定制相关信息抽取规则;提出一种检索排序相似度评分的优化方法。实验结果表明:该垂直搜索引擎在平均爬取及索引时间、排序效果和平均正确率均值等方面都有一定的提高,实现了MOOC教育资源的整合、存储和检索功能,满足了教育信息化发展的要求。

  • 单位
    湖北师范大学