摘要
针对通用搜索引擎专业性不够、查准率较低的问题,基于Nutch开源搜索引擎,采用基于本地词库和动态加载词库的正向迭代最细粒度切分算法实现中文分词。基于特征词和元数据标签的空间向量模型实现就业领域主题相关性判定,基于MapReduce引入网页链入链接权重因子和时间衰减因子改进LinkRank排序算法等对Nutch进行二次开发,并在网页信息抓取和过滤、就业信息搜索和特征词推荐等环节引入就业领域本体信息,采用Java框架技术对用户查询接口进行了二次开发,提供了如关键字智能提醒、定制爬虫、二次查找、设定查询结果日期、订阅查询等扩展查询接口,设计并实现了基于Nutch的就业垂直搜索引擎。实验结果表明,基于Nutch的就业垂直搜索引擎具有较高的查准率,可以满足用户专业检索的需求。
- 单位