摘要
Lucene是Java实现全文搜索引擎的工具包,短小精悍,功能强大,近来被广泛使用。文章对其核心"索引-检索"进行了研究,搭建该平台并引入了中文分词,可完成对中文的搜索,以及实现"与"和"非"功能。在排序部分,分别用向量空间模型和BM25实现。在系统实现时,主要介绍了3种评测方法,对VSM和BM25模型排序算法进行了评测,并进行对比分析。
- 单位
Lucene是Java实现全文搜索引擎的工具包,短小精悍,功能强大,近来被广泛使用。文章对其核心"索引-检索"进行了研究,搭建该平台并引入了中文分词,可完成对中文的搜索,以及实现"与"和"非"功能。在排序部分,分别用向量空间模型和BM25实现。在系统实现时,主要介绍了3种评测方法,对VSM和BM25模型排序算法进行了评测,并进行对比分析。