摘要
随着信息化的发展,互联网上出现了越来越多的文档信息,如何根据用户的需要从海量的文档中快速获取相关信息成为了研究的热点。采用Python编程语言、Django Web应用框架、UWSGI Web服务器、Nignx代理服务器,基于TextRank关键词提取算法、倒排索引结构、Jaccard相似度计算以及MySQL数据库技术构建了汉英文本信息检索系统。该系统包含文本注册、文本检索和文本注销三个模块,可实现千万量级文本数量上的快速注册和快速检索功能,为构建舆情分析系统提供服务,并可根据人们特定的需求,扩展文本检索服务。
- 单位