模拟百度、谷歌等搜索工具,利用爬虫和大数据来实现一个简单的新闻信息检索系统。此系统大致分为5个模块:先是利用爬虫来爬取网页的信息;利用2-gram分词来将获取到的网页建立索引;将索引排序;利用hadoop分布式存取索引;最后搭建前后端实现界面交互。五个环节关系紧密,核心环节就是索引的建立,利用2-gram分词提取关键字,再利用TF-IDF矩阵对关键字打分,得到矩阵之后,就可以利用K-means来讲关键字分类了。然后再按照评分将索引排序就可以得到用户所需要的信息。