摘要
针对目前资本市场上快速挖掘某种主题概念股票的需求,提出了一种新思路,该思路以上市公司的核心题材、主营收入和资本运作3项数据为基础,进行主题概念相关指数的分析和计算,最终以此指数作为标准推荐主题概念相关股票,并开发了一套数据抓取程序和Web应用程序。数据抓取程序利用定时组件Quartz从各大财经网站抓取全体上市公司已公开的各类基本信息,存入分布式文件系统HDFS中; Web应用程序接收用户输入的查询关键字组合,系统利用抓取的数据集从公司收入、投资和核心概念3方面分析和计算出公司与用户需要查询的关键字组合的相关指数,最后汇总为总相关指数,总相关指数越高的公司,其相关度越高,相关度越高的公司越有可能就是用户想要查找的相关主题概念公司。通过这3方面的结合,在公司的过去和未来,在定性和定量等多个方面都进行了相关度的挖掘,从而计算出来的相关性将更加可靠、准确。
-
单位安徽工业经济职业技术学院