基于大数据的科研热点分析系统研究

作者:郭润平; 陈保国; 熊桂芳
来源:自动化与仪器仪表, 2022, (05): 136-141.
DOI:10.14016/j.cnki.1001-9227.2022.05.136

摘要

为解决科研热点分析的传统数据处理算法中未曾考虑文本语义分析、以及编码方式造成的服务器压力和存储压力过大、最优主题个数求解算法主观性过高等问题,从模型改进入手,引入Word2Vec模型来改进传统LDA主题模型,获得Word2Vec-LDA模型;从编码方式入手,将描述向量特征的One-hot编码改为词袋模型编码并进行优化,实现对向量编码的降维,进而减轻服务器压力和存储压力;从算法改进入手,对最优主题个数求解算法进行设计,使求解算法具有极大的客观性。最后通过数据实验进行模型的性能验证和分析结果可视化展示。实验结果表明,设计的科研热点分析在主题强度、稳定性、相似性三方面的结果都满足设计要求;改进后的模型困惑值分布远高于传统LDA主题模型,具有更好的分类效果。基于上述分析可知,最终设计的科研热点分析模型基本满足设计要求。