基于关键词共现网络的主题词提取算法

作者:张书谙; 王曦; 代继鹏; 隋毅; 孙仁诚*
来源:复杂系统与复杂性科学, 2023, 20(01): 74-80.
DOI:10.13306/j.1672-3813.2023.01.010

摘要

针对主题词提取中关键词提取不准确以及仅考虑单一相关性的问题,提出一种将集成思想与复杂网络相结合的主题词提取算法。首先通过集成算法提取话题数据的关键词,以提高关键词提取的准确性,其次改进传统词共现公式计算关键词的共现度,并建立关键词共现网络,在网络的基础上得到最优连通子图,同时以节点度中心性为权重衡量关键词重要性并从中映射出主题词。最后,使用微博话题数据集进行实例验证,证明该算法是有效的,并优于传统的词共现算法,并在青岛社区话题数据集中进行应用。