摘要
为使科研人员节省时间,高效阅读学术文献信息,提出一种学术文献摘要的主题聚类模型——优化主题数目作者层主题聚类模型(WBLDA)。首先在预处理阶段,自定义符合学术文献摘要特点的分词词典和停用词词典,解决学术文献摘要分词不准确的问题;在特征提取阶段,提出增大词频特征提取方法(ITF-IDF),使用词频放大法来增大词频,弱化文本长度对特征权重的影响,提取出更加符合学术文献摘要方向的特征词;最后,针对传统主题模型忽略作者这一重要属性的缺点,在主题聚类模型中引入学术文献摘要的作者信息,构建文档—主题+作者—词的WBLDA模型,同时使用贝叶斯准则优化主题聚类模型的主题数。通过对学术文献摘要数据集仿真实验结...
- 单位