摘要

【目的】设计主题模型结合流形学习文本特征降维可视化方案,更有效地发现与更直观地展示科研基金资助布局。【方法】基于美国NSF信息与智能系统(IIS)10年(2008–2017)的基金资助项目数据,利用聚类算法结合人工判读构建项目主题标签;利用TF-IDF向量空间模型与LSA潜在语义分析主题模型分别构建项目申请书高维特征,采用流形学习中t-SNE非线性降维算法将高维特征映射到二维或三维空间中可视化展示;基于构建的项目主题标签结合人工判读检验可视化效果。【结果】实验结果表明,t-SNE算法结合潜在语义分析模型在实验数据降维效果明显,可视化图谱不论在二维还是三维空间中,相同主题项目有较好的聚集性,主题间同样显示了清晰的轮廓和分界。【局限】算法参数的预设与调整需人工参与,未对不同资助机构的基金文本数据的适用性进行验证。【结论】该方法是可行的且可视化图谱能够直观地反映资助机构的资助布局,对科研管理与决策者审视宏观科研布局能够起到辅助作用。