摘要
[目的/意义]通过主题模型分析和文本降维的方法,为"中国工程科技2035技术预见"提供备选技术方向的分析研究方案。[方法/过程]利用隐含狄利克雷分布(LDA)对中国工程科技2035的11个不同领域进行话题分析,同时通过T-分布邻域嵌入算法对技术项文本进行降维处理,将对应的技术项文本投影到二维平面上。[结果/结论]LDA模型可用于提取主题,确定技术项在主题上的概率分布,实现技术预见下技术项目的话题分布挖掘。文本形式数据的降维使用T-SNE法更为妥当。T-SNE方法的技术项可视化分析方法能够支撑专家对技术项(特别是交叉领域的技术项)所属领域进行分析,实现对不同领域技术方向的直观平面展示,有助于各领域整体把握所属领域的技术方向以及相关领域的技术方向。
- 单位