摘要

随着文献资料的不断膨胀,非结构化的文本数据挖掘逐渐形成较为成熟又区别于结构化数据的方法体系。本文以海量科技文献为出发点,通过研究四类主题模型及目前可用的主要软件和技术,以处理不同条件下的文本数据问题,找到海量科技文献集合中的关键主题,实现分类或预测的统计功能。

  • 单位
    中国科协创新战略研究院