摘要
探索构建准确、有效的领域新兴趋势分析框架,对于新兴趋势研判、舆情监测等情报工作具有一定的意义。首先,基于N-Gram模型抽取蕴含时间标签的科技文献文本数据中的多元词汇特征Bi-Gram与Tri-Gram;其次,利用分段线性回归(piecewise linear regression,PWLR)模型对Bi-Gram、Tri-Gram进行分段拟合,探测多元词汇在近期时间线上的新兴特征,准确识别有发展潜力的新兴词汇;最后,基于上一步的新兴词汇判别结果利用层次聚类算法识别领域新兴趋势并进行可视化分析。通过对基因编辑领域进行实证研究,识别出基因编辑领域的主要新兴趋势有CRISPR-Cas9技术、基因治疗、动植物基因编辑,验证了本研究提出方法的可行性和有效性。
- 单位