摘要
[目的]克服论文与专利之间语言特征差异的障碍,将论文和专利数据按照研究主题集成融合。 [方法]以维基百科为基本分类体系,通过半自动方式构建少量标注集,设计半监督深度文本聚类模型将相似主题的论文与专利聚类融合,最后设计指标评估数据融合结果的质量。 [结果]模型在两个数据集上的聚类准确率比其他基线模型提升了2.4~11.9个百分点,数据融合结果的质量评估得分超过0.9,优于基线模型,可以在已知主题的基础上补充研究主题。 [局限]未利用融合数据开展实证分析,聚类数目需要人工确定。 [结论]模型可以从论文和专利差异化的文本中提取与主题相关的特征,有效地实现数据融合。
- 单位