摘要
文本资源是专题数据库建设的重要组成部分,亦是目前人文社科研究获取领域知识的主要途径。针对专题文本资源主题相近、内容专深、特征相似的特点,基于长短期记忆模型,提出一种融合注意力机制的人文社科专题文本资源分类模型。采用词向量完成样本文本数字化,利用长短期记忆模型进行语义特征提取,并引入注意力机制,突出关键短语以优化特征提取过程,最后采用Softmax给出专题文本分类结果。通过爬取"新华丝路"数据库与"一带一路"专题库的相关文本信息资源,对本文提出的模型的可行性和优越性进行验证,结果显示,融合长短期记忆模型与注意力机制的人文社科专题文本资源分类模型,在长短专题文本分类任务中表现都优于其他模型。
- 单位