摘要
针对传统自然语言处理中基于中文文档建模方法忽视了上下文语义关系和文档层级结构的问题,提出一种基于WSD层级记忆网络建模的文档表示方法,以充分利用词句级联的层次关系,增强文档建模内部的语义联系,实现文档分类。该方法首先通过Bert模型进行词到句的表示;然后利用双向长短时记忆网络结合注意力机制输出每个时刻句子信息的重要程度;最后通过全连接层获得连续的文档模型进行分类预测。对THUCNEWS、CHEM&ENGNEWS两个数据集进行仿真实验,结果表明本方法相比传统方法准确性提高7. 06%~18. 31%,有效地提高了文档分类的预测精度,为文档分类提供借鉴。
-
单位淮阴工学院