摘要

大规模文本的数据划分是数据治理中的关键问题,而传统的中文文档建模方法容易忽视上下文语义关系和文档层级结构。针对以上问题提出一种基于层级特征和DPCNN的文本数据治理方法。该方法首先通过BERT模型抽取文本的层次特征信息,然后将结合全文信息的向量传入DPCNN模型中;经过金字塔型池化层后,最终通过全连接层进行数据划分。该方法能够有效提高特征稀疏文本数据的预测准确率。

  • 单位
    青岛远洋船员职业学院