摘要
针对中文新闻主题因缺乏上下文信息而造成语义模糊和用词规范性不高的问题,提出一种基于RoBERTaRCNN的多头注意力池化机制的新闻主题文本分类方法。利用数据增强技术对部分训练数据进行回译处理,再通过自编码预训练模型和RCNN对文本进行初步和深度的特征提取,并结合多头注意力思想改进最大池化层。该方法采用融合机制,改善了RCNN中最大池化策略单一和无法进行动态优化的缺陷。在三个新闻主题数据集上进行实验,使用更适用于新闻主题分类的Mish函数代替ReLU函数,并利用标签平滑来解决过拟合问题。结果表明,所提方法对比传统分类方法效果突出,并通过消融实验验证了模型在分类任务上的可行性。
- 单位