摘要

构建基于语境的中文性别欺凌语料库,提出了一种基于语境、结合注意力机制的切片循环神经网络和胶囊网络并联联合算法模型(CASC)。相比传统基于词法规则、句法分析等深度学习神经网络,上述方法可以获取时序词级、句子级、段落级等多个层级高级信息和全局语义信息。同时通过分析上下文语境,挖掘欺凌词之间的依赖关系和深层语义特征,来提高特征表征能力。实验结果表明,上述方法用于网络性别欺凌文本识别精确率为95.33%,召回率为95.83%,衡量模型整体性能的F值为95.58%,准确率为98.78%。从而证明上述方法用于识别性别欺凌文本的有效性。