摘要
针对目前基础深度学习模型特征提取能力较弱,静态词向量模型无法表示多义词以及网站类型识别准确率不高等问题,提出了基于ERNIE2.0-MCNN-BiSRU-AT的网站类型识别模型。采用ERNIE2.0通过结合当前词的具体上下文语境学习到动态向量表征,解决静态词向量存在的一词多义问题;多特征融合网络全面地捕捉多个尺度下的局部语义和上下文序列特征,软注意力机制计算每个特征对网络分类结果的权重得分,以突出关键分类特征。线性分类层输出网站类型识别结果。在真实网站类型数据集上进行实验,相关结果表明,ERNIE2.0-MCNN-BiSRU-AT模型F1值达到了95.67%,高于实验对比的近期表现优秀的深度学习模型,并通过大量消融对比实验验证了各个功能模块的有效性。