摘要

为解决传统真值发现算法无法提取文本数据关键语义信息的问题,提出一种基于胶囊网络的文本数据真值发现算法(Truth Discovery of Text Data Based on Capsule Network, Caps-Truth),对传统卷积神经网络(Convolutional Neural Network, CNN)进行改进,在神经网络模型中构造语义胶囊层替代CNN池化层表征文本语义信息。首先通过CNN卷积层获取文本数据全局特征,利用初级胶囊层将特征信息向量化,再通过语义胶囊层表征文本数据细粒度语义信息,将特征向量输入全连接神经网络挖掘文本数据可信度并获得可靠答案。上述算法在真值发现中引入胶囊网络,利用动态路由算法整合零散语义,有效提高了文本数据真值发现的效果。实验结果表明,Caps-Truth算法优于对比算法。