摘要

当前的中文问答匹配技术大多都需要先进行分词,中文医疗文本的分词问题需要维护医学词典来缓解分词错误对后续任务影响,而维护词典需要大量人力和知识,致使分词问题一直具有极大的挑战性。同时,现有的中文医疗问答匹配方法都是对问题和答案分开建模,并未考虑问题和答案中各自包含的关键词汇间的关联关系。因此,提出了一种基于注意力机制的栈卷积神经网络(Att-StackCNN)模型来解决中文医疗问答匹配问题。首先,使用字嵌入对问题和答案进行编码以得到二者各自的字嵌入矩阵;然后,通过利用问题和答案的字嵌入矩阵构造注意力矩阵来得到二者各自的特征注意力映射矩阵;接着,利用栈卷积神经网络(Stack-CNN)模型同时对上述矩阵进行卷积操作,从而得到问题和答案各自的语义表示;最后,进行相似度计算,并利用相似度计算最大边际损失以更新网络参数。所提模型在cMedQA数据集上的Top-1正确率比Stack-CNN模型高接近1个百分点,比Multi-CNNs模型高接近0.5个百分点。实验结果表明,Att-StackCNN模型可以提升中文医疗问答匹配效果。