摘要

意图识别是自然语言理解中的重要任务,为构建医疗领域对话系统奠定了基础.然而医学问句特征稀疏、种类易混淆,导致识别率不高.针对上述问题,提出了一种结合BERT和胶囊网络的S-BCN模型,并将意图识别任务转化为语义相似度任务进行处理.首先将意图分类数据集构造成问句对样本和问句意图对样本进行分阶段训练,一阶段通过将问句对样本输入BERT层生成词向量矩阵,然后通过胶囊网络层提取出局部语义特征,得到问句的向量表示,再通过计算向量的余弦距离得到问句对的语义相似度;二阶段将问句意图对样本输入模型再次进行训练,最后通过打分模块得到问句的意图类别.该方法在中文医疗信息处理挑战榜CBLUE的意图分类数据集上测试,其准确率达到86.76%,相比基线模型BERT提高2.61%.