摘要

医疗问答平台主要通过关键词检索来服务,但其缺点是难以应对文本中多样化表达、否定词较多等特点,且不能充分根据用户的语义查询,使查询结果中有大量无关项。因此该文先用基于改进文本卷积神经网络的哈希生成模型,进行相似问题的语义检出,以更好地处理文本中的多样化表达、否定词较多等现象。然后,用更精确的文本匹配模型对检出集合进行过滤和排序,通过集成学习构建该模型。模型先集成Siamese-BERT模型,该模型利用孪生网络,并用BERT作为基础模型,能更好地进行语义抽取;接着集成BERT-Match模型,该模型借助BERT的多头注意力机制,能更好地捕捉问句间的局部相关性。最后,用梯度下降提升树将语义特征及统计特征结合,使模型更准确。实验结果表明,该文方法在进行相似问题检出和文本匹配时能得到更好的结果。