摘要
本发明公开了一种基于变分自编码器的分布式检索资源库选择方法,该方法利用深度神经网络构建编码器与解码器网络结构,学习资源库文本的隐含表示,用来捕捉资源库文本的深层语义表示。通过无监督的训练方法得到的模型,对查询词的扩展文本进行推理,获得查询词的隐含表示。通过计算查询词与资源库的隐含表示的相似性,来获得资源库的相关性排名。该模型为无监督的训练,自动获得资源库以及文本的隐含表示向量,可克服有监督训练方法中的设计文本特征的缺点。此外,变分自编码器的网络结构简单,变分推理的计算耗时比基于马尔科夫链蒙特卡罗推理方法的LDA主题模型要低。模型训练完成后,进行资源库选择的耗时低,资源库选择的效率高。
- 单位