摘要

社区问答系统作为一种知识组织形式,在其基础上的问句检索可以帮助用户快速地从海量问答资源中找到问题的答案,同时避免用户重复提交已解决的问题造成系统冗余。考虑到翻译模型容易受翻译概率准确性的影响,在翻译噪声严重的情况下无法准确获取词汇语义信息。利用社区问答系统中问题的标记信息,构建高质量的训练语料集,同时在翻译模型基础上结合概念层次网络(HNC)理论的词语语义知识,提出了一种新的基于HNC语义修正的问句检索模型。在真实的数据集上的实验结果表明,HNC理论词语语义知识的对翻译概率准确性的修正有了显著效果,同时提出的问句检索模型可以很好地识别问答系统中相似的问句对,在检索结果上优于当前使用最广泛的模型。