摘要

【目的】从大量医学文献中发现有价值的内容以帮助临床医生做出诊断,提高医学文献推荐效果。【方法】基于随机森林模型与关键词查询扩展相结合的新方法,利用MeSH词典和自动构建的首字母缩略词词典,在句子、段落、文档三个层次上建立关键词与相应文章的完整关系,计算主题与文章之间的多重相似度,对于每篇文章通过文献集合中的引文网络计算HITS的PageRank权重和Authority权重。【结果】与TREC临床决策支持跟踪评价结果中NDCG@100最高的10个值的平均值相比,本文方法 NDCG@100的总体平均值差距在0.9%以内,差距极小。【局限】由于某些新文献或“睡美人”文献前期引用较低,可能会出现检索排名靠后,在此类情况下,本文方法无法进行精准推荐。【结论】通过计算主题与文章之间相似点和引文关系的权重,利用随机森林方法对查询扩展结果进行重新排序,可以有效提高医学文献推荐的效果。