摘要
[目的] 对用户历史问答文本实现考虑上下文语义信息的主题识别,进而提升问答社区专家推荐的准确度。[方法] 通过构建BERT-LLDA模型,将BERT模型与Labeled-LDA主题模型相结合,以充分利用标签信息对用户历史问答文本进行向量化,通过降维和主题聚类实现考虑上下文语义信息的主题识别,获得用户的主题兴趣概率分布;根据主题兴趣挖掘结果构建主题敏感PageRank算法(TSPR),并加入用户质量权重迭代计算用户的领域权威;基于此得到考虑主题兴趣和领域权威的问答社区专家推荐算法TIDARank,为新问题推荐潜在回答专家。[结果] 基于Stack Exchange公开数据集,BERT-LLDA模型经过主题聚类后相比于TF-IDF、BERT、BERT-LDA对比模型具有更高的轮廓系数(0.5756)和主题连贯性(0.4766);TIDARank的最佳回答者命中率ACC@20和平均倒数排名MRR@20分别为0.5807和 0.2430,相比于表现最优的Bi-LSTM+TSPR对比算法分别提升了14.53%和8.14%。[局限] 本研究在链接分析中未考虑用户的活跃情况。[结论] BERT-LLDA模型不仅可以优化主题聚类的效果,且有助于提升问答社区专家推荐的性能。
- 单位