摘要

全球化背景下,从不同语种的海量科研文献数据集中自动挖掘隐含主题,精准刻画科研人员研究兴趣是信息服务迈向知识服务的关键问题,也是跨语言信息检索的关键技术之一。目前刻画科研人员兴趣的方法多基于其某一语种的文献,不适用于多语言数据集。本文在作者主题模型和多语言主题模型的基础上提出了多语作者主题(JointAT)模型,可从多语言数据集刻画作者兴趣,并给出了一种估计JointAT模型参数的吉布斯采样方法。实验结果表明,JointAT模型与作者主题(AT)模型相比具有更好的泛化能力。