摘要

在主题深度表示学习的基础上,该文提出了一种融合双语词嵌入的主题对齐模型(topic alignment model, TAM),通过双语词嵌入扩充语义对齐词汇词典,在传统双语主题模型基础上设计辅助分布用于改进不同词分布的语义共享,以此改善跨语言和跨领域情境下的主题对齐效果;提出了2种新的指标,即双语主题相似度(bilingual topic similarity, BTS)和双语对齐相似度(bilingual alignment similarity, BAS),用于评价辅助分布对齐的效果。相比传统的对齐模型MCTA, TAM在跨语言主题对齐任务中双语对齐相似度提升了约1.5%,在跨领域主题对齐任务中F1值提升了约10%。研究结果对于改进跨语言和跨领域信息处理具有重要意义。