基于ETM的消歧主题模型研究

作者:郑静; 冯道鹏
来源:现代信息科技, 2023, 7(19): 83-88.
DOI:10.19850/j.cnki.2096-4706.2023.19.018

摘要

传统主题模型LDA使用词袋建模文档,无法建模词语之间的语义关系。虽然随后提出的ETM利用词嵌入的方法来建模词语之间的相似度,但是它们都无法处理一词多义现象。针对以上问题提出一种消歧主题模型。采用基于BERT的消歧方法并结合ETM对大型词表的鲁棒性,使得主题模型建模一词多义成为可能。通过在通用数据集上进行实验,验证了所提出模型在精确主题含义,增强主题可理解性上的优越性能,该模型能够挖掘出含义精确的主题,提高了主题建模的应用范围。

全文