摘要
为了克服n-Gram等概率主题模型在捕获词局部性时存在向量特征空间激增和稀疏性等问题,提出一种非概率主题模型。定义一个局部上下文,实现对词的相对定位进行建模;采用一个平滑核来估计局部上下文,每个核带宽检查一个唯一的局部分辨率范围;通过应用贪婪坐标下降法和损失函数的因式分解以及投影梯度下降法来求解所构建的模型,从而生成高度区分的特征。实验结果表明,该模型相比于目前先进的多数概率主题模型,不但能够高效地发现局部主题和文档表示形式,分类精度也有较大提高。
-
单位北京理工大学; 现代教育技术中心; 黄河科技学院; 自动化学院