基于LSTM自动编码机的短文本聚类方法

黄健翀; 邓玫玲

doi:10.16339/j.cnki.jsjsyzdh.2017.03.016

摘要

一种基于文本向量化的短文本聚类方法。该方法以词向量作为基本特征,使用基于LSTM的自动编码机,对表征文本的词向量进行压缩编码,从而将文本不定长的词向量特征统一提取为统一输入长度的文本特征向量。这些文本特征向量的聚类结果即为短文本的聚类结果。对这一方法使用带标注的数据集进行了测试,使用基尼非纯度作为指标衡量该方法的聚类效果与人工聚类的拟合度;同时,使用聚类中心平均距离来衡量聚类结果中句子之间的结构相似度。结果表明,该方法更着重于匹配整体的文档结构,得到的聚类的句子间的结构相似度较高。

单位
珠海市人民医院; 广东东华发思特软件有限公司

全文

访问全文

收藏分享被引浏览

更新时间：2024-05-11 05:47

基于LSTM自动编码机的短文本聚类方法

摘要

全文

产品服务

站内浏览

服务支持

联系方式

科研之友