摘要
本发明公开了一种基于两层聚类的多文档主题发现方法,包括下述步骤:S1、将多个文档作为输入,对每个文档进行预处理,包括对文档进行分句,对句子进行分词,获取多文档集合中的名词集合、动词集合,并对其中的多义词进行词义消歧处理;S2、对步骤S1输出的名词集合、动词集合,根据词义相似度、采用改进的OPTICS算法分别进行词语聚类分析,抽取出语义概念,并依此对句子建立向量空间模型;S3、使用改进的k中心点算法对句子进行聚类分析,得到主题。本发明提炼出词语间的内在语义联系,解决建立句子特征向量时各个特征项之间“非正交”的情况。
- 单位