摘要
为研究基于改进EMD距离的信息特征单元聚类方法,本文利用向量空间方法提取信息特征单元,设置EMD地面距离作为不同信息特征单元间的距离,将信息特征单元比作供货商与消费商。为避免利用EMD距离聚类引起的信息特征单元过分割、正例现象增多以及供货商无法供货问题,设置符合特征相似条件的供货商增大权值的相似阈值,利用阈值令运输以低成本的供货商为主,改进EMD距离;利用改进EMD距离算法实现信息特征单元的有效聚类。经仿真平台验证,该方法对文本、股票等不同类型信息特征单元聚类精度达到99%以上,并且聚类过程迭代次数少,聚类性能优。
- 单位