摘要

针对传统的相似性度量方法无法有效处理高维较稀疏数据集的问题,提出了二次相似性度量Y(xi,xj)。该相似性度量在一定程度上克服了传统相似性度量对高维稀疏数据可信度较低的弊端。用k-means和k-medoids方法进行聚类,结果表明,针对高维较稀疏数据集,二次相似性度量体现了它的有效性和稳定性,为进一步研究和分析提供了有利条件。