图像处理技术的不断发展对数据集的质量和规模的要求日益增长。目前数据采集多以网络爬虫为主,而后续的筛选工作依旧繁琐,尤其是筛除相似度较高的数据。以感知哈希作为基础算法,面向数据集制作这一特定场景,结合k-means聚类思想,提出一种图像重复性检测方法,提高数据筛选的自动化程度,并通过实验验证方法的准确性和可行性。