摘要

笔者对基于并行计算的高冗余数据压缩和存储算法进行了研究。由于遗传算法和粗糙集理论可以有效处理数据库中的一些冗余、稀疏、不完整和规模大等问题,因此,特别适合用于数据库中的知识发现,并得到了一些成功的应用。在海量的数据中由于存在一定的冗余数据而导致资源浪费,同时也降低了存储空间的利用率。因此,笔者基于数据冗余去除方法的不同机制,分析了其优缺点和大数据时代去重技术的缺陷,从而满足作为新型范式挑战的需要。