摘要

针对在具有庞大数据集的图中选择小部分具有代表性顶点的问题,将其归纳为数据摘要问题,并采用传统子模覆盖的方法来解决。对庞大数据集进行动态处理时,为保证因数据集过大而无法装入内存的同时还要对数据集中所有数据进行访问,引入了流式算法,与子模覆盖算法结合后,对其进行改进使选出的集合具有鲁棒性,并将该算法的边界和通信复杂度与之前算法比较。经仿真实验得出,文中算法不仅能避免对大量内存进行有效的访问,而且可以在删除部分元素后,集合稳定性比普通流式子模算法提高10%以上。