一种基于条件概率分布的近似重复记录检测方法

缪嘉嘉; 吴刚; 毛捍东; 杨强; 邓苏

登录

免费注册

赞收藏引用

科研之友

微信

新浪微博

Facebook

分享链接

一种基于条件概率分布的近似重复记录检测方法

作者：缪嘉嘉; 吴刚; 毛捍东; 杨强; 邓苏

来源：小型微型计算机系统, 2004, (12): 2164-2168.

摘要

数据集成往往会形成一些近似重复记录 ,如何检测重复信息是数据质量研究中的一个热门课题 .文中提出了一种高效的基于条件概率分布的动态聚类算法来进行近似重复记录检测 .该方法在评估两个记录之间是否近似等价的问题上 ,解决了原来的算法忽略序列结构特点的问题 ,基于条件概率分布定义了记录间的距离 ;并根据近邻函数准则选择了一个评议聚类结果质量的准则函数 ,采用动态聚类算法完成对序列数据集的聚类 .使用该方法 ,对仿真数据进行了聚类实验 ,都获得了比较好的聚类结果

单位
中国人民解放军国防科学技术大学

收藏分享被引浏览

更新时间：2019-08-13 09:47

相似论文
引用论文
参考文献

产品服务

科研之友科研之友机构版科创云

站内浏览

科研成果科研人员科研机构

服务支持

帮助中心隐私政策服务条款

联系方式

在线客服：【立即咨询】客户热线：400-1616-289 电子邮箱：support@scholarmate.com

微信公众号