摘要
针对模式集成过程中表示不同语义的属性因名称特征和数据实例特征相似而引起的误配问题,提出一种基于信息度量和聚类的模式集成方法。该方法通过构造数据实例的点互信息向量将属性表示到向量空间中,将模式集成问题简化成求解空间中的属性点的相似性问题,进而基于DBSCAN算法对属性进行聚类,有效识别同名异义的属性,同时结合属性的加权相似度对类中误匹配属性进行筛除,提高属性匹配结果的精确度。实验结果表明,该方法能有效地将模式信息与数据实例相结合来取得更准确的匹配结果,可以解决多个异构模式的集成问题。
- 单位