摘要

通过研究相似重复记录的数据清洗算法,在对N-Gram算法进行深入分析与研究后,指出其不足之处,并在此基础上进行改进并加以应用。实验结论证明,改进后的N-Gram算法无论是在查全率、查准率,还是运行速率上都得以大幅度提升。

  • 单位
    国网山西省电力公司信息通信分公司