摘要
系统中的克隆代码会增加程序员理解代码、修改代码的时间,并且在代码中一处克隆代码出现错误可能会导致系统中多个相同代位置的代码出现错误,大大增大了程序员进行软件维护的成本。为了找到系统文件中的克隆代码,利用基于Word2vec的克隆代码检测方法,针对新疆马业电商平台中的代码进行克隆检测。通过对系统源代码进行数据清洗,去除不需要的字符;Word2vec模型是一群浅并且双层的神经网络,选择Word2vec中的skip-gram模型进行训练并且构造词向量。训练完成后,模型可用来映射每个词到一个向量,用来表示词对词之间的关系。最后通过夹角余弦的方法来计算代码相似度,从而自动检测代码中的克隆代码。研究结果表明:基于Word2vec的克隆代码检测方法可以很好地检测出代码文件中的克隆代码,并且以指定的方式进行输出。
- 单位