程序代码集到特征矩阵文本特征提取算法的研究

孙令成; 肖铁军

摘要

论文基于Verilog语言，从词法分析识别单词开始，结合TF-IDF算法获取代码的文本特征值，其次通过语法分析，使用语法树节点的哈弗曼值作为代码的结构特征值，联合使用文本特征值和结构特征值构成代码向量，然后再对代码向量使用奇异值分解获取其潜在语义空间，最后通过潜在语义空间上余弦相似度获取学生代码之间的相似度值。实现了一种高效的程序代码集到特征矩阵文本特征提取算法，为线上教学教育体系提供了更好的教学质量保障，在经过7种课程实验文件的测试后，最终选取相似度前20%作为阈值，其抄袭检测正确率高达96.7%，表明该算法从编译层的角度实现了抄袭检测，效率较高，且对于学生代码作业的抄袭检测率效果较好，可以帮助教师更好地完成教学工作。

单位
江苏大学

收藏分享被引浏览

更新时间：2024-03-15 18:48

程序代码集到特征矩阵文本特征提取算法的研究

摘要

产品服务

站内浏览

服务支持

联系方式

科研之友