本文提出了在面向海量目标源代码数据比对样本场景下对软件同源性检测技术提出的新的技术挑战,同时,对目前已有的同源性检测技术进行探讨,介绍了一种源代码特征值提取算法来满足检测需求,在此基础上对检测系统进行了设计,并从检测准确性、存储容量方面验证了算法的实际效果和可行性。