摘要
为了提升文本取证过程的智能化和便利性,提出一种基于Doc2Vec和改进K-means聚类算法的文本取证方法。首先提取并转化待取证计算机中的文本文件,利用深度神经网络模型Doc2Vec将文本内容映射为文本向量,进而利用改进的K-means聚类算法对文本向量进行划分,使目标证据文件与无关文件分离,最后通过文本间的相似度计算,按照相似程度输出目标证据文件。结果显示,改进的K-means算法可稳定划分文本且保证目标证据文件被检索;同时还可关联出部分未掌握线索的证据文件,为下一步检索提供方向,扩大取证检索的收获。该方法避免了传统取证软件基于字符匹配的不足,实现取证效率的提高与结果完整性的提升。
-
单位中国刑事警察学院