利用Doc2Vec及改进K-means聚类实现文本取证分析

作者:汤艳君; 苏梅; 许彩滇; 屈丽
来源:中国刑警学院学报, 2020, (04): 115-121.
DOI:10.14060/j.issn.2095-7939.2020.04.016

摘要

为了提升文本取证过程的智能化和便利性,提出一种基于Doc2Vec和改进K-means聚类算法的文本取证方法。首先提取并转化待取证计算机中的文本文件,利用深度神经网络模型Doc2Vec将文本内容映射为文本向量,进而利用改进的K-means聚类算法对文本向量进行划分,使目标证据文件与无关文件分离,最后通过文本间的相似度计算,按照相似程度输出目标证据文件。结果显示,改进的K-means算法可稳定划分文本且保证目标证据文件被检索;同时还可关联出部分未掌握线索的证据文件,为下一步检索提供方向,扩大取证检索的收获。该方法避免了传统取证软件基于字符匹配的不足,实现取证效率的提高与结果完整性的提升。

  • 单位
    中国刑事警察学院

全文