摘要

为实现电子文档的版权保护,提出一种基于主题词与信息熵编码的文本零水印算法。采用TF-IDF(term frequency-inverse document frequency)算法抽取文本主题词,并获取主题词在《同义词词林》中的编码,同时统计全文信息熵直方图并以此进行编码。最后进行编码融合,并通过RSA加密算法进行加密,加入时间戳后形成文本零水印。同时定义了一种编码相似度计算方法,用以判定文本是否抄袭。实验结果表明,所提算法具有很强的隐蔽性与鲁棒性,且在语句删减、同义词替换、句型转换等攻击下表现优于现有算法。