摘要

文本隐写分析是一种通过统计特征来区分载密文本和正常文本的技术.目前,最先进的文本隐写分析模型大多使用深度神经网络在单一任务上进行训练和测试.因此,现有模型在检测某种特定的隐写文本时有较好的性能.当待检测文本的领域、所使用的隐藏算法和嵌入容量发生变化时,模型的隐写分析性能会有一定程度的下降.为了增强文本隐写分析模型在不同检测任务上的快速自适应能力,并使模型能够处理少样本场景下的隐写分析任务,本文提出了一种基于胶囊网络的文本隐写分析方法.具体来说,使用带有自注意力的Bi-LSTM(Bidirectional Long Short-Term Memory)作为通用任务提取器,从支持集和查询集中获取文本的句子表示;任务映射器作为元学习者主导元训练过程,在获取支持集的句子表示后,学习单个文本与任务间的非线性映射关系;然后,将映射结果和查询集的句子表示输入分类器,度量文本与任务之间的匹配程度;最后,基于均方误差MSE(Mean Square Error)损失和KL散度(Kullback-Leibler Divergence)计算总预测损失.大量实验证明,我们的模型可以快速适应各种不同的任务,并在1-shot、5-shot和10-shot的检测任务中对三个域的平均检测精度分别达到了85.11%、88.63%和91.91%.