摘要

神经机器翻译技术能够自动翻译多种语言的语义信息,已被应用于跨指令集架构的二进制代码相似性检测,并取得了较好的效果.将汇编指令序列当作文本序列处理时,指令顺序关系很重要.进行二进制基本块级别相似性检测时,神经网络使用位置嵌入来对指令位置进行建模.然而,这种位置嵌入未能捕获指令位置之间的邻接、优先等关系.针对该问题,本文使用指令位置的连续函数来建模汇编指令的全局绝对位置和顺序关系,实现对词序嵌入的泛化.首先使用Transformer训练源指令集架构编码器;然后使用三元组损失训练目标指令集架构编码器,并微调源指令集架构编码器;最后使用嵌入向量之间欧氏距离的映射表示基本块之间的相似程度.在公开数据集MISA上的实验表明, P@1评价指标达到69.5%,比对比方法 MIRROR提升了4.6%.

  • 单位
    中国人民解放军陆军工程大学

全文