摘要
关键词提取是进行未知网络协议逆向的关键步骤。鉴于现有的关键词提取方法存在精确度不高、需要较多先验知识、操作繁琐等问题,提出了一种基于位置信息的关键词自动化提取算法。首先,通过Trigram分词获取候选关键词,附加上位置信息后,将其组织成多级字典;在此基础上,根据位置信息将传统的对候选关键词进行树状合并改进为对其进行链式合并,以获得更精确的最长候选关键词。实验结果表明,当设置频繁度阈值为0.6时,该方法即可以准确提取出文本协议的关键词。同时,分析了频繁度的设置对实验效果的影响,并讨论了基于频繁序列对关键词进行挖掘的相关算法的局限性。
-
单位中国人民解放军陆军工程大学