输入表示为固定长度的特征向量是机器学习算法要求之一。针对编程中的编译错误信息特征,论文提出了基于word2vec模型对编译错误信息进行特征提取。利用滑动窗口取词的方式,建立one-hot字典,结合word2vec中的Skip-gram模型,构建Huffman树,从可变长度的文本中学习固定长度的特征表示。最后使用SVM分类算法进行实验结果的验证。结果表明,该特征提取方法在编译错误信息中有显著的效果。