提出了一种结合卷积神经网络和改进的Transformer Encoder网络的并联网络模型——ConEncoder。其中卷积支路结合了残差连接和SE模块用于提取信号的局部特征,Encoder支路去除传统的位置编码,用于提取信号的全局特征,最后融合二种特征,实现了在复杂的海底环境下对8种水声信号调制方式的高准确率识别,识别准确率可达98%以上。相较于基于专家特征进行识别的传统机器学习算法和常用的神经网络都具有更好的识别性能。