摘要
文章通过深度强化学习的方法来寻求二进制线性编码的有效解码策略。在加性高斯白噪声的条件下,将置信传播(BP)解码算法中软信息的迭代看作是对软信息的连续决策,并将其映射到马尔可夫决策过程,用深度强化学习网络代替传统译码器,扩大探索空间以提高译码性能,从而实现对数据驱动的最佳决策策略的学习。结果表明,相较于传统BP解码器,在误码率=10-5时,学习型BP解码器在BCH码上取得大约0.75 dB的优势,这在一定程度上解决了以往研究中过于依赖数据的问题。
-
单位中国空间技术研究院