自动音频标注是让计算机为一段音频自动生成标注语句来对该片段进行描述的任务。针对当前音频标注模型不够有效,且模型训练目标与评价指标得分之间不一致的问题,本文提出了一种基于CNN-Transformer的编码器-解码器结构,并采用强化学习进行微调的方法,同时采用了迁移学习为编码器提供一个预训练网络来初始化参数。在Clotho数据集上的实验结果表明,与基线系统相比,该方法能够提升模型的有效性,而通过强化学习对模型进行微调同样大幅提高了优化对象指标的得分。