摘要

随着人工智能领域的快速发展,语音识别技术已经逐渐应用于各种场景,如电信客服,智能家居,实时翻译等领域。目前的语音识别应用需求,除了单纯高质量输出识别文本,为其识别结果添加合适语境的标点也是及其重要的。为提高文本自动标点的准确率,本文针对互联网数据提出了文本预处理方案,利用深层模型BERT提取隐含的上下文语义特征,并结合CRF加强对输出序列的约束,利用BERTCRF的融合模型进行标点预测,实验证明BERT-CRF在中文互联网测试集上平均F1分数相比BERT-Softmax提升了6.16%,并通过实验证实了CRF在标点预测任务起到关键作用。针对网络输入长度受限问题,本文提出了提出了截断式推理机制,使模型能够在保留预测效果的同时能够接受任意长度的输入,并通过实验得到模型最佳推理长度区间为60~80。