摘要
针对电力领域语音转写文本质量差,不能很好解决电网领域命名实体识别问题,以电网信息通信(information and communications technology,ICT)系统语音转写文本数据为研究对象,构建了一种基于双向长短期记忆(bi-directional long short-term memory,BiLSTM)神经网络融合条件随机场(conditional random field,CRF)面向电力文本特征的实体识别算法。通过与循环神经网络(recurrent neural network,RNN)等神经网络算法的对比验证:BiLSTM-CRF在电网ICT领域实体识别准确率达79%,F1值达80%,优于LSTM(long short-term memory)和其他RNN算法,并能较好地识别转写错误实体。该算法有效提升了领域语音转写文本的实体识别准确率,同时降低了领域语音识别技术成本,为电网客服领域信息检索、智能问答、个性化推荐等自然语言处理应用提供了高质量非结构化样本数据。
-
单位全球能源互联网研究院