摘要
电力系统科学研究与生产实践的长期发展,积累了大量的非结构化和半结构化文本。对电力领域文本进行中文实体识别,是其进一步信息抽取的基础工作。为探索有效的电力实体识别方法,文中首先把电力实体分成十六种并对三类电力文本信息进行标注,进而采用双向长短时记忆网络和条件随机场的混合方法,对标注的电力文本进行了中文实体识别实验,并与隐马尔科夫法、独立的条件随机场法和独立的双向长短时记忆网络法进行对比。实验结果表明,文中采用的Bi-LSTM-CRF方法可以更加准确有效地识别文本中的电力实体。
-
单位广东电网有限责任公司; 华南理工大学