摘要
继电保护装置缺陷文本缺乏基于专业词典的数据挖掘,对继电保护缺陷定级、诊断和消除支撑不足,无法满足高效运维需求。结合某区域电网继电保护缺陷数据,提出了适用于继电保护装置缺陷的专业词典构建方法,并构建了相关专业词典。首先,汇总了该区域继电保护装置缺陷文本数据,形成缺陷文本语料库;其次,应用基于正则表达式的停用词识别方法,实现缺陷文本中无关字词的剔除;然后,采用机器与人工相结合的方法,构建了缺陷文本分词词典,采用潜在语义分析和决策树分类,实现了同义词合并;然后,通过整合停用词表、分词词典、同义词表,构建了该区域电网保护装置缺陷专业词典;最后,对比了使用词典前后的专业词汇齐普夫分布和语料库信息熵,验证了所构建专业词典的有效性。
-
单位新能源电力系统国家重点实验室; 华北电力大学; 国家电网有限公司