摘要

由于电网中存在大量的缺陷文本,传统方法无法精准区分缺陷类型,导致文本挖掘精准度较低,为此提出了基于信息抽取的电网缺陷文本挖掘系统设计。使用数据存储模块直接访问系统内存,通过负载均衡服务器执行请求响应。设计多进程浏览器架构,负责浏览多进程应用程序。构建文本挖掘模型,将大量信息元素整理成电网缺陷术语表形式,输入电网缺陷文本后,利用术语注解标准形式识别术语表内容,并计算标签在固定周期中的覆盖率,记录平均时间间隔和偏离度,由此得到电网缺陷标签标记的周期。在该周期内,确定缺陷种类,完成数据挖掘。实验结果表明,该系统的挖掘精度最低为85%,说明该方法的挖掘结果较为可靠,具有实际应用价值。

全文