摘要
文本挖掘是数据挖掘的一个重要研究方向。许多科研机构和科研团队提出了通用有价值的文本挖掘算法。但由于行业和场景的差异,很难用通用的数据分析算法准确挖掘出电力行业日志数据的潜在价值。例如,在电力一个故障场景中,很难找到与指定主题语义相关的词。针对这一问题,论文提出了一种基于业务词典的精确主题挖掘解决方案。该方案中,首先针对电力行业和特定场景创建业务词典,在预处理后的文档集中借助于业务词典进行热词分析,最后对指定的主题词集合进行语义关联分析。该方案已经在PMS的故障日志中进行了验证,结果显示主题词相关因素分析准确有效,提高了故障分析效率。
-
单位南京南瑞集团公司; 国网电力科学研究院