摘要
在我国电力信息化快速发展的背景下,有大量的网络文本数据在电力系统中产生,这就在一定程度上增加了信息资源数量。其中,这些海量数据绝大多数属于无用信息,不存在研究价值。而其大规模的数据积累,却导致处理传统文本工作繁琐。为此,在数据繁杂的条件下,快速而又精准地捕捉目标数据,再对其进行相应的分析和处理,最终获得具有高价值密度的信息数据意义重大。本发明属于一种大数据的数据采集、过滤、统计的算法。通过对大文本数据文件做有效切割,实现对数据的并发高效分析,然后按照业务需求将分析结果汇总,呈现出有价值的数据。
- 单位