摘要
GB/T4754—2017《国民经济行业分类》的代码编制方法为基于整数数字顺序编码,在金融工程的舆情监测项目中进行数据挖掘、机器学习时存在编码数量扩展、层级扩展、属性扩展等问题。根据国民经济行业分类的差别化整数数字顺序编码方式,提出一套基于数据结构的分类编码方法,进而提出采用CSV、XML格式文件进行存储和读取,在舆情监测项目中采用C++语言编制针对CSV格式文件的国民经济行业分类编码的读取程序,并形成XML树状结构。采用基于数据结构的编码方式,具有良好的扩展性,可有效实现编码层级扩展、编码数量扩展、编码属性扩展,能广泛用于数据存储、读写、交换,具有较好的通用性,对于些国民经济统计、分类、存储及金融工程的数据挖掘、机器学习等项目具有借鉴意义。
-
单位金融学院; 南开大学