摘要

随着对金融行业对数据安全保护工作的逐步重视,提升数据分类分级的能力将有效赋能该行业推进数据安全建设。针对既有研究难以获取数据字段的准确表征以及数据不均衡等问题,本文构建了基于文本挖掘和多模块融合的金融数据分类分级方法。具体地,在数据输入模块中,分别基于数据结构和专业语料库对数据字段进行特征增强和语义增强,以准确地表征字段;在模型训练和融合模块中,采用Stacking框架将Adaboost, MLP和LSTM神经网络进行有效融合,进一步提升数据分类分级的准确性和泛化能力。以广发银行研发中心的27694条数据字段为样本进行了一系列的模型检验和性能对比分析,结果显示融合模型的准确率可以达到0.822,相对于单一方法表现更优且更为稳健。由此表明:本文所构建的数据分类分级方法具有较高的准确性和有效性,在金融领域、特别是针对商业银行的数据分级分类问题具有较高的实践价值。