基于Transformer的电网企业文件密点标注系统

作者:董添; 李广; 杨振宇; 张博; 于波; 王巍
来源:吉林大学学报(信息科学版), 2021, 39(06): 720-725.
DOI:10.19292/j.cnki.jdxxp.2021.06.016

摘要

面对海量的企业文件,单纯地凭借人工进行密点标注,不仅费时费力,其划分标准更受到人为主观意识的影响。因此,对企业文件进行自动定密是企业保密管理工作中需要迫切解决的重要问题。为此,提出一种基于Transformer的电网企业文件密点标注系统,包括文件预处理、中文分词、词向量构建和密点标注等步骤。在国网吉林省电力有限公司内部核心商密文件和普通商密文件构建的数据集上对所提出的模型进行了训练测试,结果表明,该系统准确率为97.79%,召回率为99.08%。模型达到了较高的识别效果,且其对密点信息识别准确,只有极少数密点信息未被标注,有效防止了密点信息的泄露。

  • 单位
    国网吉林省电力有限公司