摘要
金融行业依靠数据驱动发展,金融数据具有海量、多结构多维度和高价值的特点。随着金融领域数据的不断增长,有效利用数据并使其价值变现成为推动行业持续发展的突破口。如何从数据中准确、及时地识别出实体是挖掘、利用数据的第一步,也是至关重要的一步。然而金融领域涉及的长实体多,实体的嵌套结构普遍存在,且金融领域同一实体的缩写和别称多,这些都会带来数据稀疏的问题。目前的命名实体识别(Named entity recognition,NER)研究多针对简单命名实体识别(Flat NER),忽略了文本中大量存在的嵌套实体。少量的嵌套命名实体识别(Nested Named entity recognition,Nested NER)研究也未针对性解决嵌套实体数据集中数据稀疏的问题。针对这些问题,本文提出了面向金融领域的嵌套命名实体识别系统,能对嵌套实体的分布式向量进行语义增强,充分学习到稀疏实体的语义信息,解决嵌套实体数据稀疏的问题,提高了嵌套命名实体识别的效果,并为用户提供了实体识别结果的可视化。系统在本文构建的金融数据集和《人民日报》数据集上的结果证明了其有效性和泛化性,目前已在国家重要金融部门得到示范应用,助力金融安全发展。
- 单位