摘要

针对远洋渔船问题信息的知识挖掘与分析任务中存在渔船安全知识提取深度不足、安全问题文本分类精度不够的问题,该研究在归纳中国沿海8省市远洋渔业管理机构和企业的约5 000条远洋渔船安全问题文本数据特征的基础上,提出一种整合文本分类、知识挖掘和共现网络分析技术的远洋渔船安全问题分析方法。首先,构建基于双向预训练语言模型与文本卷积神经网络的混合深度学习模型BERT-TextCNN(bidirectional encoder representations from transformers-text convolutional neural networks),对渔船安全问题文本进行基于《开普敦协定》规定的精准主题分类。进一步利用基于主题的词频-逆文档频率算法TF-IDF(term frequency-inverse document frequency),提取各主题下的关键渔船安全知识。最后,绘制渔船安全知识共现网络图,可视化分析各知识的分布规律及内在联系。结果表明,BERT-TextCNN模型对渔船安全问题文本的分类精度相较于BERT、Word2vec、Character embedding文本表示方法和DPCNN、BiLSTM-Attention、RCNN等6种神经网络的其他17种对比模型提升较为明显,准确率、宏平均召回率、宏平均F1值分别达98.20%、98.02%、98.05%;基于主题的渔船安全知识挖掘方法可以展示远洋渔船安全工作的重点排序和关系网络图,涵盖渔船的机电设备、消防装置、救生设备、无线电通信等10类安全知识。该方法可为相关渔业管理人员提供高质量的渔船安全知识服务,对国内远洋渔业的安全管理效率、履约水平、智慧渔业工程的应用和发展有促进作用。