一种采用机器阅读理解模型的中文分词方法

周裕林; 陈艳平<sup>*</sup>; 黄瑞章; 秦永彬; 林川

摘要

针对中文分词序列标注模型很难获取句子的长距离语义依赖，导致输入特征使用不充分、边界样本少导致数据不平衡的问题，提出了一种基于机器阅读理解模型的中文分词方法。将序列标注任务转换成机器阅读理解任务，通过构建问题信息、文本内容和词组答案的三元组，以有效利用句子中的输入特征；将三元组信息通过Transformer的双向编码器(BERT)进行预训练捕获上下文信息，结合二进制分类器预测词组答案；通过改进原有的交叉熵损失函数缓解数据不平衡问题。在Bakeoff2005语料库的4个公共数据集PKU、MSRA、CITYU和AS上的实验结果表明：所提方法的F1分别为96.64%、97.8%、97.02%和96.02%,与其他主流的神经网络序列标注模型进行对比，分别提高了0.13%、0.37%、0.4%和0.08%。

单位
贵州大学

收藏分享被引浏览

更新时间：2024-03-20 17:34

一种采用机器阅读理解模型的中文分词方法

摘要

产品服务

站内浏览

服务支持

联系方式

科研之友