摘要

针对当前新词发现准确率低、可移植性不强和需要大规模语料等问题,提出一种基于BERT的开放领域新词识别方法。利用BERT对句意的较强理解能力,将词语和上下文输入模型,训练词语识别器;将测试文本按字节流进行大小为N的滑动窗口操作形成若干候选词。针对候选词进行分类,识别判定其在上下文中是否属于一个词,倘若该词未在标准词库中出现,则为新词。将该方法与基于互信息和左右熵的新词发现方法和基于条件随机场的新词发现方法进行效果对比,结果表明该方法具有更高的精准率和F1值,同时对于命名体的识别也拥有更高的召回率。

  • 单位
    上海二三四五网络科技有限公司