摘要
[目的/意义]深度学习模型已经成为命名实体识别的主要方法,但当前多数模型的预处理忽略文本中词上下文的语义信息。因此,探明文本的语义化表示对于实体识别的影响具有重要意义。[方法/过程]文章以中华美食本体库构建为例,通过构建CRFs、BiLSTM-CRFs、Char2vec-BiLSTM-CRFs和BERT-BiLSTM-CRFs这4类模型,对比分析文本语义化表示对其识别效果的影响;联合比较了基于BERT-BiLSTM-CRFs模型的术语单独抽取和集合抽取的结果,并将该模型应用于美食本体库的构建。[结果/结论]实验表明,使用BERT-BiLSTM-CRFs模型的实体识别准确率要高于其他模型,整体F1值提升8.7%;并且实体单独识别抽取比集合抽取效果更好。[局限]研究的实验数据规模有限,后续研究将在更大数据集上进行。
- 单位