摘要

基于《四库全书》数据集,研究古汉语的命名实体识别技术。提出了基于Lattice LSTM模型的古汉语命名实体识别算法,该方法将字符序列信息和词序列信息共同作为模型的输入。采用甲言(jiayan)分词工具,利用word2vec训练古文字、词向量并作为Lattice LSTM模型的输入,提升了古汉语命名实体识别的效果。基于Lattice LSTM模型和预训练的古文字、词向量,提高了古汉语的实体识别效果,相比传统的BiLSTM-CRF模型,其F1分数提升3.95%左右。