摘要

[目的]验证汉字的字音和字形对增强汉字表示的有效性。[方法]本研究基于命名实体识别任务,分别以通用嵌入模块、双向LSTM模块、softmax激活的全连接网络模块作为模型的基准字嵌入层、上下文编码层、解码层,在MARS、PeopleDaily、CCKS2017、Resume、E-commerce等数据集上,比较以汉语拼音、图像、五笔字型码、四角号码、仓颉码、部首增强字嵌入后micro-F1值和各实体F1值的变化。[局限] 仅使用了32×32像素的简体字图像,可能影响字形特征的提取。[结果] 使用字音、字形增强字嵌入,模型在MARS、PeopleDaily数据集性能下降近0.01,在CCKS2017、Resume、E-commerce数据集的性能变化无统计学意义。[结论] 字音、字形特征在增强字的表示的同时也引入了噪音,在不同语料和实体表现出差异化的效果。