字音和字形能有效增强汉字的表示吗？——基于命名实体识别任务的验证

段宇锋; 张美聪; 刘宴佐; 贺国秀

摘要

[目的]验证汉字的字音和字形对增强汉字表示的有效性。[方法]本研究基于命名实体识别任务，分别以通用嵌入模块、双向LSTM模块、softmax激活的全连接网络模块作为模型的基准字嵌入层、上下文编码层、解码层，在MARS、PeopleDaily、CCKS2017、Resume、E-commerce等数据集上，比较以汉语拼音、图像、五笔字型码、四角号码、仓颉码、部首增强字嵌入后micro-F1值和各实体F1值的变化。[局限] 仅使用了32×32像素的简体字图像，可能影响字形特征的提取。[结果] 使用字音、字形增强字嵌入，模型在MARS、PeopleDaily数据集性能下降近0.01，在CCKS2017、Resume、E-commerce数据集的性能变化无统计学意义。[结论] 字音、字形特征在增强字的表示的同时也引入了噪音，在不同语料和实体表现出差异化的效果。

单位
华东师范大学

收藏分享被引浏览

更新时间：2024-11-28 20:22

字音和字形能有效增强汉字的表示吗？——基于命名实体识别任务的验证

摘要

产品服务

站内浏览

服务支持

联系方式

科研之友