基于迁移学习的个性化循环神经网络语言模型

作者:徐萍; 吴超; 胡峰俊; 吴凡; 林建伟; 刘静静
来源:南京理工大学学报, 2018, 42(04): 401-408.
DOI:10.14177/j.cnki.32-1397n.2018.42.04.003

摘要

针对在小数据集上开发个性化语言模型仍存在的障碍,提出基于迁移学习的个性化循环神经网络语言模型。设计了基于预训练词向量、预训练电影剧本数据集、基于参数微调和特征提取分类器的迁移学习训练模式,在小数据集上建立了具有较高辨识度的个性化语言模型,降低了模型的困惑度,改进了模型的性能。模型的实验以电视剧Seinfeld角色为基础。结果表明:该模型在特定角色测试数据集上的困惑度比其他角色数据集平均低17.65%,证明其已经学会了该角色的个性化风格;迁移学习使得模型最低困惑度平均降低了36.38%,较好地解决了基于小数据集开发个性化语言模型存在的障碍问题。

全文