摘要
深度学习中的自然语言处理受到研究者广泛关注,但有时大量数据利用机器标注会影响处理效果,采用人工标注又会消耗大量的时间。通过主动学习可以降低数据标注的成本,但是主动学习会面临着倾向于选择长序列,这样的操作通常就会增加注释者的注释负担。传统的主动学习查询策略需要在模型中进行修改并生成一些额外的样本选择信息,这会增加开发者的工作量增加模型的训练时间。基于此,提出了基于CRF的命名实体识别的主动学习策略(lowest token probability,LTP),结合CRF的输入和输出来选择信息实例,通过结合全局信息和局部信息去寻找最有可能的序列分配,基于LTP的主动学习策略能够更有效地去处理短序列语料文本。最后针对网络舆情热点事件,运用模型比较基于LTP策略和传统主动学习策略的效果,实验表明基于 LTP 的主动学习策略,它的性能是好于传统的主动学习策略。
-
单位新疆财经大学