摘要
针对中文的象形性和结构性特点,本文提出了一种新的生成式自动摘要解决方案,包括基于笔画的文本向量生成技术和一个生成式自动摘要模型。基于笔画的文本向量方法针对组成汉字的最小粒度笔画进行编码,增强了通过Skip-Gram模型得到对应的中文词向量语义信息;然后通过对Seq2Seq模型进行优化,使用Bi-LSTM解决长序列文本信息丢失以及逆向信息的补充问题;并在编码端加入Attention机制以计算不同输入词对解码端的影响权重,在解码端加入Beam Search算法优化生成序列的流畅度。基于LCSTS数据集实验表明,本文提出的模型在中文文本摘要生成质量和可读性上有所提升。
-
单位南京信息职业技术学院; 南京邮电大学