摘要
问题自动生成是自然语言处理领域的一个研究热点,旨在从文本中生成自然问句。随着电子商务的不断发展,网络上产生了大量关于产品的评论。面对海量的评价信息,如何快速挖掘产品信息相关的关键评价,从而生成与产品各个层面息息相关的问答数据具有极大的研究价值,这对商家和顾客都具有极大的意义。现有的问题生成模型大多针对阅读理解类型等长文本语料,采用端到端序列化生成模型。然而,针对基于产品评论等短文本的问题生成任务,现有的模型无法将用户和商家重点关注的商品特性纳入学习过程。为了使生成的问题更加符合商品的特性,文中提出了基于产品建模的评论问题生成模型,通过与产品属性识别进行联合学习训练,使模型在解码层面加强了对特征信息的关注。与现有的问题生成模型相比,该模型不仅能解决产品数据口语化严重的问题,还能加强产品属性的识别能力,从而使生成的问题更加具体,更符合商品的特征。文中在京东与亚马逊产品评论数据集上同时进行实验,结果表明,在基于评论等短文本生成问题的任务上,与目前已有的问题生成模型相比,所提模型取得了较大的性能提升。基于中文京东数据集的实验中,所提模型的BLEU值提升了3.26%,ROUGE值提升了2.33%;基于英文亚马逊数据集的实验中,所提模型的BLEU值提升了2.01%,ROUGE值提升了2.10%。
- 单位