摘要

随着大规模预训练语言模型的推出,文本生成技术研究取得了突破性进展,但是在开放性的社交文本领域,生成的文本内容缺少拟人化特征。针对此问题,提出了一种用户级的细粒度控制生成模型,即基于GPT2结构设计了Encoder-Decoder编解码器框架,在Encoder端对用户静态的个性化信息建模编码,并在Decoder端添加了双向独立的注意力模块,用于接收该静态个性化特征向量,而原始GPT2结构中的注意力模块负责捕获用户文本中的动态个性化特征,即行文风格、表达方式等。最后动态加权融合各注意力模块分数并参与后续解码,自动生成以用户个性化特征属性作为约束的社交文本。另外,用户基本信息的语义稀疏性会导致生成文本偶尔与某些个性化特征存在矛盾,故采用BERT模型对Decoder端输出数据与用户个性化特征进行一致性理解的二次增强生成,最终实现个性化的社交文本生成。实验表明,对比GPT2基线模型,该模型流畅度提高了0.3~0.6个百分点,且在不损失语言流畅度的基础上,二次生成使个性化和一致性两个评价指标都有8.4个百分点、9个百分点的明显提高。证明了所提模型能够有效辅助用户创作,生成流畅且符合用户个性的社交文本。