摘要

【目的】以评论文本为研究对象,研究可行动信息识别方法,为实践者发挥自身优势及弥补不足提供行动参考。【方法】将目标任务定义为句子级分类问题,提出一种基于文段的可行动信息识别模型SAII。基于BERT预训练模型对输入句子进行编码,建立词级别的上下文表征;枚举句子中不同范围的文段,引入文段注意力机制生成信息量丰富的文段级表征;为缓解噪声问题,提出多通道文段过滤机制,最大限度地保留接近关键元素原型的文段;融合提纯后的文段表示和上下文表示,自动识别可行动信息。【结果】在两个真实数据集上的实验结果表明,所提模型的效果最佳。与三类基线模型中的最优模型相比,SAII模型在Yelp数据集和RateMDs数据集上的F1指标分别提高7.91个百分点和5.42个百分点;2.10个百分点和2.73个百分点;1.94个百分点和1.46个百分点。【局限】仍需在多领域和多模态数据集上广泛验证模型的有效性。【结论】本文模型具备词级和文段级表征能力,有效提高了识别准确率,推动了用户生成内容的价值实现。