摘要

针对大规模语料中不同语体的特征难以挖掘、需要大量专业知识和人力的问题,提出了一种自动挖掘能区分不同语体的特征的方法。首先,将语体表示成词、词类、标点符号、它们的2元、句法结构及多种组合特征;然后,使用注意力机制和多层感知机(MLP)的组合模型(如注意力网络)把语体分类成小说、新闻和课本,并在过程中自动地提取出能够帮助区分语体的重要特征;最后,通过对这些特征的进一步分析,可以得到不同语体的特点及一些语言学结论。实验结果显示,小说、新闻和课本在词、主题词、词的依存关系、词类、标点符号和句法结构都有显著的差异,进一步表明了人们在使用语言时因交际对象、目的、内容和环境的不同,对词汇、词类、标点和句法的运用上会自然地呈现出某种不同。