摘要

针对短文本中大量文法混乱语义不清的句子,提出一种将句法结构和修饰语义相结合的短文本质量评估算法。该方法将短文本分为单句和多句两种模式。对于单句模式,将句子解析为抽象语义表示,接着分析谓词的句法结构的完整程度;根据不同的修饰关系计算句子序列的紧密程度,结合句子的结构完整性与紧密性得出单句短文本质量评估值。对于多句模式,选取每句中的关键词;循环计算与其他句子中关键词的相似性,总相似度最高的单句作为核心句,用核心句的质量评估值作为多句短文本的质量评估值。实验结果表明,该方法在中文AMR数据集上的准确率为80%,在自建的多句微博数据集中准确率为74.73%。