摘要

泰文很少运用标点符号,句子间没有明显的分隔符,需要根据语义进行断句,为泰文词法分析、句法分析、机器翻译等自然语言处理任务带来了额外的困难。本文针对泰文断句问题提出一种基于Siamese循环神经网络的句子自动切分方法。相比传统泰文断句模型,该方法无需人工定义特征,而是采用统一的循环神经网络分别对候选断句点的前后的词序列进行编码。然后,综合前后序列的编码向量作为特征构建泰文断句分类模型。在ORCHID泰文语料上的实验结果表明,所提出的方法优于传统泰文句子切分方法。