摘要

在自然语言处理领域中,对于泰语等东南亚语言的分句处理是一项具有挑战性的工作。将序列标注模型应用于句子切分任务,提出基于双向长短期记忆循环神经网络的句子边界自动识别模型。利用Glove词向量技术,将泰语句子中的词或字转换为不同维度的向量,进而将词或字向量组合成为句子向量输入模型进行训练。在此基础上,通过双向网络结构捕捉上下文信息以达到更好的句子切分效果。实验结果表明,该模型在泰语句子切分任务上表现出非常精准的识别效果。