摘要

自然语言转结构化查询语句(Natural Language to SQL, NL2SQL)是信息领域一个重要课题。目前前沿的NL2SQL工作都是针对英文数据集,而处理英文数据的方法直接应用到中文上往往难以取得很好的效果。本文首先对传统的SQLNet模型进行了改进,在其中融入了预训练模型,增强了其提取特征的能力;之后又分别对分类模型和条件值模型进行了改进:在分类模型中增加了LSTM进一步捕捉特征,在条件值模型中使用正则表达式等手段对特殊的条件子句进行了预处理。实验表明,本文对分类模型和条件值模型所做的改进都能有效提升模型的表达效果。