摘要

数据库的结构化查询语言(简称SQL)到自然语言的翻译(简称SQL-to-text)能提高关系数据库的易用性。近年来此领域主要使用机器学习的方法进行研究并已取得一定进展,然而,现有翻译模型的能力仍不足以投入实际应用。由于组合泛化能力是SQL-to-text模型在实际应用中提升翻译效果的必要能力,并且目前缺少对此类模型组合泛化能力的研究,因此,提出了一个SQL-to-text模型的组合泛化能力评估方法。此方法基于现有的SQL-to-text数据集生成了大量SQL和对应的自然语言翻译(简称SQL-自然语言对),并按SQL-自然语言对所含SQL子句的个数将其划分进训练数据与测试数据,使测试数据中的SQL子句皆以不同的组合方式在训练数据中出现,从而得到可评估模型组合泛化能力的新数据集。新数据集上的评估结果表明,现有模型的组合泛化能力仍需进一步提升,其中,专为SQL-to-text任务设计的关系感知图转换器模型组合泛化能力最弱,表明原有的SQL-to-text数据集对组合泛化能力的考察存在欠缺。

全文