人们日常生活和工业生产中产生的海量数据被广泛存储于结构化数据库中,如何高效利用这些结构化数据成为近年学术研究和产业应用都十分关注的热点。 尽管直接编写SQL语句和数据库进行交互是目前最直接的方法,但是非计算机专业的从业人员需要耗费大量时间学习其语法,即便是SQL专家,反复编写也是单调低效的工作。 近年来基于自然语言发展起来的数据库查询接口(NLIDB)为用户与数据库进行交互提供了一种简洁高效的方法。NLIDB背后的核心技术是Text-to-SQL语义解析,其作用是在给定相应的数据库模式结构下,将用户的自然语言问句转换成SQL查询语句。 Text-to-SQL任务是自然语言处理任务中最具挑战性的任务之一,该任务的输入既要也考虑用户的自然语言问题也要考虑数据库的模式结构,此外,该任务的输出是结构化的SQL语句。 1登顶中文千言榜单 思必驰-上海交大人机交互联合实验室团队在继去年6月份取得Text-to-SQL任务英文基准榜单Spider第一名后,近期又取得Text-to-SQL任务中文千言榜单第一名。 千言榜单囊括了Text-to-SQL任务三个最经典的中文数据集DuSQL、NL2SQL、CSpider。本次刷榜的模型LGESQL+GTL是研究团队在之前提出的线图增强的Text-to-SQL模型LGESQL的基础上,进一步提出了结构化的动态解码方案GTL,使得模型既能很好地编码结构化的异构输入,同时也能够实现高效准确的结构化解码。 2顶级会议,发表多篇论著 联合实验室在相关方向的顶级国际会议上已发表多篇论文: 1) 针对Text-to-SQL任务中用户问句和数据库模式的联合异构图编码挑战,提出了基于线图增强的LGESQL模型,相关成果发表于ACL 2021主会。 2) 针对单轮问答式Text-to-SQL任务不同领域之间,由词表差异引发的领域迁移和泛化问题,提出了ShadowGNN模型,将结构和语义信息解耦,相关成果已发表于NAACL 2021主会。 3) 针对多轮对话式Text-to-SQL任务的上下文建模问题,提出DELTA框架,对多轮对话进行语义补全和句子改写,转化为单轮的场景,相关成果已发表于ACL 2021 Findings。
|