本期介绍 NL2SQL 领域得 2 篇数据集相关的论文:REEF[1] 与 text2SQL4PM[2]

REEF

REEF[3] 包含 18 张相互关联的表(例如产品、订单、用户),其数据分布经过标注,编码了变量之间特定的因果关系,可用于构建真实的因果图。该数据集旨在评估大模型在端到端因果分析任务上的能力。

论文意图

论文提出了 ORCA(一种 LLM 代理系统),用于应对数据分析中的端到端因果分析任务,端到端因果分析指的是类似:“优惠券是否会提高用户购买某商品的概率”这样的问题。ORCA(Orchestrating Causal Agent,编排因果代理)能够自动化关系数据库中的常规分析流程,同时通过人机交互保留专家监督机制。该系统覆盖了完整的数据分析链路:解析自然语言查询、浏览数据库表结构、生成正确的 SQL 代码、数据预处理,以及配置因果推理模型。领域专家可通过与 ORCA 的迭代交互保持对分析过程的控制,从而在无需深入掌握统计技术的情况下,做出稳健的数据驱动决策。

数据集分析

REEF 是一个合成的电子商务数据库,基于行业知识模拟了业务逻辑与因果关系。变量生成采用规则逻辑与概率抽样相结合的方式,并借助 Faker.js 在 JavaScript 中实现。部分变量的生成依赖于其他变量,以确保实验可复现并适用于因果分析评估。生成方法主要分为两类:

  1. 随机抽样变量:例如产品价格在 [5,500] 范围内随机生成;

  2. 因果驱动变量:例如用户活跃状态(is_active)受注册时间(signup_days_ago)影响,采用 S 型函数进行概率缩放,模拟“注册越久、活跃度越低”的趋势。

小结

尽管 REEF 数据集结构复杂、更贴近真实业务环境,ORCA 在该数据集上仍取得了 60.00% 的执行准确率,而 GPT-4o mini 的表现则显著较低,仅为 6.67%。然而,ORCA 并未实现对通用因果关系的自动发现,还是需要人工整理因果关系对应的字段,论文里说明在不同领域,需要不同的知识,因此在达到 60% 正确率的基础是要人工整理可能的因果映射。

text2SQL4PM

text2SQL4PM[4] 是一个面向流程挖掘(process mining)领域的双语(葡萄牙语-英语)文本到 SQL 基准数据集。该数据集针对流程挖掘特有的挑战设计,涵盖专业词汇和基于事件日志的单表关系结构,包含 1,655 条自然语言语句(含人工释义)、205 条 SQL 语句和 10 个限定符。构建过程融合了专家手动整理、专业翻译和细致标注,可支持对任务复杂度的深入分析。 

论文意图

流程挖掘属于数据分析的一种形式,主要是是利用系统事件日志中的数据,重建和分析业务流程实际运行情况的技术。例如:企业系统(如 ERP、CRM、OA、工单系统等)都会记录操作日志,流程挖掘读取这些日志,自动生成真实用户操作“流程图”,展示流程实际是如何执行的,并找出流程中的瓶颈、偏差、低效环节等问题。

作者在论文里希望将 NL2SQL 与领域分析结合来提高工作效率,流程挖掘中存储事件日志的最常见标准是 XES(可扩展事件流),当转换为关系数据库使用时,它会生成单个非规范化的表。缺乏规范化,再加上流程挖掘的专业词汇和独特的信息需求,使得文本到 SQL 策略在该领域的表现往往不如传统领域。

尽管通过 SQL 从关系数据库中的单个表执行信息检索的情况看似简单,但探索性研究表明,在这种情况下查询信息可能相当具有挑战性。

数据集分析

数据集主要由人工标注,生成包含三个阶段:

  1. 数据采集:29 名本科生和 13 名研究生,他们选修了以流程挖掘为主题的课程,并且之前具有 SQL 知识,受邀参加一项练习。通过本次练习,一共生成了 237 对语句-语句对作为初始数据集的内容;
  2. 改进数据集内容:由三位流程挖掘专家来对数据集进行校验、语义替换、8 个维度的标签标注;
  3. 数据集扩充:聘请了一位英语母语的专业翻译人员将所有语句翻译成英语,原数据集为葡萄牙语。并由数据挖掘专家确认英文版本与原文的语义一致。

小结

在 text2SQL4PM 的评测中,GPT-3.5 Turbo 在英语和葡萄牙语上的准确率仅为 30%–40%,说明 NL2SQL 在流程挖掘领域仍有较大提升空间。该数据集凭借其双语特性、丰富的释义资源以及由母语者和专家共同构建的标注质量,不仅可作为语义解析任务的重要基准,也有潜力用于机器翻译、释义生成等自然语言处理任务。尤其在流程挖掘领域,由具备深厚专业知识的研究人员精心制作的释义,更是极具价值的语料资源。

参考资料
[1] REEF 论文: https://arxiv.org/html/2508.21304
[2] text2SQL4PM 论文: https://arxiv.org/html/2509.09684
[3] REEF 数据集: https://github.com/ChaemyungLim/ORCA/tree/main/REEF
[4] text2SQL4PM: https://github.com/pm-usp/text-2-sql
分类: 数据集推荐