Loading [MathJax]/jax/output/CommonHTML/config.js
前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
圈层
工具
发布
首页
学习
活动
专区
圈层
工具
MCP广场
社区首页 >专栏 >65.精读《手写 SQL 编译器 - 文法介绍》

65.精读《手写 SQL 编译器 - 文法介绍》

作者头像
黄子毅
发布于 2022-03-14 08:26:04
发布于 2022-03-14 08:26:04
59000
代码可运行
举报
文章被收录于专栏:前端精读评论前端精读评论
运行总次数:0
代码可运行

1 引言

文法用来描述语言的语法规则,所以不仅可以用在编程语言上,也可用在汉语、英语上。

2 精读

我们将一块语法规则称为 产生式,使用 “Left → Right” 表示任意产生式,用 “Left => Right” 表示产生式的推导过程,比如对于产生式:

代码语言:javascript
代码运行次数:0
运行
AI代码解释
复制
E → i
EE + E

我们进行推导时,可以这样表示:E => E + E => i + E => i + i + E => i + i + i

也有使用 Left : Right 表示产生式的例子,比如 ANTLR。BNF 范式通过 Left ::= Right 表示产生式。

举个例子,比如 SELECT * FROM table 可以被表达为:

代码语言:javascript
代码运行次数:0
运行
AI代码解释
复制
SSELECT * FROM table

当然这是最固定的语法,真实场景中,* 可能被替换为其他单词,而 table 不但可能有其他名字,还可能是个子表达式。

一般用大写的 S 表示文法的开头,称为开始符号。

终结符与非终结符

下面为了方便书写,使用 BNF 范式表示文法。

终结符就是语句的终结,读到它表示产生式分析结束,相反,非终结符就是一个新产生式的开始,比如:

代码语言:javascript
代码运行次数:0
运行
AI代码解释
复制
<selectStatement> ::= SELECT <selectList> FROM <tableName>

<selectList> ::= <selectField> [ , <selectList> ]

<tableName> ::= <tableName> [ , <tableList> ]

所有 ::= 号左边的都是非终结符,所以 selectList 是非终结符,解析 selectStatement 时遇到了 selectList 将会进入 selectList 产生式,而解析到普通 SELECT 单词就不会继续解析。

对于有二义性的文法,可以通过 上下文相关文法 方式描述,也就是在产生式左侧补全条件,解决二义性:

代码语言:javascript
代码运行次数:0
运行
AI代码解释
复制
aBc -> a1c | a2c
dBe -> d3e

一般产生式左侧都是非终结符,大写字母是非终结符,小写字母是终结符。

上面表示,非终结符 Bac 之间时,可以解析为 12,而在 de 之间时,解析为 3。但我们可以增加一个非终结符让产生式可读性更好:

代码语言:javascript
代码运行次数:0
运行
AI代码解释
复制
B -> 1 | 2
C -> 3

这样就将上下文相关文法转换为了上下文无关文法。

上下文无关文法

根据是否依赖上下文,文法分为 上下文相关文法 与 上下文无关文法,一般来说 上下文相关文法 都可以转换为一堆 上下文无关文法 来处理,而用程序处理 上下文无关文法 相对轻松。

SQL 的文法就是上下文相关文法,在正式介绍 SQL 文法之前,举一个简单的例子,比如我们描述等号(=)的文法:

代码语言:javascript
代码运行次数:0
运行
AI代码解释
复制
SELECT
  CASE
    WHEN bee = 'red' THEN 'ANGRY'
    ELSE 'NEUTRAL'
  END AS BeeState
FROM bees;

SELECT * from bees WHERE bee = 'red';

上面两个 SQL 中,等号前后的关键字取决于当前是在 CASE WHEN 语句里,还是在 WHERE 语句里,所以我们认为等号所在位置的文法是上下文相关的。

但是当我们将文法粒度变细,将 CASE WHENWHERE 区块分别交由两块文法解决,将等号这个通用的表达式抽离出来,就可以不关心上下文了,这种方式称为 上下文无关文法。

附上一个 mysql 上下文无关文法集合。

左推导与右推导

上面提到的推导符号 => 在实际运行过程中,显然有两种方向左和右:

代码语言:javascript
代码运行次数:0
运行
AI代码解释
复制
E + E => ?

从最左边的 E 开始分析,称为左推导,对语法解析来说是自顶向下的方式,常用方法是递归下降。

从最右边的 E 开始分析,称为右推导,对语法解析来说是自底向上的方式,常用方法是移进、规约。

右推导过程比左推导过程复杂,所以如果考虑手写,最好使用左推导的方式。

左推导的分支预测

比如 select <selectList>selectList 产生式,它可以表示为:

代码语言:javascript
代码运行次数:0
运行
AI代码解释
复制
<SelectList> ::= <SelectList> , <SelectField>
               | <SelectField>

由于它可以展开:SelectList => SelectList , a => SelectList , b, a => c, b, a。

但程序执行时,读到这里会进入死循环,因为 SelectList 可以被无限展开,这就是左递归问题。

消除左递归

消除左递归一般通过转化为右递归的方式,因为左递归完全不消耗 Token,而右递归可以通过消耗 Token 的方式跳出死循环。

Token 见上一期精读 精读《手写 SQL 编译器 - 词法分析》

代码语言:javascript
代码运行次数:0
运行
AI代码解释
复制
<SelectList> ::= <SelectField> <G>

<G> ::= , <SelectList>
      | null

这其实是一个通用处理,可以抽象出来:

代码语言:javascript
代码运行次数:0
运行
AI代码解释
复制
EE + F
EF
代码语言:javascript
代码运行次数:0
运行
AI代码解释
复制
EFG
G+ FG
Gnull

不过我们也不难发现,通过通用方式消除左递归后的文法更难以阅读,这是因为用死循环的方式解释问题更容易让人理解,但会导致机器崩溃。

笔者建议此处不要生硬的套公式,在套了公式后,再对产生式做一些修饰,让其更具有语义:

代码语言:javascript
代码运行次数:0
运行
AI代码解释
复制
<SelectList> ::= <SelectField>
               | , <SelectList>

提取左公因式

即便是上下文无关的文法,通过递归下降方式,许多时候也必须从左向右超前查看 K 个字符才能确定使用哪个产生式,这种文法称为 LL(k)。

但如果每次超前查看的内容都有许多字符相同,会导致第二次开始的超前查看重复解析字符串,影响性能。最理想的情况是,每次超前查看都不会对已确定的字符重复查看,解决方法是提取左公因式。

设想如下的 sql 文法:

代码语言:javascript
代码运行次数:0
运行
AI代码解释
复制
<Field> ::= <Text> as <Text>
          | <Text> as<String>
          | <Text> <Text>
          | <Text>

其实 Text 本身也是比较复杂的产生式,最坏的情况需要对 Text 连续匹配六遍。我们将 Text 公因式提取出来就可以仅匹配一遍,因为无论是何种 Field 产生式,都必定先遇到 Text:

代码语言:javascript
代码运行次数:0
运行
AI代码解释
复制
<Field> ::= <Text> <F>

<F> ::= <G>
      | <Text>

<G> ::= as <H>

<H> ::= <space> <Text>
      | <String>

和消除左递归一样,提取左公因式也会降低文法的可读性,需要进行人为修复。不过提取左公因式的修复没办法在文法中处理,在后面的 “函数式” 处理环节是有办法处理的,敬请期待。

结合优先级

对 SQL 的文法来说不存在优先级的概念,所以从某种程度来说,SQL 的语法复杂度还不如基本的加减乘除。

3 总结

在实现语法解析前,需要使用文法描述 SQL 的语法,文法描述就是语法分析的主干业务代码。

下一篇将介绍语法分析相关知识,帮助你一步步打造自己的 SQL 编译器。

4 更多讨论

讨论地址是:精读《手写 SQL 编译器 - 文法介绍》 · Issue #94 · dt-fe/weekly

本文参与 腾讯云自媒体同步曝光计划,分享自微信公众号。
原始发表:2019-07-19,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 前端精读评论 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
暂无评论
推荐阅读
编辑精选文章
换一批
78.精读《手写 SQL 编译器 - 性能优化之缓存》
First 集优化,是指在初始化时,将整体文法的 First 集找到,因此在节点匹配时,如果 Token 不存在于 First 集中,可以快速跳过这个文法,在文法调用链很长,或者 “或” 的情况比较多时,可以少走一些弯路:
黄子毅
2022/03/14
2930
78.精读《手写 SQL 编译器 - 性能优化之缓存》
TiDB SQL Parser 的实现
其中,SQL Parser的功能是把SQL语句按照SQL语法规则进行解析,将文本转换成抽象语法树(AST),这部分功能需要些背景知识才能比较容易理解,我尝试做下相关知识的介绍,希望能对读懂这部分代码有点帮助。
mazhen
2023/11/24
6790
TiDB SQL Parser 的实现
70.精读《手写 SQL 编译器 - 语法树》
重回 “手写 SQL 编辑器” 系列。之前几期介绍了 词法、文法、语法的解析,以及回溯功能的实现,这次介绍如何生成语法树。
黄子毅
2022/03/14
1.1K0
70.精读《手写 SQL 编译器 - 语法树》
侃一侃编译原理的“文法”
如果你敲累了代码,想喝喝咖啡,顺便看点儿可以当佐料的文章那本文应该比较适合现在的你。(•̀ᴗ•́)و ̑̑
于果
2021/08/25
7340
66. 精读《手写 SQL 编译器 - 语法分析》
自顶而下一般采用递归下降方式处理,称为 LL(k),第一个 L 是指从左到右分析,第二个 L 指从左开始推导,k 是指超前查看的数量,如果实现了回溯功能,k 就是无限大的,所以带有回溯功能的 LL(k) 几乎是最强大的。LL 系列一般分为 LL(0)、LL(1)、LL(k)、LL(∞)。
黄子毅
2022/03/14
1.5K0
66. 精读《手写 SQL 编译器 - 语法分析》
编译原理 第二章上: 字母表和符号串 文法概述
9.字符串集合的正闭包:正闭包要求字符串长度大于1,记作A^+^,A^+^=A^1^∪A^2^......
小徐在进步
2024/09/19
4040
编译原理 第二章上: 字母表和符号串 文法概述
编译原理学习笔记-5:自顶向下语法分析
在词法分析中,我们扫描输入源程序的每个字符,得到多种类型的单词(token),一系列的单词就构成了一条单词流。可以设想,单词流的某个部分有多个并排的单词,它们可能会构成某个句子,但是这个句子是否真的符合语法规则呢?我们需要借助语法分析器才能进行判断。更直接点,我们可以说语法分析器是用来判断句子是否符合某个给定的上下文无关文法的。
Chor
2020/05/12
5.2K2
编译原理文法详解_编译原理为什么存在递归文法
学完了词法分析,我们知道词法分析器将正则表达式转换成词法单元流,但对于这个记号流我们不知道是否能由正确的文法产生,因此我们需要通过语法分析器来检测其合法性。语法分析器的输出是一棵语法分析树(无论显性还是隐性),并且进行一些语法纠错处理。语法分析的整个过程大概就是我们先定义一个语法,再用相应的算法来检测我们的词法单元流是否符合该语法。这里主要讨论上下文无关文法构成的语法和自顶向下、自底向上的语法分析。
全栈程序员站长
2022/11/17
8090
编译原理文法详解_编译原理为什么存在递归文法
编译原理 第二章下: 推导,规约,句型句子,语言,文法分类,二义性
语言是句子的集合,文法G生成的语言记为L(G(Z)),他是文法G(Z)的一切句子的集合
小徐在进步
2024/09/20
4490
编译原理 第二章下: 推导,规约,句型句子,语言,文法分类,二义性
用c语言手搓一个600行的类c语言解释器: 给编程初学者的解释器教程(4)- 语法分析1:EBNF和递归下降文法
用c语言手搓一个600行的类c语言解释器: 给编程初学者的解释器教程(1)- 目标和前言 用c语言手搓一个600行的类c语言解释器: 给编程初学者的解释器教程(2)- 简介和设计 用c语言手搓一个600行的类c语言解释器: 给编程初学者的解释器教程(3)- 词法分析 用c语言手搓一个600行的类c语言解释器: 给编程初学者的解释器教程(4)- 语法分析1:EBNF和递归下降文法 用c语言手搓一个600行的类c语言解释器: 给编程初学者的解释器教程(5)- 语法分析2: tryC的语法分析实现 用c语言手搓一个600行的类c语言解释器: 给编程初学者的解释器教程(6)- 语义分析:符号表和变量、函数
云微
2023/02/11
5690
编译原理:文法的分类
在编译原理课程中,我们知道有4种文法:0型、1型、2型、3型。本文将对他们的区别进行描述。
灯珑LoGin
2023/10/18
1.6K0
编译原理:文法的分类
编译原理学习(到LL1文法部分)
机器语言:计算机只认识由0和1构成的机器语言,每台机器自己独特的指令系统即机器语言。 机器语言->汇编语言->高级语言 编译程序最初的定义是把一种高级语言设计的源程序(面向人的)翻译成另一种等价的低级程序设计语言(面向硬件的)即机器语言或汇编语言。
且陶陶
2023/04/12
8100
编译原理学习(到LL1文法部分)
CS143 编译器笔记
编译器前端的最后一关,可捕获前面两关无法捕获到的错误,因为有些语言不是上下文无关的,例如,(e1: int ^ e2: int) => e1 + e2: int
谛听
2023/03/12
6300
Chomsky文法类型判断
0型文法或短语结构文法的相应语言称为0型语言或短语结构语言L0。这种文法由于没有其他任何限制,因此0型文法也称为无限制文法,其相应的语言称为无限制性语言。任何0型语言都是递归可枚举的,故0型语言又称递归可枚举集。这种语言可由图灵机(Turning)来识别。
里克贝斯
2021/05/21
1.2K0
Chomsky文法类型判断
编译原理初学者入门指南
作者:pixelcao,腾讯 IEG 后台开发工程师 一、引子 最近的工作需要用表达式做一些参数的配置,然后发现大脑一片空白,在 Google 里试了几个关键词(起初搜了下“符号引擎”,发现根本不是我想要的)之后,明白过来自己应该是需要补一些编译原理的知识了。在掉了两晚上头发之后,决定整理一下自己的知识网络。 要解析的表达式大概长这个样子: avg(teams[*].players.attributes[skill])*rules[latency].maxLatency 正则表达式是个办法,但不是最优
腾讯技术工程官方号
2021/01/21
2.5K0
精读《设计模式 - Interpreter 解释器模式》
意图:给定一个语言,定义它的文法的一种表示,并定义一个解释器。这个解释器使用该表示来解释语言中的句子。
黄子毅
2022/03/14
5010
精读《设计模式 - Interpreter 解释器模式》
懂前端的你也可以轻松定义自己业务的DSL
jison是一个 JavaScript 编写的解析器生成器,可以用来生成自定义的编程语言解析器。它的令人兴奋的点在于,它允许开发人员使用 JavaScript 语言来定义语法规则,然后将其转换为解析器,从而支持自定义的编程语言。
老码小张
2023/03/12
2.6K0
懂前端的你也可以轻松定义自己业务的DSL
编译原理 | 期末复习笔记
warning: 这篇文章距离上次修改已过396天,其中的内容可能已经有所变动。
Ranlychan
2023/03/05
1.7K0
编译原理 | 期末复习笔记
85.精读《手写 SQL 编译器 - 智能提示》
词法、语法、语义分析概念都属于编译原理的前端领域,而这次的目的是做 具备完善语法提示的 SQL 编辑器,只需用到编译原理的前端部分。
黄子毅
2022/03/14
4K0
85.精读《手写 SQL 编译器 - 智能提示》
编译原理之文法
VN是一个非空有限的符号集合,它的每个元素称为非终结符号(Non-Terminal)
全栈程序员站长
2022/08/09
6720
推荐阅读
相关推荐
78.精读《手写 SQL 编译器 - 性能优化之缓存》
更多 >
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档
本文部分代码块支持一键运行,欢迎体验
本文部分代码块支持一键运行,欢迎体验