字母数字词之间可能有空格的ANTLR解析器

ANTLR解析器是一种强大的语法分析器生成器，它可以根据给定的语法规则生成解析器和词法分析器。ANTLR的全称是"ANother Tool for Language Recognition"，它支持多种编程语言，并且具有广泛的应用场景。

ANTLR解析器的主要优势包括：

强大的语法分析能力：ANTLR可以根据语法规则生成高效的解析器，能够处理复杂的语法结构，包括上下文无关文法和上下文相关文法。
多语言支持：ANTLR支持多种编程语言，包括Java、C++、Python等，使得开发人员可以根据自己的喜好和项目需求选择合适的语言进行开发。
可扩展性：ANTLR提供了丰富的扩展机制，开发人员可以通过自定义语义动作、监听器和访问器等方式对生成的解析器进行扩展和定制，以满足特定的需求。
生成可读性强的解析树：ANTLR生成的解析器可以生成可读性强的解析树，方便开发人员进行调试和分析。

ANTLR解析器的应用场景包括但不限于：

编程语言解析：ANTLR可以用于解析各种编程语言的源代码，从而实现语法分析、语义分析等功能。
数据格式解析：ANTLR可以用于解析各种数据格式，如JSON、XML等，从而实现数据的解析和转换。
领域特定语言解析：ANTLR可以用于解析各种领域特定语言（DSL），如配置文件、查询语言等，从而实现特定领域的功能。
编译器和解释器开发：ANTLR可以用于开发编译器和解释器，实现源代码到目标代码的转换和执行。

腾讯云提供了一款与ANTLR相关的产品，即"腾讯云语法分析（Tencent Cloud Syntax Analysis）"。该产品基于ANTLR技术，提供了一站式的语法分析解决方案，包括语法定义、解析器生成、解析树生成等功能。您可以通过以下链接了解更多关于腾讯云语法分析的信息：

https://cloud.tencent.com/product/sa

这块其实是编译原理的一部分，属于前端编译部分，并未涉及后端编译。见：github.com/camilesing/…中的 // 使用生成的词法分析器和解析器进行语法检查 const inputStream = new ANTLRInputStream(event.getText()); //词法解析 const lexer = new FlinkSQLLexer(inputStream); const tokenStream = new CommonTokenStream(lexer); //语法解析 const parser = new FlinkSQLParser(tokenStream); parser.removeErrorListeners(); parser.addErrorListener({ syntaxError: (recognizer: Recognizer<any, any>, offendingSymbol: any, line: number, charPositionInLine: number, msg: string, e: RecognitionException | undefined): void => { vscode.window.showErrorMessage("Parser flink sql error. line: " + line + " position: " + charPositionInLine + " msg: " + msg); }, }) parser.compileParseTreePattern // 解析文件内容并获取语法树 const parseTree = parser.program(); 写这块代码我用到了Antlr4-TS这个库。我根据一些Antlr4的语法规则，生成了对应的代码，并将输入内容丢进这些类，让它们吐出结果。在了解Antlr相关的语法规则时，让我特别震撼——类似于刚毕业一年时接触到DSL时的震撼。通过一系列规则的描述，竟然可以生产如此复杂、繁多的代码，巨幅解放生产力。这些规则是一种很美又具有实际价值的抽象。那让我们抛开Antlr这个框架的能力，如果去手写一个词法、语法分析的实现，该怎么做呢？在编程语言里，一般会有保留字和标识符的概念。保留字就是这个语言的关键字，比如SQL中的select，Java中的int等等，标识符就是你用于命名的文字。比如public class Person中的Person，select f1 as f1_v2 from t1 中的f1,f1_v2,t1。再扩展一下概念，我们以int a=1;这样一段代码为例子，int 是关键字，a是标识符，=是操作符，;是符号（结束符）。搞清楚哪些词属于什么类型，这就是词法解析器要做的事。那怎么做呢？最简单的方法其实就是按照一定规则（比如A-Za-z$）一个个去读取，比如读到i的时候，它要去看后面是不是结束符或者空格，也就上文提到的的peek，如果不为空，就要继续往后读，直到读到空格或者结束符。那么读取出来是个int，就知道这是个关键字。伪代码如下：循环读取字符 case 空白字符处理，并继续循环 case 行结束符处理，并继续循环 case A-Za-z$_ 调用scanIden()识别标识符和关键字，并结束循环 case 0之后是X或x，或者1-9 调用scanNumber()识别数字，并结束循环 case , ; ( ) [ ]等字符返回代表这些符号的Token，并结束循环 case isSpectial()，也就是% * + - | 等特殊字符调用scanOperator()识别操作符 ... 这下我们知道了int a=1;在词法解析器看来其实就是关键字（类型）标识符操作符数字结束符。这样的写法其实是符合Java的语法规则的。反过来说：int int=1;是能够通过词法分析的，但是无法通过语法分析，因为关键字（类型）关键字（类型）操作符数字结束符是不符合Java的语法定义的。这个时候可能会有人问，为啥要有词法分析这一层？都放到语法分析这一层也是可以做的啊。可以做，但会很复杂。而且一般软件工程中会都做分层，避免外面的变动影响到里面的核心逻辑。举个例子：后续Java新增了一个类型，如果词法分析、语法分析是拆开的，那么只要改词法分析层的一些代码就行了，语法分析不用。但是如果没有词法分析这一层，语法分析的代码会有很多，而且一点点改动就很容易影响到这一层。在此之后就会生成语法树。后续我打算做一些基于语法树的分析，Antlr提供了两种读语法节点的方式，一种是Vistor，一种是Listeners。前者意

被<![CDATA[]]>这个标记所包含的内容将表示为纯文本，比如<![CDATA[<]]>表示文本内容“<”。　　此标记用于xml文档中，我们先来看看使用转义符的情况。我们知道，在xml中，”<”、”>”、”&”等字符是不能直接存入的，否则xml语法检查时会报错，如果想在xml中使用这些符号，必须将其转义为实体，如”<”、”>”、”&”，这样才能保存进xml文档。　　在使用程序读取的时候，解析器会自动将这些实体转换回”<”、”>”、”&”。举个例子： <age> age < 30 </age> 　　上面这种写法会报错，应该这样写： <age> age < 30 </age> 　　值得注意的是：　　(1)转义序列字符之间不能有空格；　　(2) 转义序列必须以”;”结束；　　(3) 单独出现的”&”不会被认为是转义的开始；　　(4) 区分大小写。　　在XML中，需要转义的字符有：　　(1)&　　　& 　　(2)<　　　< 　　(3)>　　　> 　　(4)＂　　　" 　　(5)＇　　　' 　　但是严格来说，在XML中只有”<”和”&”是非法的，其它三个都是可以合法存在的，但是，把它们都进行转义是一个好的习惯。　　不管怎么样，转义前的字符也好，转义后的字符也好，都会被xml解析器解析，为了方便起见，使用<![CDATA[]]>来包含不被xml解析器解析的内容。但要注意的是：　　(1) 此部分不能再包含”]]>”；　　(2) 不允许嵌套使用；　　(3)”]]>”这部分不能包含空格或者换行。　　最后，说说<![CDATA[]]>和xml转移字符的关系，它们两个看起来是不是感觉功能重复了？　　是的，它们的功能就是一样的，只是应用场景和需求有些不同：　　(1)<![CDATA[]]>不能适用所有情况，转义字符可以；　　(2) 对于短字符串<![CDATA[]]>写起来啰嗦，对于长字符串转义字符写起来可读性差；　　(3) <![CDATA[]]>表示xml解析器忽略解析，所以更快。

我先来说说 Seata 这个项目的 idea 是怎么来的。一直就有参与开源项目的打算，一个事物的兴起必定或大或小引发一定的问题，微服务就是这样，分布式事务概念泛化的同时，也带来了一个技术问题，微服务架构下分布式数据一致性该如何保证？这几年涌现出不少分布式事务框架，比如ByteTCC、TCC-transaction、EasyTransaction 以及最近很火爆的 Seata。想要破解罪恶，就必须接近它，甚至成为它。我是去年 8 月份从 GitHub 开始关注 Seata 项目的，初步熟悉后，我觉得它的设计理念非常好，我对它产生了浓厚的兴趣，那个时候就萌发了我要成为这个项目的贡献者。偶然的机会看到 Seata issue发现了 ASoC 这个活动。

3个月前，我写了一篇文章，详细讲述了用解析库编写计算器的过程。然而，读者们普遍反应，他们对于见到一个从头开始写并且除了电池以外别无他物的计算器更感兴趣。我想，为什么不呢？写一个计算机很简单，如果你使用针对算术表达式的hacks的话。但是hacks的产生的后果也几乎总是一样的：解决方案不够优雅，不可扩展，并且很难直观的理解。我喜欢挑战，并且打算发一个有益的帖子，所以我决定用通用递归下降解析器来写它。本着与上次相同的精神，我打算用尽可能少的行数来干这件事，所以它充满了hacks和tricks。但它们是表面的，

010

扫码

添加站长进交流群

领取专属 10元无门槛券

手把手带您无忧上云

字母数字词之间可能有空格的ANTLR解析器

社区

活动

资源

关于

腾讯云开发者

热门产品

热门推荐

更多推荐