开发者社区

文档建议反馈控制台

最新优惠活动

文章/答案/技术大牛

发布

Antlr4中的Antr3规则重写

ANTLR（Another Tool for Language Recognition）是一种强大的工具，用于生成解析器和词法分析器。ANTLR4与ANTLR3在语法规则的定义和处理上有一些显著的变化。如果你有一个ANTLR3的语法规则，并希望将其迁移到ANTLR4，需要注意以下几点：

主要变化

语法文件头部声明：
- ANTLR3使用grammar关键字，而ANTLR4也使用grammar关键字，但有一些额外的选项和注释方式。
词法和语法规则的分离：
- 在ANTLR3中，词法规则和语法规则可以混合在一起。
- 在ANTLR4中，词法规则（大写字母开头）和语法规则（小写字母开头）仍然可以混合，但推荐分开定义。
返回值和参数：
- ANTLR3使用returns和parameters来定义规则的返回值和参数。
- ANTLR4使用->操作符来定义返回值，并且参数可以直接在规则中定义。
树结构：
- ANTLR3使用^和!来构建抽象语法树（AST）。
- ANTLR4不再使用这些符号，而是使用显式的树构建器和访问器。

示例

假设你有一个ANTLR3的语法文件Example.g，其中包含以下规则：

grammar Example;

options {
  output=AST;
}

tokens {
  PLUS = '+' ;
  MINUS = '-' ;
}

expr
  : term ( (PLUS^ | MINUS^) term )*
  ;

term
  : INT
  ;

INT
  : '0'..'9'+
  ;

重写为ANTLR4

以下是将上述ANTLR3语法重写为ANTLR4的示例：

grammar Example;

expr
  : term ( (PLUS | MINUS) term )*
  ;

term
  : INT
  ;

PLUS: '+';
MINUS: '-';
INT: [0-9]+;
WS: [ \t\r\n]+ -> skip;

详细解释

语法文件头部声明：
- 语法文件头部声明保持不变，但不再需要options块来指定output=AST，因为ANTLR4默认生成解析树。
词法和语法规则的分离：
- 词法规则（PLUS, MINUS, INT, WS）和语法规则（expr, term）仍然可以混合在一起，但推荐分开定义。
返回值和参数：
- 在ANTLR4中，不再需要显式地使用returns和parameters，可以直接在规则中定义。
树结构：
- ANTLR4不再使用^和!来构建AST。相反，ANTLR4生成解析树，你可以使用访问器或监听器来遍历和处理解析树。

访问器和监听器

在ANTLR4中，你可以使用访问器（Visitor）或监听器（Listener）来处理解析树。以下是一个简单的访问器示例：

import org.antlr.v4.runtime.*;
import org.antlr.v4.runtime.tree.*;

public class ExampleVisitor extends ExampleBaseVisitor<Integer> {
    @Override
    public Integer visitExpr(ExampleParser.ExprContext ctx) {
        int left = visit(ctx.term(0));
        for (int i = 1; i < ctx.term().size(); i++) {
            if (ctx.getChild(2 * i - 1).getText().equals("+")) {
                left += visit(ctx.term(i));
            } else {
                left -= visit(ctx.term(i));
            }
        }
        return left;
    }

    @Override
    public Integer visitTerm(ExampleParser.TermContext ctx) {
        return Integer.parseInt(ctx.INT().getText());
    }

    public static void main(String[] args) throws Exception {
        CharStream input = CharStreams.fromString("3 + 5 - 2");
        ExampleLexer lexer = new ExampleLexer(input);
        CommonTokenStream tokens = new CommonTokenStream(lexer);
        ExampleParser parser = new ExampleParser(tokens);
        ParseTree tree = parser.expr();
        ExampleVisitor visitor = new ExampleVisitor();
        int result = visitor.visit(tree);
        System.out.println("Result: " + result);
    }
}

页面内容是否对你有帮助？

有帮助

没帮助

相关·内容

Antlr4 语法解析器(下)

Antlr4 的两种AST遍历方式：Visitor方式和 Listener方式。

02

antlr4入门篇

ANTLR实际上有两件事：一种将您的语法转换为Java（或其他目标语言）的解析器/词法分析器的工具，以及生成的解析器/词法分析器所需的运行时。即使您使用ANTLR Intellij插件或ANTLRWorks来运行ANTLR工具，生成的代码仍将需要运行时库。

01

探究Presto SQL引擎(1)-巧用Antlr

自2014年大数据首次写入政府工作报告，大数据已经发展7年。大数据的类型也从交易数据延伸到交互数据与传感数据。数据规模也到达了PB级别。

01

Antlr4实战：统一SQL路由多引擎

ANTLR是一款功能强大的语法分析器生成器，可用来读取、处理、执行和转换结构化文本或二进制文件。它被广泛应用于学术界和工业界构建各种语言、工具和框架。Antlr在Hadoop整个生态系统应用较为广泛，如Hive 词法文件是Antlr3写的；Presto词法文件也Antlr4实现的；SparkSQL词法文件是用Presto的词法文件改写的；还有HBase的访问客户端Phoenix也用Antlr工具进行SQL解析的等等。

04

探究Presto SQL引擎(1)-巧用Antlr

自2014年大数据首次写入政府工作报告，大数据已经发展7年。大数据的类型也从交易数据延伸到交互数据与传感数据。数据规模也到达了PB级别。

03

如何实现一个SQL解析器

随着技术的不断的发展，在大数据领域出现了越来越多的技术框架。而为了降低大数据的学习成本和难度，越来越多的大数据技术和应用开始支持SQL进行数据查询。SQL作为一个学习成本很低的语言，支持SQL进行数据查询可以降低用户使用大数据的门槛，让更多的用户能够使用大数据。

03

日常运维｜语法分析解析工具之ANTLR4（一）

用ANTLR实现数据加载器、语言解释器、语言翻译器。基于自动生成的语法分析树解析文件。简单来说就是，ANTLR根据用户自定义的语法文件自动生成词法分析器和语法分析器，并将输入文本处理为语法分析树（可视化）。ANTLR 是一款强大的语法分析器生成工具，可用于读取、处理、执行和翻译结构化的文本或二进制文件。

02

使用antlr4构造我的语法树

编译器的前端和后端。前端指的是编译器对程序代码的分析和理解。前端阶段只与语言的语法有关，而和目标机器无关。后端则是生成目标机器的目标代码有关。第一节说说编译器的前端技术。

用antlr解析odata filter条件表达式

我最早接触antlr，是在刚开始工作后不久，那次需要用antlr实现一个功能：把gemfire的OQL（object query language）翻译成SQL语句，以便进行数据库操作。其实，简单讲，antlr就是一个非常方便的词法分析和语法分析的类库，基于这个类库，可以很容易的实现很多场景，比如计算器算术表达式的解析、各种编程语言的解析等。

01

打破国外垄断，开发中国人自己的编程语言（1）：编写解析表达式的计算器

本文是《打破国外垄断，开发中国人自己的编程语言》系列文章的第1篇。本系列文章的主要目的是教大家学会如何从零开始设计一种编程语言（marvel语言），并使用marvel语言开发一些真实的项目，如移动App、Web应用等。marvel语言可以通过下面3种方式运行：

04

Antlr4的相关用法

ANTLR (ANother Tool for Language Recognition) 是一个强大的解析器的生成器，可以用来读取、处理、执行或翻译结构化文本或二进制文件。他被广泛用来构建语言，工具和框架。ANTLR可以从语法上来生成一个可以构建和遍历解析树的解析器。

06

如何愉快地写个小parser

（一）在前几日的文章『软件随想录』里，我随性写了一句：「现在似乎已经不是lex/yacc 或 bison/flex的时代了。我亲眼看见一个同事在费力地用perl一行行解析某个系统的数据文件，却压根没想到写个BNF。BNF对他来说，不是一种选择。」很多同学不解，问我：lex/yacc不是写编译器 [1] 的么？我又不发明新的语言，它们对我有什么用？从这个问题里，我们可以见到国内本科教育荼毒之深。象牙塔里的讲编译原理的老师们，估计用lex/yacc也就是写过个毫无用处的toy language，然后把自己

有赞大数据平台安全建设实践

在大数据平台建设初期，安全也许并不是被重点关注的一环。大数据平台的定位主要是服务数据开发人员，提高数据开发效率，提供便捷的开发流程，有效支持数仓建设。大数据平台的用户都是公司内部人员。数据本身的安全性已经由公司层面的网络及物理机房的隔离来得到保证。那么数据平台建设过程中，需要考虑哪些安全性方面的问题？

01

大数据平台安全建设实践[通俗易懂]

在大数据平台建设初期，安全也许并不是被重点关注的一环。大数据平台的定位主要是服务数据开发人员，提高数据开发效率，提供便捷的开发流程，有效支持数仓建设。大数据平台的用户都是公司内部人员。数据本身的安全性已经由公司层面的网络及物理机房的隔离来得到保证。那么数据平台建设过程中，需要考虑哪些安全性方面的问题？

05

[Spark SQL] 源码解析之Parser

Parser就是将SQL字符串切分成一个个Token，再根据一定语义规则解析为一棵语法树。我们写的sql语句只是一个字符串而已，首先需要将其通过词法解析和语法解析生成语法树，Spark1.x版本使用的是scala原生的parser语法解析器，从2.x后改用的是第三方语法解析工具ANTLR4，在性能上有了较大的提升。

03

MySQL Shell 8.0.32 for GreatSQL编译二进制包

之前已经写过一篇前传 MySQL Shell 8.0.32 for GreatSQL编译安装，最近再次编译MySQL Shell二进制包时，发现了一些新问题，因此重新整理更新本文档。

01

MySQL Shell 8.0.32 for GreatSQL编译二进制包

之前已经写过一篇前传 MySQL Shell 8.0.32 for GreatSQL编译安装，最近再次编译MySQL Shell二进制包时，发现了一些新问题，因此重新整理更新本文档。

01

[Spark SQL] 主要执行流程

SparkSql的第一件事就是把SQLText解析成语法树，这棵树包含了很多节点对象，节点可以有特定的数据类型，同时可以有0个或者多个子节点，节点在SparkSQL中的表现形式为TreeNode对象。举个实际的例子：

01

1.ANTLR4 helloworld基础开发与IDEA插件使用

无需antlr4任何安装，基于IDEA创建一个Java项目，开发antlr的helloworld，使用antlr插件测试规则。

02

一文了解函数式查询优化器Spark SQL Catalyst

记录一下个人对sparkSql的catalyst这个函数式的可扩展的查询优化器的理解，目录如下：

02

浅尝antlr4

这次使用antlr的诱因是whosbug中使用的ctags（另一个语法分析器）只对c系语言支持较好，对java等语言的支持欠佳（甚至可以说很差了），为了whosbug的鲁棒性我认为还是有必要换一个语法分析器的

02

Antlr实战之JSON解析器slowjson

最近一直在学习编译原理，然后就了解到了antlr4这个强大的工具，antlr的全称是(Another Tool for Language Recognition)，是一款很强大的词法和语法分析工具，虽然是用java写成的，但它也能生成c++、go……等语言的代码。它的主要作用就是你可以用巴科斯范式来描述语法规则，然后它帮你生成对应的解析器。

01

Spark SQL源码研读系列01：ParseTree

ANTLR是Another Tool for Language Recognition的缩写。

02

能“理解代码”的缺陷分配服务之技术内核

如果缺陷没有分配给正确的人，会导致重要缺陷不断流转，很慢才能解决；而在流转的过程中会增加大量的交接成本——我们观察到一个简单的缺陷在流转中会浪费超过5天（见下图）。而且把缺陷分配给错误的人还可能导致被分配人不知道此缺陷的前因后果，修改缺陷时容易犯错，引发新的问题。

04

MySQL Shell 8.0.32 for GreatSQL编译安装

GreatSQL 8.0.32-24已发布，配套的MySQL Shell也需要跟着升级一波，MySQL Shell版本从8.0.25升级到8.0.32后，也引入了一些不错的新特性。

01

MySQL Shell 8.0.32 for GreatSQL编译安装

GreatSQL 8.0.32-24已发布，配套的MySQL Shell也需要跟着升级一波，MySQL Shell版本从8.0.25升级到8.0.32后，也引入了一些不错的新特性。

02

.NET周报【10月第1期 2022-10-11】

https://github.com/dotnet/runtimelab/pull/2002

02

分布式sql引擎原理分析-逻辑执行计划生成

本文档以当前流行的分布式大数据查询引擎Presto为切入点，分析一个query语句怎么生成为一个分段的逻辑计划。

分布式sql引擎原理分析-逻辑执行计划生成

不管是传统数据库或者基于sql的分布式大数据分析工具，基本原理都是把一个sql转换成sql语法树(AST)，通过对语法树的分析转换成执行计划。传统数据库会根据执行计划通过执行引擎并返回结果；而大数据sql分析工具，由于针对更大数据量而生，为了更好的扩展性、容错性和高可用，会把执行计划分成逻辑执行计划和物理执行计划，并且根据查询sql的特点切分逻辑计划，这样可以把分块的逻辑计划分配到更具扩展性的并行节点，最后根据逻辑执行计划转成物理执行计划进行查询。

02

ShardingSphere的一些核心概念和核心过程

前面我们知道ShardingSphere需要执行五大核心流程，但是我们没有对五大核心流程有一个更深入的了解。也即五大过程做了什么事情。下面我们来了解两个概念以及五大核心流程。

01

Spark SQL 整体介绍

sparksession rdd sparkcontext sparksql sqlcontent dstream streammingcontext hivesql hivecontext

01

扩展 Spark SQL 解析

大家好久不见了，最近生活发生了很多变故，同时我也大病了一场，希望一切都尽快好起来吧。今天跟大家分享下Spark吧，谈谈如何修改Spark SQL解析，让其更符合你的业务逻辑。好，我们开始吧...

07

笔记：写Flink SQL Helper时学到的一些姿势

这块其实是编译原理的一部分，属于前端编译部分，并未涉及后端编译。见：github.com/camilesing/…中的 // 使用生成的词法分析器和解析器进行语法检查 const inputStream = new ANTLRInputStream(event.getText()); //词法解析 const lexer = new FlinkSQLLexer(inputStream); const tokenStream = new CommonTokenStream(lexer); //语法解析 const parser = new FlinkSQLParser(tokenStream); parser.removeErrorListeners(); parser.addErrorListener({ syntaxError: (recognizer: Recognizer<any, any>, offendingSymbol: any, line: number, charPositionInLine: number, msg: string, e: RecognitionException | undefined): void => { vscode.window.showErrorMessage("Parser flink sql error. line: " + line + " position: " + charPositionInLine + " msg: " + msg); }, }) parser.compileParseTreePattern // 解析文件内容并获取语法树 const parseTree = parser.program(); 写这块代码我用到了Antlr4-TS这个库。我根据一些Antlr4的语法规则，生成了对应的代码，并将输入内容丢进这些类，让它们吐出结果。在了解Antlr相关的语法规则时，让我特别震撼——类似于刚毕业一年时接触到DSL时的震撼。通过一系列规则的描述，竟然可以生产如此复杂、繁多的代码，巨幅解放生产力。这些规则是一种很美又具有实际价值的抽象。那让我们抛开Antlr这个框架的能力，如果去手写一个词法、语法分析的实现，该怎么做呢？在编程语言里，一般会有保留字和标识符的概念。保留字就是这个语言的关键字，比如SQL中的select，Java中的int等等，标识符就是你用于命名的文字。比如public class Person中的Person，select f1 as f1_v2 from t1 中的f1,f1_v2,t1。再扩展一下概念，我们以int a=1;这样一段代码为例子，int 是关键字，a是标识符，=是操作符，;是符号（结束符）。搞清楚哪些词属于什么类型，这就是词法解析器要做的事。那怎么做呢？最简单的方法其实就是按照一定规则（比如A-Za-z$）一个个去读取，比如读到i的时候，它要去看后面是不是结束符或者空格，也就上文提到的的peek，如果不为空，就要继续往后读，直到读到空格或者结束符。那么读取出来是个int，就知道这是个关键字。伪代码如下：循环读取字符 case 空白字符处理，并继续循环 case 行结束符处理，并继续循环 case A-Za-z$_ 调用scanIden()识别标识符和关键字，并结束循环 case 0之后是X或x，或者1-9 调用scanNumber()识别数字，并结束循环 case , ; ( ) [ ]等字符返回代表这些符号的Token，并结束循环 case isSpectial()，也就是% * + - | 等特殊字符调用scanOperator()识别操作符 ... 这下我们知道了int a=1;在词法解析器看来其实就是关键字（类型）标识符操作符数字结束符。这样的写法其实是符合Java的语法规则的。反过来说：int int=1;是能够通过词法分析的，但是无法通过语法分析，因为关键字（类型）关键字（类型）操作符数字结束符是不符合Java的语法定义的。这个时候可能会有人问，为啥要有词法分析这一层？都放到语法分析这一层也是可以做的啊。可以做，但会很复杂。而且一般软件工程中会都做分层，避免外面的变动影响到里面的核心逻辑。举个例子：后续Java新增了一个类型，如果词法分析、语法分析是拆开的，那么只要改词法分析层的一些代码就行了，语法分析不用。但是如果没有词法分析这一层，语法分析的代码会有很多，而且一点点改动就很容易影响到这一层。在此之后就会生成语法树。后续我打算做一些基于语法树的分析，Antlr提供了两种读语法节点的方式，一种是Vistor，一种是Listeners。前者意

01

Whosbug项目日志1

从八月份的企业实训到现在，关于whosbug断断续续也开发了一个多月了（实际开发时间），

04

元数据解读

“元数据是关于数据的数据”。从数据、信息、知识和智慧人类认知领域的层次结构来讲，数据是通过工具或机器搜集的原始资料。确切地说，数据是原始、未经处理的资料或潜在信息。信息就是经过某种处理并供人使用的数据。知识指的是你知道的事情，也就是经过内化的信息，而智慧则是指了解如何运用知识。元数据是对潜在信息的信息，是关于数据的更高层次抽象，是对数据的描述。

05

M语言编程_所有编程语言大全

一直对技术有很强的兴趣，终于，决定要写自己的语言（m语言）。那就先从最简单的开始：解释执行器。

03

ES 脚本实现

在我的上篇文章ES 脚本介绍中介绍了ES 脚本的基本概念和使用，而本文将对其内部实现做一个分析。

04

数仓工作的简单介绍和对比

参考：https://suncle.me/2018/04/16/Hadoop-MapReduce-HDFS-Introduction/

03

基于spark源码做单元测试

之前debug spark源码，是通过写application debug，这个不是基于spark源码本身的调试。

04

元数据：数据治理的基石

据说，英语中元数据meta一词最早出现于1968年，其是对希腊语前缀"meta-"的粗略翻译，用于表明更抽象层次的事物。尽管元数据一词只有几十年的历史，然而几千年的图书馆管理员们一直在工作中使用着元数据，只不过我们先所谓的“元数据”是历史上被称为"图书馆目录信息"。图书目录中的信息解决了一个十分关键的问题，就是如何帮助用户在图书馆快速地、准确地找到想要的资料。

01

手写一个简化版的 Spring Cloud！

你好，我是 Guide！这里是 JavaGuide 的「优质开源项目推荐」第 9 期，每一期我都会精选 5 个高质量的 Java 开源项目。

02

迈出加入 Apache IoTDB 社区的第一步！（订阅邮件、调试代码）

很多想参与项目开发的同学因为没有人领路，不知道哪些任务适合自己，对于如何参与到项目中也是一头雾水。今天就来介绍一下如何参与开发，本文主要目标是帮助大家如何加入社区。

03

元数据：跨引擎超完备字段级血缘关系解题方法

元数据是关于数据的数据，是对数据的描述，元数据又分为三类：管理元数据、业务元数据和技术元数据。而字段或表级血缘关系就是技术元数据，关于业务元数据和管理元数据等元数据相关知识笔者给出前期文章分享链接，笔者这里不再赘述。

05

我参与阿里巴巴 ASoC-Seata 的一些感悟

我先来说说 Seata 这个项目的 idea 是怎么来的。一直就有参与开源项目的打算，一个事物的兴起必定或大或小引发一定的问题，微服务就是这样，分布式事务概念泛化的同时，也带来了一个技术问题，微服务架构下分布式数据一致性该如何保证？这几年涌现出不少分布式事务框架，比如ByteTCC、TCC-transaction、EasyTransaction 以及最近很火爆的 Seata。想要破解罪恶，就必须接近它，甚至成为它。我是去年 8 月份从 GitHub 开始关注 Seata 项目的，初步熟悉后，我觉得它的设计理念非常好，我对它产生了浓厚的兴趣，那个时候就萌发了我要成为这个项目的贡献者。偶然的机会看到 Seata issue发现了 ASoC 这个活动。

02

教你如何用AST语法树对代码“动手脚”

作为程序猿，每天都在写代码，但是有没有想过通过代码对写好的代码”动点手脚”呢？今天就与大家分享——如何通过用AST语法树改写Java代码。先抛一个问题：如何将图一代码改写为图二？ void someMethod(){ String rst=callAnotherMethod(); LogUtil.log(TAG,”这里是一条非常非常长，比唐僧还啰嗦的日志信息描述，但是我短一点还不方便进行错误日志分析，调用callSomeMethod返回的结果是:”+rst); …… } 图一 void s

06

为了学习分库分表，我把 Cobar 源码抄了一遍

十几年前，互联网产业蓬勃发展，相比传统 IT 企业，互联网应用每天会产生海量的数据。

01

＞＞技术应用：OGG 的参数模版使用ANTLR4解析（二）

上一篇定义了正在运行程序暴露出来的错误，这一篇具体来说一下解决思路以及具体的解决方案。

02

日常运维｜OGG 的参数模版使用ANTLR4解析（二）

上一篇定义了正在运行程序暴露出来的错误，这一篇具体来说一下解决思路以及具体的解决方案。

03

Spark CBO统计元数据

Statistics 统计信息，参考：org.apache.spark.sql.catalyst.plans.logical.Statistics

09

如何用代码为代码建模？

去年年底，在公司大佬的带领下，我们结合架构守护的需要，对代码进行了简单的建模。在过去的几个月里，我一直工作在相关的事项上，不断地优化、改进相关的模型：

01

扫码

添加站长进交流群

领取专属 10元无门槛券

手把手带您无忧上云

扫码加入开发者社群

相关资讯

热门标签

活动推荐

运营活动

活动名称

广告关闭