我想创建一个Java应用程序,使用Spark查询HDFS中的数据。到目前为止,我已经通过两种方法进行了测试:-对Thrift服务器公开的JDBC端点进行SQL查询(从默认配置开始)-使用spark dataset api
我的问题是,作为hadoop/spark的新手据我所知,使用Thrift服务器需要配置和维护Thrift和Hive。另一方面,我预计使用dataset
当通过Thrift接口执行查询时,我如何告诉它在YARN上运行查询?
我正在尝试让Spark的JDBC/ODBC Thrift接口在YARN上运行Spark-SQL调用。这种组合似乎没有出现在文档中。Spark on YARN文档提供了一堆选项,但没有说明将它们放在哪个配置文件中,以便Thrift服务器可以选择它们。我看到了spark-env.sh中提到的一些设置(核心、执行器内存等),但我不知道首先在哪里告诉它使用YARN