如何使用Spark对WHERE IN进行长查询？

、

我试图在DataBricks上使用Spark访问数据，但查询太长，无法让我获得我感兴趣的数据。我是个新手，所以如果这个问题不完全有意义，请原谅。我现在唯一能做的就是分解查询，使用它的一部分并重复它。SELECT *WHERE rollID in ('1', '2', '148', '123', '21432'....)

浏览 146提问于2019-04-20得票数 2

回答已采纳

1回答

中断SQL查询提高Spark效率

、

我有一个非常大的HIVE查询，它将被迁移到spark。与之相比：Dataset<Row> c

浏览 0提问于2018-12-24得票数 3

回答已采纳

1回答

PD组件是否有任何身份验证方法来限制Spark可以访问的数据库？

PD是否有任何身份验证方法来限制Spark可以访问的数据库？因为如果有人知道我的PD地址，他们就可以使用TiSark连接到TiDB并查询我的数据库。当我使用Spark通过PD连接到TiDB时，我调用"show databases“，它会返回我所有数据库，包括新用户创建的新数据库。我的spark会话是： .master("spark:/&#x

浏览 2提问于2019-07-26得票数 1

1回答

使用Spark查询数据的最佳实践是什么？

、、

在Spark2.0.0上，如果我有一个数据库，经常使用一个表A与其他表进行连接，我是否应该持久化我的表A并以这种方式加入？还是应该使用Spark方法来指定连接A和B、A和C等的查询？如果我想使用where条件i.e .多次查询表Z和我应该<e

浏览 3提问于2016-09-20得票数 0

回答已采纳

1回答

火花过滤器操作顺序为O(1)或O(n)

、、

我试图理解火花的概念，但只是在某一点上感到困惑，我想知道spark.filter是O(n)还是O(1)，如果我先对数据进行排序，然后进行过滤，它是否会对顺序复杂性产生任何影响。因此，我们会尽量详细解释:-Case 1 : Spark.filter(id.equals(3)) Case 2 : Spark.sortBy(id).filter

浏览 0提问于2018-10-09得票数 1

回答已采纳

2回答

对dataframe的200万次查询

、

只有两种类型的查询：将表加载到一个dataframe中，并启动对dataframe的查询。将表加载到par

浏览 4提问于2020-07-13得票数 1

1回答

spark sql类似于区分大小写吗？

、、

看起来spark sql对" like“查询是区分大小写的，对吧？spark.sql("select distinct status, length(status) from table")Active|6 不返回值 spark</

浏览 8提问于2018-11-28得票数 4

1回答

我试图通过对一个Hive表运行一个简单的查询来比较Spark和hive的性能，例如： spark.sql("select * from schema.table where col = 0") 问题是，由于Spark的惰性求值行为，我必须添加一个操作才能使其运行。我想过使用.count()来强制代码运行，但我担心它会改变应用程序运行的方式，并与Hive进行错误的比较，因为每个任务不仅会进行过滤，而且还会被计算在内。最终，我想强制Spark</

浏览 23提问于2021-07-26得票数 0

1回答

是否适用于一般的非分析OLTP任务。

、、

我正在研究如何进入Apache，以便与scala和Akka一起使用cassandra数据库，我一直在试图找到一个问题的答案，即我是否真的可以放弃现有的Cassandra驱动程序，只使用Spark。它是否有通过分区、键等查找记录的方法，或者只能接受整个表并对其进行筛选。我知道你可以过滤到一个单一的记录，但这意味着迭代一个潜在的庞大的表。

浏览 2提问于2017-04-03得票数 0

回答已采纳

1回答

如果查询包含分号，则拆分多个配置单元查询

、、

我正在尝试在文件中拆分多个hive查询，并使用scala/spark对它们进行循环并运行它们。我正在使用.split(";")。但是，当查询本身包含分号时，它就会产生问题。select * from table where value='myName\;is\;Name';如何在scala中转义第一个查询中的分号并将上面的查询</em

浏览 1提问于2016-08-26得票数 0

1回答

在spark中使用下推查询，如何在spark-HBASE (BIGSQL作为SQL引擎)中获得并行性？

、、、、

在Spark中，PushdownQuery由数据库的SQL引擎进行处理，并根据处理结果构造数据框架。因此，spark查询该查询的结果。- mysql中的另一个引用()中看到，下推查询中的并行性是通过基于参数numPartitions和partitionColumn触发多个查询来实现的。构建了4个查询；触发到DB，并根据这些查询的结果构造dataframe (在本例中，并行度为4)。我现在的问题是，如何在spark (

浏览 6提问于2018-08-23得票数 0

回答已采纳

1回答

我如何实现火花放电卡桑德拉“基于键”连接器？

、、、

我使用的是Spark2.4.7，并且我已经实现了普通的吡火花卡桑德拉连接器，但是有一个用例，我需要实现基于键的连接器，我没有得到有用的博客/教程围绕它，有人请帮助我。Cassandra通常加载整个表，但我不想加载整个表，而是在源上运行查询并获取所需的数据。通过基于键的方法，我想使用一些键来获取数据，比如使用where条件From <table_name> Where <column_name>!

浏览 3提问于2022-03-25得票数 1

2回答

用于具有!=NULL & NOT IN的复杂PySpark的sql

、、、

select("m_date","userid","fsa","fsid").toDF()我可以很容易地在m_date中查询范围，如下所示： query_str = ("select * from log where m_date >= %s and m_date < %s" %(1497052766,1498059766))temp=sql.s

浏览 0提问于2017-12-24得票数 3

1回答

Spark& GeoMesa中地理空间表的左半连接

、、

问题：select * from table 1 where table1.point is within 50km of any pointin table2.point 我使用Spark-SQL和GeoMesa & Accumulo来实现同样的功能。(Spark作为处理引擎，Accumulo作为数据存储库& GeoMesa用于GeoSpatial库)。上面的查询是某种left semi join，但我不确定

浏览 3提问于2017-03-23得票数 0

回答已采纳

2回答

DBI/ Spark* :如何将结果存储在中？*

、、、、

我正在使用sparklyr运行一些分析，但我也对使用DBI编写原始SQL查询感兴趣。我能够运行以下查询dataframe <- dbGetQuery(spark_connection相反，我想要的是将数据保存在Spark中，并将其存储在另一个Spark中，以便与sparklyr进行进一步的

浏览 4提问于2017-06-16得票数 2

回答已采纳

1回答

从PostgreSQL (JDBC)进行查询的分区

、、、

我在集群模式下运行spark (与pyspark一起运行)，并通过JDBC从RDBMS读取数据。我通过查询读取信息(不是直接的表)sql = (select ... )df=spark.jdbc(url=connectionProperties, column="brand_id", lowerBound=1, 不幸的是，S

浏览 0提问于2018-05-25得票数 0

1回答

将变量传递给pyspark sql中的配置单元查询

、、

我正在尝试使用spark sql对hive表执行查询。下面的代码运行良好 spark=SparkSession.builder.master("local[1]".enableHiveSupport().appName("test").getOrCreate() df=spark.sql("select * from table_name where date='2021-05-16' and nam

浏览 22提问于2021-09-17得票数 0

回答已采纳

1回答

为什么SQL子查询中的外部引用会产生不同的结果？

、、、

我运行了两个SQL查询:第一个查询对子查询内的表进行了外部引用。在第二个示例中，我在子查询中添加了相同的表。结果是不同的，它失败是由于多行。select *, from table2 f fromtable1 a left join table2 f on a.ID2 = f.ID2

浏览 16提问于2019-07-24得票数 0

回答已采纳

1回答

如何解决JPA中“非法使用长数据类型”问题

、

我正在将Hql查询转换为jpql，但是错误地使用了长数据类型。String jpqlQuery="select entity "+ "WHERE CAST(SUBSTRING"+因此

浏览 1提问于2017-11-27得票数 0

回答已采纳

2回答

Spark中的重新分区

、

我们使用Spark的SQL 对集群上的Hive表执行查询。如何对查询中的列执行REPARTITION ( SQL-API )？请注意，我们不使用Dataframe，而是使用SQL (例如，SELECT * from table WHERE col = 1)。但是，我想知道通过REPARTITION SQL -API(通过SELECT语句)在SQL查询中指定(在特定列上)的语法。考虑以下查询<

浏览 1提问于2020-06-23得票数 1

回答已采纳

点击加载更多

扫码

添加站长进交流群

领取专属 10元无门槛券

手把手带您无忧上云

中断SQL查询提高Spark效率

PD组件是否有任何身份验证方法来限制Spark可以访问的数据库？

使用Spark查询数据的最佳实践是什么？

火花过滤器操作顺序为O(1)或O(n)

对dataframe的200万次查询

spark sql类似于区分大小写吗？

不使用动作的Spark基准测试

是否适用于一般的非分析OLTP任务。

如果查询包含分号，则拆分多个配置单元查询

在spark中使用下推查询，如何在spark-HBASE (BIGSQL作为SQL引擎)中获得并行性？

我如何实现火花放电卡桑德拉“基于键”连接器？

用于具有!=NULL & NOT IN的复杂PySpark的sql

Spark& GeoMesa中地理空间表的左半连接

DBI/ Spark* :如何将结果存储在中？*

从PostgreSQL (JDBC)进行查询的分区

将变量传递给pyspark sql中的配置单元查询

为什么SQL子查询中的外部引用会产生不同的结果？

如何解决JPA中“非法使用长数据类型”问题

Spark中的重新分区

扫码

相关资讯

热门标签

活动推荐

运营活动

社区

活动

资源

关于

腾讯云开发者

热门产品

热门推荐

更多推荐