如何在spark中停止加载整个表？

、

问题是，我有一个表的读权限，这个表是按年、月和day.But分区的，我没有权限读取2016/04/24年的数据。当我在配置单元命令中执行时：除了2016/04/24，我可以读取其他天的数据但是，当我在spark上读到 sqlContext.sql.sql(select * f

浏览 3提问于2016-07-21得票数 0

回答已采纳

1回答

如何使用Pyspark从mongodb中仅提取特定行？

、、、

我正在从mongodb集合中提取数据，并使用Spark python代码将其写入bigquery表。但我只想提取满足条件的文档(如sql查询中的where条件)。我发现的一种方法是读取dataframe中的整个数据，并对该dataframe使用过滤器，如下所示：但是由于我的源mongo集合有8-10 Gb的数据，我不能每次都从mongo读

浏览 1提问于2021-02-18得票数 0

3回答

我正在做一个简单的项目，在apache spark中使用K-Means聚类，我做了一些预处理步骤，如标记化，停止单词删除，和hashingTF。这些是由spark own Tokenization()、StopWordRemover()和HasingTF()执行的。但我想在应用k均值聚类之前执行词干分析。我尝试过openNLP中的一些NLP库。但我不知道如何在spark DataFrame中实现它。有人能教我怎么做吗？

浏览 2提问于2017-05-08得票数 1

3回答

在UIWebView中暂停JavaScript执行

、、、、

我在一个UIScrollView中并排放置了多个UIWebView。每个UIWebView都包含一个显示本地超文本标记语言文件的“网络浏览器”视图。不幸的是，我不知道如何在后台加载webviews，同时阻止或停止包含在HTML文件中的JavaScript函数。我指的是“在后台”，因为我看了前几个面板，而在此期间，其余的面板只是静默地懒惰地加载。我见过不同的应用程序(如pugpig)这样做-它懒惰地加载HTML页面并停止JavaScri

浏览 0提问于2012-01-21得票数 10

回答已采纳

1回答

如果select条件基于RDD转换，spark会将整个表加载到内存中吗？

、、

DataSet<Row> a = spark.read().format("com.memsql.spark.connector").option("query", "select * from a")Sring xstring = "...select all values of x from a and make comma separated string" DataSet<Row> b = spark.read().format(

浏览 20提问于2020-02-15得票数 0

回答已采纳

1回答

星星之火-卡桑德拉，如何基于查询获取数据

、、、

我有一个卡桑德拉表，这是相当大的，现在我有火花-卡桑德拉与以下代码连接。:spark-cassandra-connector_2.12:3.0.1 --conf spark.cassandra.connection.host=127.0.0.1 pyspark-shell'load()将整个表加载到内存中，这是我想避免的。table='movies', keyspace='movie_lens')\ .l

浏览 2提问于2021-07-06得票数 1

回答已采纳

5回答

从SQL查询创建

、、、、

我确信这是一个简单的SQLContext问题，但我在Spark或Stackoverflow中找不到任何答案例如，我有一个复杂的MySQL查询，如我想出了如何将整个表加载到Spark中，我可以将它们全部加载，然后在那里进行连接和选择。然而，这是非常低效的。我只想加载由SQL查询生成的表。Mysql-连接

浏览 2提问于2016-07-14得票数 22

回答已采纳

1回答

如何优化巨大的spark数据帧SQL查询来比较来自spark streaming RDDs的值？

、、、

我从一个数据库加载了大约100万个对象到spark Dataframe，我执行SQL查询来匹配一些字段和来自spark streaming的实时数据。*WHERE Person.name='stream.name' AND Person.age='stream.age' AND ... etc stream.xxx是我从spark现在，问题是，对于具有100万行和几列的数据帧，即使DF持久存储在内存中，上面的SQL查询也可能需要一些时间才能

浏览 1提问于2015-06-27得票数 2

2回答

如何使用pyspark执行CQL查询

、、、

我可以将整个表加载到dataframe并创建临时视图并查询它。 df = spark.read.format("org.apache.spark.sql.cassandra").country_production2",keyspace="country").load() df.createOrReplaceTempView("Test") 请建议任何更好的方法，以便我可以在PySpark中执行

浏览 17提问于2020-07-22得票数 0

1回答

在spark中优化Hive表加载时间

、、、、

我正在从事一个火花流项目，其中传入的流加入多个Hive表。所以我在spark中加载表并缓存它。over (partition by a , b , c, d order by date desc) row_num from test) tmp where tmp.row_num = 1") 该表有所以整个表会加载到内存中。这个表有数十亿的数据。这会产生FAILED_TO_UNCOMPRESS(5)错误。我是

浏览 1提问于2019-03-22得票数 4

1回答

如何让我的spark RDD保持更新？

、

我正在和cassandra一起使用apache Spark。我能够创建RDDs并获得结果。我正在使用Calliope来做这件事。我试着找到了很多关于如何在不手动刷新的情况下保持RDD更新的方法。

浏览 1提问于2014-06-03得票数 0

1回答

如何将列表拆分成多个分区并发送给执行器

、、、

当我们使用spark从csv for DB读取数据时，如下所示，它会自动将数据拆分到多个分区并发送到执行器 spark .option("delimiter", ",")select * fro

浏览 10提问于2019-02-05得票数 0

回答已采纳

1回答

运行中的Spark Cassandra连接器:如果Cassandra托管在不同的服务器上，它是如何工作的

、、、

假设我想转换来自cassandra表(比如表)的数据，并使用Spark将相同的数据重写到cassandra中的其他表(比如tableNew)，我编写的代码如下所示 .set("spark.cassandra.connection.host", "a.b.c.d") .set("spark.cassandra.auth.username"

浏览 26提问于2019-07-09得票数 1

回答已采纳

1回答

在spark sql中选择数组类型

、

我在cassandra DB中有一个表，其中一列包含ip地址列表，如{['10.100.164.33'，'10.100.164.36'，'10.100.164.37'}。现在我想通过spark sql进行查询，比如选择其中一个ip是10.100.164.36的行。如何在spark sql中查询。表有3个字段current_time、destinationips和source_ip 149544834

浏览 4提问于2017-05-22得票数 0

3回答

星星之火:对数据进行排序和分区的最有效方法，将其写入到拼花中。

、、、

原则上，我的数据是一个表，它包含一个列ID和一个列GROUP_ID，还有其他的“数据”。问题第1部分： AFAIK，火花在从地板加载时保留分区(这实际上是任何“优化写入考虑”的基础)-对吗？问题第3部分:对于步骤1，三个选项中的哪个表现得更好？在进行了一些测试之后(写入和读取拼板)，在第二步<e

浏览 9提问于2017-07-20得票数 15

2回答

如何使用pyspark和shc(spark hbase连接器)从hbase读取一个表的部分数据，而不是整个数据集？

、、

我正在使用pyspark通过shc访问hbase的表。这个表有大量的记录，但是我的spark集群只有三台服务器，性能很差。我认为从hbase表中读取全部数据，然后用spark的过滤器处理它是不合理的，那么我如何使用pyspark和shc从hbase中读取部分数据呢？例如，我希望筛选行键具有起始值、结束值或筛选列from pyspark.sql import SparkSession spark = Sp

浏览 1提问于2019-07-20得票数 0

3回答

如何在不更改log4j.properties的情况下关闭PySpark日志中的信息？

、、

我在一个集群中工作，在这个集群中，我没有权限在使用log4j.properties时更改文件以停止信息记录(如第一个答案中所解释的那样)。在上面问题的第一个答案中解释的以下解决方案适用于spark-shell (scala)import org.apache.log4j.Level但是对于带有python的spark (即pyspark)，它不起作用，也不能用于以下操作 Logger.getLogger(&

浏览 2提问于2015-09-11得票数 17

回答已采纳

2回答

在JAVA中使用Spark查询Cassandra中的非主列

、、

我想查询我的Cassandra表，它的模式是 id text, lastname text, PRIMARY KEY(id)我想使用login和firstname来查询这个表，我在某处读到Spark在这些scenarios.So中非常有帮助，我想知道如何使用Spark查询带有非主列的cassandra。

浏览 1提问于2018-03-23得票数 0

1回答

如何使用Spark的CREATE查询将gziped json数据加载到表中

、、

我想连接Apache和Apache (我有Spark 3.1.2)，并使用Apache查询Superset的SQL中的数据。然后，我使用SQLAlchemy URI hive://hive@spark:10000/在Superset中添加了Spark集群作为数据库。我可以在Superset上访问星火集群。我可以使用这个SQL将JSON数据作为表加载USING JS

浏览 5提问于2021-10-09得票数 3

2回答