通过Spark使用BigQuery存储应用编程接口:请求多个分区，但仅获得1个分区

文章/答案/技术大牛

发布

1回答

、、

我使用bigquery-spark-connector来读取使用BigQuery存储API的BigQuer。我的脚本(自动)从BigQuery存储应用程序接口请求多个分区，但我收到警告： WARN com.google.cloud.spark.bigquery.direct.DirectBigQueryRelation:

浏览 3提问于2019-11-08得票数 2

3回答

在BigQuery表中可以每小时进行分区吗？

google文档只讨论每日分区。但是，模型中有没有什么东西阻止人们用其他时间段(例如，小时或周)来填充表中的分区呢？将分区放在一个“小”表中有什么限制或缺点吗？

浏览 0提问于2017-01-12得票数 11

5回答

BigQuery表的索引

、

我有一个用例，其中我们在BigQuery中有几个表。现在，我想在BigQuery表中的一个列上实现一个索引。但我找不到足够的文件来做这件事。我发现一些博客和帖子提到BigQuery不支持索引。请帮我找到一个博客或帖子，可以帮助我在BigQuery上实现索引。提前谢谢。

浏览 3提问于2015-02-19得票数 18

回答已采纳

1回答

在每次作业中查找Cassandra中1.5亿条记录中的大约40k条记录？

、

我正在构建一个接近实时/微批处理的数据应用程序，使用Cassandra作为查找存储。每次增量运行有大约40K条记录，而Cassandra表有大约1.5亿条记录。这些查找可以是随机的(不是任何时间/地区/国家的依赖)，因此没有明确的分区方案。我应该如何对Cassandra表进行分区，以确保良好/良好的性能(对于每15-30分钟运行一次的微批)？除了分区之外，还有其他技巧吗？

浏览 19提问于2019-09-19得票数 0

1回答

spark中的memory_only和memory_and_disk缓存级别有什么不同？

、

spark中memory_only和memory_and_disk缓存级别的行为有何不同？

浏览 0提问于2015-05-29得票数 25

回答已采纳

10回答

什么是spark中的RDD

、、、

它与存储在硬盘上的数据(分区对象)一样吗?如果是这样，那么为什么RDD可以有用户定义的类(如java、scala或python)？从这个链接：它提到：我对RDD的理解以及与spark和hadoop的关系真的很困惑。

浏览 91提问于2015-12-23得票数 46

回答已采纳

3回答

Apache Kafka是否在内部将消息存储在HDFS或其他文件系统中

、、、、

kafka在内部将消息存储在HDFS上吗？如果是，那么它是否存储在类似于hive内部保存的文件结构中，就像单个表的单个文件夹一样。

浏览 4提问于2016-05-17得票数 2

1回答

在联合分区上的查询比在一个表上运行要慢得多

在stackoverflow和googlers的建议下，我们努力实现了bq表的每日分区策略，然而，我们面临着一个问题，当有超过30个分区时，它需要更长的时间(可能是2-3倍)。因此，3个月就是90个分区，即使是在总共1000万行的小数据集上，它也比只有10m行的小数据集慢两倍。当我们有6个月的时间时会发生什么？为什么会这样呢？什么是正确的方法？

浏览 1提问于2013-07-05得票数 0

3回答

如果我没有足够的内存，spark会怎么做？

我是Spark的新手，我发现文档上说Spark会将数据加载到内存中，以加快迭代算法的速度。但是，如果我有一个10 2GB的日志文件，而内存只有2 2GB，该怎么办呢？Spark会一如既往地将日志文件加载到内存中吗？

浏览 2提问于2013-11-30得票数 18

回答已采纳

2回答

是否有可能从hbase转换为spark* rdd效率？*

、、、

我在hbase中有一个很大的项目数据集，我想要加载到spark rdd中进行处理。

浏览 1提问于2017-10-25得票数 0

4回答

火花分区(Ing)如何处理HDFS中的文件？

、

我正在使用HDFS在集群上使用Apache。据我所知，HDFS正在数据节点上分发文件。因此，如果在文件系统上放置一个"file.txt“，那么它将被分割成分区。rdd现在是否自动与文件系统上的"file.txt“分区相同？当我打电话时会发生什么在哪里x>那么hdfs使用的分区？会使用同样的10个分区吗？当我调用重分区(1000)时，在集群中洗牌30 and？

浏览 1提问于2015-03-12得票数 64

回答已采纳

1回答

spark:将有序数据保存到拼图

、、、、

我希望通过更好地对数据进行分区来规避这个问题。df = df.withColumn("bucket", F.abs如果我不创建存储桶并重新分区，那么我最终会得到200个文件，数据是有序的，但ses

浏览 4提问于2019-11-16得票数 3

2回答

所有人:我正在寻找有更多知识的人来检查我对蜂巢和火花的理解我一直在研究不同的大型数据库解决方案，我试图了解Hive和Spark在执行方面的差异。我尝试安装Hadoop、Hive和Spark，看看它们的性能如何。我能够让Hadoop和Spark工作。我不能让蜂巢去工作。当我在Spark中运行查询，在它们通过优化器之后，似乎最大的好处是在最早的时候只从源中选择相关的表数据。因此，如果我在最终答案中只需要Table1.column(A，B，C)，但告诉系统在(Table1.A=Table2.

浏览 44提问于2021-04-09得票数 0

回答已采纳

8回答

如何在BigQuery表中选择最新的分区？

我正在尝试从日期分区的BigQuery表中的最新分区中选择数据，但是查询仍然从整个表中读取数据。我尝试过(据我所知，BigQuery不支持QUALIFY)： SELECT pt FROM (as rnk FROM ( ) WHERE rnk = 1但这并不适用于读取所有

浏览 23提问于2016-09-27得票数 15

回答已采纳

1回答

如何在BigQuery中从分区表中删除列

、、

在BigQuery中，不能对分区表使用create or replace table语句。我可以将表导出到GCS，但是BigQuery会生成多个无法一次性导入到表中的JSON文件。有没有一种从分区表中删除列的安全方法？我使用BigQuery的web界面。

浏览 1提问于2020-09-23得票数 0

1回答

wholeTextFile() API速度极慢，不可伸缩

、

问题:我们使用wholeTextFile()接口从S3读取文件。但是由于下面提到的原因，这个API非常慢。问题是如何解决这个问题？以下是我们到目前为止的分析：问题是我们正在使用Spark WholeTextFile API读取s3文件。WholeTextFile接口分两步工作。步骤1.列出给定路径中的所有s3文件(我们在运行每个gw/设备/应用程序步骤时传递此路径)。问题是每一批次的每一份报告都是第一批列出的文件数量。我们遇到的主要问题是我们使用的

浏览 3提问于2021-10-02得票数 1

2回答

具有大量表的bigquery

据我所知，BigQuery的perpective...but没有问题，我担心我将无法从浏览器()访问(列表)这些数据集；因为表没有按时间分组(就像带有timerange的表那样)，它们都被列在一个无休止的滚动

浏览 5提问于2016-12-11得票数 2

回答已采纳

4回答

计算火花数据的大小- SizeEstimator给出了意想不到的结果

、

原因是我希望有一种方法来计算“最优”分区数(“最优”在这里可能意味着不同的事情:当写入Parquet表时可能意味着，或者 --但两者都可以被假定为数据大小的线性函数)。因此，其他主题建议使用SizeEstimator.estimate从org.apache.spark.util获取数据的大小(以字节为单位)，但结果是不一致的。首先，我将我的数据存储在内存中：Spark在Storage选项卡中显示的大小为4.8GB。我知道存在内存优化

浏览 5提问于2018-03-26得票数 43

回答已采纳

6回答

kafka集群中主题的分区和副本有什么区别

、

kafka集群中topic的分区和副本有什么区别。我的意思是两者都将消息的副本存储在一个主题中。那么真正的区别是什么呢？

浏览 0提问于2014-11-26得票数 34

1回答

ESP32分区与数据存储

、、、

我试图为RFID设备编写固件代码，这将有配置数据存储以及临时存储，也许可以读取，然后，如果方便的话，可以被删除。我正在使用Arduino IDE在ESP32 Wroom32上编写程序。我可以看到，默认设置显示了大约1310720字节的存储空间，我知道我也可以使用其他分区来存储更多的内存，以防我尝试拥有比1310720字节更多的草图存储空间。我的问题是，如果我试图存储数据，如配置和实时数据，我可以存储多少？有限度吗？

浏览 28提问于2022-04-13得票数 0

点击加载更多