腾讯云
开发者社区
文档
建议反馈
控制台
登录/注册
首页
学习
活动
专区
圈层
工具
MCP广场
文章/答案/技术大牛
搜索
搜索
关闭
发布
文章
问答
(2507)
视频
沙龙
1
回答
通过
Spark
使用
BigQuery
存储
应用
编程
接口
:
请求
多个
分区
,
但
仅
获得
1个
分区
、
、
我
使用
bigquery
-
spark
-connector来读取
使用
BigQuery
存储
API的BigQuer。我的脚本(自动)从
BigQuery
存储
应用
程序
接口
请求
多个
分区
,但我收到警告: WARN com.google.cloud.
spark
.
bigquery
.direct.DirectBigQueryRelation:
浏览 3
提问于2019-11-08
得票数 2
3
回答
在
BigQuery
表中可以每小时进行
分区
吗?
google文档只讨论每日
分区
。但是,模型中有没有什么东西阻止人们用其他时间段(例如,小时或周)来填充表中的
分区
呢? 将
分区
放在一个“小”表中有什么限制或缺点吗?
浏览 0
提问于2017-01-12
得票数 11
5
回答
BigQuery
表的索引
、
我有一个用例,其中我们在
BigQuery
中有几个表。现在,我想在
BigQuery
表中的一个列上实现一个索引。但我找不到足够的文件来做这件事。我发现一些博客和帖子提到
BigQuery
不支持索引。请帮我找到一个博客或帖子,可以帮助我在
BigQuery
上实现索引。提前谢谢。
浏览 3
提问于2015-02-19
得票数 18
回答已采纳
1
回答
在每次作业中查找Cassandra中1.5亿条记录中的大约40k条记录?
、
我正在构建一个接近实时/微批处理的数据
应用
程序,
使用
Cassandra作为查找
存储
。每次增量运行有大约40K条记录,而Cassandra表有大约1.5亿条记录。这些查找可以是随机的(不是任何时间/地区/国家的依赖),因此没有明确的
分区
方案。 我应该如何对Cassandra表进行
分区
,以确保良好/良好的性能(对于每15-30分钟运行一次的微批)?除了
分区
之外,还有其他技巧吗?
浏览 19
提问于2019-09-19
得票数 0
1
回答
spark
中的memory_only和memory_and_disk缓存级别有什么不同?
、
spark
中memory_only和memory_and_disk缓存级别的行为有何不同?
浏览 0
提问于2015-05-29
得票数 25
回答已采纳
10
回答
什么是
spark
中的RDD
、
、
、
它与
存储
在硬盘上的数据(
分区
对象)一样吗?如果是这样,那么为什么RDD可以有用户定义的类(如java、scala或python)?从这个链接:它提到: 我对RDD的理解以及与
spark
和hadoop的关系真的很困惑。
浏览 91
提问于2015-12-23
得票数 46
回答已采纳
3
回答
Apache Kafka是否在内部将消息
存储
在HDFS或其他文件系统中
、
、
、
、
kafka在内部将消息
存储
在HDFS上吗?如果是,那么它是否
存储
在类似于hive内部保存的文件结构中,就像单个表的单个文件夹一样。
浏览 4
提问于2016-05-17
得票数 2
1
回答
在联合
分区
上的查询比在一个表上运行要慢得多
在stackoverflow和googlers的建议下,我们努力实现了bq表的每日
分区
策略,然而,我们面临着一个问题,当有超过30个
分区
时,它需要更长的时间(可能是2-3倍)。因此,3个月就是90个
分区
,即使是在总共1000万行的小数据集上,它也比只有10m行的小数据集慢两倍。当我们有6个月的时间时会发生什么? 为什么会这样呢?什么是正确的方法?
浏览 1
提问于2013-07-05
得票数 0
3
回答
如果我没有足够的内存,
spark
会怎么做?
我是
Spark
的新手,我发现文档上说
Spark
会将数据加载到内存中,以加快迭代算法的速度。 但是,如果我有一个10 2GB的日志文件,而内存只有2 2GB,该怎么办呢?
Spark
会一如既往地将日志文件加载到内存中吗?
浏览 2
提问于2013-11-30
得票数 18
回答已采纳
2
回答
是否有可能从hbase转换为
spark
rdd效率?
、
、
、
我在hbase中有一个很大的项目数据集,我想要加载到
spark
rdd中进行处理。
浏览 1
提问于2017-10-25
得票数 0
4
回答
火花
分区
(Ing)如何处理HDFS中的文件?
、
我正在
使用
HDFS在集群上
使用
Apache。据我所知,HDFS正在数据节点上分发文件。因此,如果在文件系统上放置一个"file.txt“,那么它将被分割成
分区
。rdd现在是否自动与文件系统上的"file.txt“
分区
相同?当我打电话时会发生什么在哪里x>那么hdfs
使用
的
分区
?会
使用
同样的10个
分区
吗?当我调用重
分区
(1000)时,在集群中洗牌30 and?
浏览 1
提问于2015-03-12
得票数 64
回答已采纳
1
回答
spark
:将有序数据保存到拼图
、
、
、
、
我希望
通过
更好地对数据进行
分区
来规避这个问题。df = df.withColumn("bucket", F.abs如果我不创建
存储
桶并重新
分区
,那么我最终会得到200个文件,数据是有序的,
但
ses
浏览 4
提问于2019-11-16
得票数 3
2
回答
Hive和
Spark
的执行差异
、
、
所有人:我正在寻找有更多知识的人来检查我对蜂巢和火花的理解 我一直在研究不同的大型数据库解决方案,我试图了解Hive和
Spark
在执行方面的差异。我尝试安装Hadoop、Hive和
Spark
,看看它们的性能如何。我能够让Hadoop和
Spark
工作。我不能让蜂巢去工作。当我在
Spark
中运行查询,在它们
通过
优化器之后,似乎最大的好处是在最早的时候只从源中选择相关的表数据。因此,如果我在最终答案中只需要Table1.column(A,B,C),
但
告诉系统在(Table1.A=Table2.
浏览 44
提问于2021-04-09
得票数 0
回答已采纳
8
回答
如何在
BigQuery
表中选择最新的
分区
?
我正在尝试从日期
分区
的
BigQuery
表中的最新
分区
中选择数据,但是查询仍然从整个表中读取数据。我尝试过(据我所知,
BigQuery
不支持QUALIFY): SELECT pt FROM (as rnk FROM ( ) WHERE rnk = 1
但
这并不适用于读取所有
浏览 23
提问于2016-09-27
得票数 15
回答已采纳
1
回答
如何在
BigQuery
中从
分区
表中删除列
、
、
在
BigQuery
中,不能对
分区
表
使用
create or replace table语句。我可以将表导出到GCS,但是
BigQuery
会生成
多个
无法一次性导入到表中的JSON文件。有没有一种从
分区
表中删除列的安全方法?我
使用
BigQuery
的web界面。
浏览 1
提问于2020-09-23
得票数 0
1
回答
wholeTextFile() API速度极慢,不可伸缩
、
问题:我们
使用
wholeTextFile()
接口
从S3读取文件。但是由于下面提到的原因,这个API非常慢。问题是如何解决这个问题?以下是我们到目前为止的分析: 问题是我们正在
使用
Spark
WholeTextFile API读取s3文件。WholeTextFile
接口
分两步工作。步骤1.列出给定路径中的所有s3文件(我们在运行每个gw/设备/
应用
程序步骤时传递此路径)。问题是每一批次的每一份报告都是第一批列出的文件数量。我们遇到的主要问题是我们
使用
的
浏览 3
提问于2021-10-02
得票数 1
2
回答
具有大量表的
bigquery
据我所知,
BigQuery
的perpective...but没有问题,我担心我将无法从浏览器()访问(列表)这些数据集;因为表没有按时间分组(就像带有timerange的表那样),它们都被列在一个无休止的滚动
浏览 5
提问于2016-12-11
得票数 2
回答已采纳
4
回答
计算火花数据的大小- SizeEstimator给出了意想不到的结果
、
原因是我希望有一种方法来计算“最优”
分区
数(“最优”在这里可能意味着不同的事情:当写入Parquet表时可能意味着,或者 --
但
两者都可以被假定为数据大小的线性函数)。因此,其他主题建议
使用
SizeEstimator.estimate从org.apache.
spark
.util获取数据的大小(以字节为单位),
但
结果是不一致的。首先,我将我的数据
存储
在内存中:
Spark
在Storage选项卡中显示的大小为4.8GB。我知道存在内存优化
浏览 5
提问于2018-03-26
得票数 43
回答已采纳
6
回答
kafka集群中主题的
分区
和副本有什么区别
、
kafka集群中topic的
分区
和副本有什么区别。我的意思是两者都将消息的副本
存储
在一个主题中。那么真正的区别是什么呢?
浏览 0
提问于2014-11-26
得票数 34
1
回答
ESP32
分区
与数据
存储
、
、
、
我试图为RFID设备编写固件代码,这将有配置数据
存储
以及临时
存储
,也许可以读取,然后,如果方便的话,可以被删除。 我正在
使用
Arduino IDE在ESP32 Wroom32上编写程序。我可以看到,默认设置显示了大约1310720字节的
存储
空间,我知道我也可以
使用
其他
分区
来
存储
更多的内存,以防我尝试拥有比1310720字节更多的草图
存储
空间。我的问题是,如果我试图
存储
数据,如配置和实时数据,我可以
存储
多少?有限度吗?
浏览 28
提问于2022-04-13
得票数 0
点击加载更多
热门
标签
更多标签
云服务器
ICP备案
云直播
腾讯会议
实时音视频
活动推荐
运营活动
广告
关闭
领券