腾讯云
开发者社区
文档
建议反馈
控制台
登录/注册
首页
学习
活动
专区
工具
TVP
最新优惠活动
文章/答案/技术大牛
搜索
搜索
关闭
发布
精选内容/技术社群/优惠产品,
尽在小程序
立即前往
文章
问答
(9999+)
视频
沙龙
1
回答
从
循
环中
的
Spark
数据
集中
读取
行
数据
、
、
、
我想用Java在循
环中
读取
spark
数据
集
行
,并且我必须在其中
读取
其他
数据
集。假设ds是
数据
集,如果如下所示
的
写入循环,我可以
读取
其他
数据
集 ds.toJavaRDD().collect().forEach() 但我删除了collect()和JavaRDD()并直接应用 ds.foreach() 那么我就不能
读取
其他
数据
集。
浏览 48
提问于2021-08-26
得票数 1
1
回答
如何通过将dataframe作为输入来编写pytest,以获取palantir foundry中所有必需
的
值
、
、
、
我可以通过手动提供列名和值来创建
数据
框,并将其传递给生产代码以检查palantir foundry代码库中所有转换后
的
字段值,从而编写pytest函数。我不想手动传递列名及其各自
的
值,而是希望将所有必需
的
数据
存储在dataset中,并将该
数据
集导入pytest函数以获取所有所需
的
值,然后传递给生产代码以检查所有转换后
的
字段值。是否可以接受
数据
集作为planatir代码库中测试函数
的
输入。
浏览 7
提问于2020-11-17
得票数 2
3
回答
我们可以为
Spark
中
的
行
提供一个序列Id吗?
、
我是
spark
的
新手,我在
数据
文件中有大约10000
行
要
读取
.builder().getOrCreate(); 我有一个向
数据
集中
的
浏览 2
提问于2020-05-28
得票数 0
1
回答
N列m
行
的
动态
数据
帧
、
从
json(动态模式)
读取
数据
,并将其加载到dataframe。示例
数据
帧:import
spark
.implicits._ (1, "ABC"), (3, "GHIJ") ).toDF("id", "word&qu
浏览 6
提问于2020-06-04
得票数 0
回答已采纳
1
回答
只在第一个文件中
读取
多个带有头
的
CSV文件-火花
、
、
我想阅读并创建一个使用火花
的
数据
格式。但是,下面的代码可以使用此方法丢失4
行
数据
,因为在最终
读取
时,标头设置为true。如果我将头设置为false,我将返回4
行
数据
,但也会
从
数据
中
的
第一个文件中获得实际
的
头。 是否有更有效
的
方法来做到这一点,使标题在我
的
数据
集中
不显示为一
行
?header =
spark
浏览 4
提问于2021-10-22
得票数 1
回答已采纳
1
回答
具有JDBC连接
的
SparkSql
、
我想使用
Spark
的
JDBC
从
数据
库中
读取
数据
。我将使用200个执行者来
读取
数据
。我
的
问题是,如果我提供了200个执行器,那么它会创建到
集中
式
数据
库(JDBC)
的
200个连接,还是会
从
具有单个连接
的
驱动程序中获取
数据
?
浏览 1
提问于2018-05-17
得票数 2
2
回答
数据
格式与其他
数据
结构模式
的
比较
、
、
、
、
我
从
两个
数据
集中
读取
了
从
hdfs路径
读取
的
模式,定义如下:df.printSchema() |-- name: string
浏览 4
提问于2021-07-12
得票数 0
回答已采纳
1
回答
用scala
读取
bigquery中
的
数据
、
、
我正在尝试
从
bigquery
读取
数据
并打印这些
数据
。我试过
的
东西,val
spark
= SparkSession .master("local") .appName.config("fs.gs.auth.service.account.json.keyfile", "<key_file>")
浏览 2
提问于2019-04-08
得票数 2
回答已采纳
2
回答
将
数据
从
ElasticSearch
读取
到
Spark
数据
集中
、
、
使用
Spark
库,我想将ElasticSearch中
的
数据
直接
读取
到elasticsearch-hadoop
数据
集中
。但是,它
的
API返回RDD[(String,MapString,Any)],其中元组
的
第一个元素是文档名,第二个元素(映射)是
数据
本身。我想把它变成一个DatasetT,其中T是某个case类,以使返回
的
数据
更容易处理。我会考虑使用其他库(我找不到任何库)或者一个整洁
的</e
浏览 20
提问于2020-07-17
得票数 0
1
回答
如何在
Spark
Java中将带有值
的
列添加到新
数据
集中
?
、
、
、
、
因此,我
从
java
Spark
API创建了一些
数据
集。这些
数据
集是使用
spark
.sql()方法
从
hive表填充
的
。 因此,在执行了一些sql操作(比如joins)之后,我就有了一个最终
的
数据
集。我想要做
的
是向最终
数据
集中
添加一个新列,该
数据
集中
的
所有
行
的
值都为"1“。因此,您可能
浏览 1
提问于2017-07-07
得票数 8
回答已采纳
2
回答
在Parquet中使用嵌套
数据
类型有什么好处?
、
、
、
在Parquet文件格式中使用嵌套
数据
类型会带来任何性能上
的
好处吗?AFAIK Parquet文件通常是专门为查询服务(如Athena )创建
的
,因此创建这些文件
的
过程可以简单地平缓值--从而允许更容易地查询、简化模式,并保留每列
的
列统计信息。使用嵌套
数据
类型(如struct )有什么好处?
浏览 0
提问于2018-03-25
得票数 3
回答已采纳
1
回答
Spark
cache是否会以任何时间间隔自动更新新
的
数据
值?
、
、
我使用pyspark和cassandra,并使用cache()函数缓存
数据
。我想知道cassandra中
的
数据
每次更新时,缓存是否会自动更新?
浏览 0
提问于2015-08-21
得票数 3
2
回答
使用火花红移插入红移
、
、
我正在尝试
从
S3 (拼花文件)中插入红移
数据
。通过SQLWorkbench完成它,600万
行
需要46秒。但通过连接器
的
火花红移,它需要大约7分钟。val df =
spark
.read.option("basePath", "s3a://parquet/items")
浏览 0
提问于2018-02-07
得票数 3
回答已采纳
1
回答
如何在
spark
中使用完整
的
单元
数据
库,并从外部文件中
读取
sql查询?
、
、
、
、
我有一个用TPC样本
数据
填充
的
Hive
数据
库。我想从外部文件中
读取
一些SQL查询,并在
spark
中
的
hive
数据
集中
运行它们。我遵循这个主题,只是在我
的
数据
集中
使用一个表,并且它再次用
spark
编写了SQL查询,但是我需要将整个dataset定义为我
的
源来查询,我认为我应该使用
数据
格式,但我不确定,也不知道如何!另外,我希望
从
外
浏览 5
提问于2016-12-26
得票数 0
回答已采纳
4
回答
如何在
Spark
sql中访问HIVE ACID表?
、
、
、
如何在
Spark
sql中访问HIVE ACID表?
浏览 2
提问于2018-11-08
得票数 1
1
回答
当表很大时,可以在关系
数据
库中使用
Spark
吗?
、
、
、
我想知道如何使用
spark
来处理存储在关系
数据
库中
的
结构化大
数据
?我有包含超过40亿
行
(GPS坐标)
的
表格。在使用合并操作时,
Spark
试图处理内存中
的
所有表,这是不可能
的
。我知道
Spark
是“内存中
的
”处理,但在我
的
例子中,内存不能适用于整个表。那么,当表很大时,是否可以在关系
数据
库中使用
spark
呢?
浏览 3
提问于2017-02-01
得票数 1
1
回答
筛选火花
数据
集
、
、
在火花会议上 .builder() .config("
spark
.some.config.option", "some-value")
从
数据
集中
val
浏览 4
提问于2022-07-21
得票数 2
回答已采纳
2
回答
将每个文件激发到dataset
行
。
、
、
我在一个目录中有许多文件,每个文件包含跨越多行
的
文本。目前,我使用以下代码将所有这些文件读入星火
数据
集(>2.0)但是,这会创建一个
数据
集,其中每一
行
都是一
行
我希望
数据
集中
的
每一
行
都有每个文件(作为字符串)。 如何实现这一点,而不迭代每个文件,并将其单独<
浏览 3
提问于2017-01-27
得票数 2
回答已采纳
1
回答
在Foreach循
环中
填充
的
SSIS对象变量设置为循环外
的
最后一
行
,无法访问整个数组
、
我有一个SSIS包,它将汇编动态SQL语句,并在不同
的
服务器上执行,结果需要写回第一个服务器。由于SQL是作为变量创建和传入
的
,因此将使用Foreach循环来运行每个实例。如果我将我
的
脚本任务放在Foreach循环本身中,我可以将结果写回原始服务器。然而,出于性能原因,我真的希望将插入操作
从
Foreach循
环中
取出,并
读取
结果集/对象变量,以打开一个连接并一次性写入所有
数据
。但是,当我
从
循
环中
拉出
读取
结果并
浏览 0
提问于2020-07-20
得票数 1
1
回答
在for循
环中
构造
Spark
sql
数据
集
、
、
、
TestDF是一个
数据
帧。它可以在for循
环中
编辑/修改10次吗?java也没有动态变量赋值。需要在for循
环中
执行类似"Dataset <Row> testDF+(i+1) = testDF+(i)“(动态变量)或"Dataset <Row> testDF = testDF”(在同一个dataset中)
的
操作。有没有办法在for循
环中</e
浏览 1
提问于2017-10-31
得票数 2
点击加载更多
扫码
添加站长 进交流群
领取专属
10元无门槛券
手把手带您无忧上云
相关
资讯
Linux Shell 读取从键盘输入的数据
Python文件读取技巧:从文件读取数据到内存缓存的高效方法
Python实践:从指定位置开始打印读取到的数据
从用户交易数据集中寻找商品之间的关联规则
Stable Diffusion 允许艺术家从数据集中删除自己的作品
热门
标签
更多标签
云服务器
ICP备案
腾讯会议
云直播
对象存储
活动推荐
运营活动
广告
关闭
领券