腾讯云
开发者社区
文档
建议反馈
控制台
登录/注册
首页
学习
活动
专区
工具
TVP
最新优惠活动
文章/答案/技术大牛
搜索
搜索
关闭
发布
精选内容/技术社群/优惠产品,
尽在小程序
立即前往
文章
问答
(4954)
视频
沙龙
1
回答
Pyspark
map
函数
仅
打印
第一个
roe
、
、
、
Df.rdd.
map
(printudf(行))
仅
打印
第1行 Def printudf(row):Print(row) Df.rdd.foreach(printudf( row )) :>在第一行
打印
后出现阶段故障
浏览 16
提问于2021-07-17
得票数 0
2
回答
如何使用Python对Spark中的LIBSVM文件进行特性选择和简化?
、
、
、
、
data = MLUtils.loadLibSVMFile(sc, "PATH/FILENAME.txt")features =data.
map
(lambda x: x.features)这给了我一个错误,说明TypeError因此,我编写了一个返回标签点的
函数
。in line.split(' ')] ret
浏览 13
提问于2015-07-05
得票数 2
1
回答
在
PySpark
中应用自定义
函数
时使用外部模块
、
、
下面的代码片段试图将一个简单的
函数
应用于一个
PySpark
RDD对象:conf =
pyspark
.SparkConf()sc.setLogLevel('WARN') rdd = sc.textFile(fn) rdd = rdd.<em
浏览 3
提问于2016-03-20
得票数 1
回答已采纳
1
回答
在没有sql
函数
的
PySpark
中对数据进行排序
、
、
、
我在
打印
这个查询时遇到了一些问题,这个查询的月份按适当的顺序排序。from
pyspark
import SparkContextfrom operator import addSparkContext.getOrCreate() rows = sc.textFile("data.csv&quo
浏览 1
提问于2020-06-15
得票数 0
回答已采纳
2
回答
使用
pySpark
迭代每一行数据帧
、
、
、
、
我需要使用dataframe来迭代
pySpark
,就像我们可以使用for循环迭代一组值一样。下面是我写的代码。这段代码的问题是 from
pyspark
.sql.functions import *from
pyspar
浏览 2
提问于2017-01-30
得票数 3
2
回答
如何在
pyspark
或scala中将字符串转换为时间数据类型?
、
、
、
、
请注意,我要求的不是unix_timestamp、timestamp或datetime数据类型,我要求的是time数据类型,在
pyspark
或Scala语言中可以吗?
浏览 37
提问于2020-01-07
得票数 0
2
回答
PySpark
:如何将包含SparseVector类型的列的Spark dataframe写入CSV文件?
、
、
2)如何
打印
所有的向量?
浏览 0
提问于2016-10-13
得票数 3
1
回答
Spark DataFrame ArrayType或MapType用于检查列中的值
、
、
、
、
我可以使用映射类型,因为在
map
/dict中检查成员资格比检查数组中的成员资格更有效。from
pyspark
.sql.types import BooleanType c = df.filter(
map
_udf("123")(df.ids)).
浏览 1
提问于2018-10-30
得票数 2
回答已采纳
1
回答
火花圆
函数
不按预期工作
、
、
print("Naive Bayes accuracy is: " + str(round(rf_accuracy,2))) TypeError跟踪(最近一次调用)在() ->1
打印
“55”用于列文字,使用'lit‘、'array’、'struct‘或'create_
map
’--> 56“
函数
。TypeError:无效参数,而不是字符串或列:类型为<class 'float'>的93.15707620528771
浏览 2
提问于2020-07-01
得票数 0
回答已采纳
1
回答
如何以逗号分隔的形式显示spark streaming作业的数据帧输出?
、
、
、
我使用的是python,而不是scala。因此,我当前的输出是一个数据帧,如下所示:| tag|count||Apple | 1233|我只想让它看起来像这样,在标准输出上:以下是返回以下内容的查询的代码:hashTagCount = has
浏览 3
提问于2019-10-23
得票数 0
1
回答
如何使用
PySpark
RDD找到哪个句子的最大单词数?
、
我对
PySpark
几乎没有经验,在这方面也有困难。编写了下面的代码,用于获取一行中最大字数的计数 def str_split(行):返回line.split(‘') splitted_rdd = text_rdd.
map</
浏览 2
提问于2020-08-18
得票数 0
回答已采纳
2
回答
Pyspark
:在JSON中对密钥进行分组,并找到另一个键的平均值
、
、
points":2}我正尝试用火花放电按时间分组,然后找出返回点的平均值:(5, 1)]import jsondataset = dataset_json.
map
上面的
函数
失败了,我尝试了几次迭代。不要发现错误信息有
浏览 14
提问于2022-07-15
得票数 0
回答已采纳
2
回答
我的spark代码没有使用Yarn aws EMR中所有可用的执行器
、
、
、
、
我已经创建了一个用户定义的
函数
,该
函数
需要应用于通过交叉连接从本地文件读取的两个表创建的数据帧。spark.sparkContext.parallelize(range(1,1000)).
map
from
pyspark
.sql.functions import udf from
pyspark
impo
浏览 2
提问于2018-01-09
得票数 1
1
回答
AttributeError:“NoneType”对象中没有属性“_jvm”
、
、
、
、
我试图通过循环遍历该数据的每一行来
打印
数据。然后,我使用对dataframe的RDD的
map
()转换来应用lambda
函数
,并尝试将其转换回dataframe。我的猜测是,在应用rlike()
函数
时存在一些问题,因为没有rlike()
函数
,映射工作得很好。Satur)day$'),"Success").otherwise("Error") rdd2 = df.rdd.<
浏览 14
提问于2022-09-19
得票数 0
回答已采纳
2
回答
如何在SparkSQL DataFrame中从MapType列中获取键和值
、
、
、
、
我有一个拼图文件中的数据,其中有2个字段:object_id: String和alpha:
Map
<>。中的一个数据框中,模式如下:root |-- ALPHA:
map
,其中的列需要是object_id加上object_id, key1, key2, key2, ...中的ALPHA映射的键scala> alphaDF.
map
a
浏览 2
提问于2016-11-15
得票数 18
回答已采纳
1
回答
有没有办法提高
PySpark
输出的效率?
、
、
、
、
我正在尝试测试
PySpark
在一些非常大的数据(10到1s的GBs到1s的TBs)上迭代的能力。对于大多数脚本,我发现
PySpark
的效率与Scala代码差不多。fdf = df.select(df['aDate'], df['aSourceUrl'], df['contentTextWithUrls'])rddx = rdd.
map
我们也99%确定问题不是ExtractDomain或CreateAVertexFromSourceUrlAndConte
浏览 0
提问于2017-12-01
得票数 3
回答已采纳
15
回答
如何在Android中
打印
HashMap中的所有键和值?
、
、
、
但是,
第一个
键和值只在EditView中
打印
。
Map
<String, String>
map
= new HashMap<String,String>();
map
.put("Android", "101");
浏览 0
提问于2012-01-18
得票数 72
回答已采纳
2
回答
使用
pyspark
在地图阶段的rdd的FIltering行
、
、
、
我正在使用
pyspark
中的以下代码过滤数据集: rdd = sc.textFile("location...").
map
(lambda line: line.split(",")). \
浏览 14
提问于2021-02-20
得票数 0
1
回答
Pyspark
应用foreach
、
、
我是
Pyspark
中的nooby,我假装玩了几个
函数
,以便更好地理解如何在更现实的场景中使用它们。有一段时间,我尝试对RDD中的每个数字应用一个特定的
函数
。我的问题基本上是,当我尝试
打印
从我的RDD中抓取的内容时,结果是无from
pyspark
import SparkConf , SparkContext changed.append(numbersRDD.foreach(lambda x: div_tw
浏览 0
提问于2018-01-25
得票数 3
回答已采纳
1
回答
映射
函数
在lambda
函数
中不可调用。
、
、
在输出中,结果显示"'
map
‘对象不可调用“,或者删除它返回的列表"<
map
对象at 0x7fc398d98670>”from
pyspark
.sql import SparkSession, Rowfrom
浏览 7
提问于2022-07-19
得票数 0
点击加载更多
扫码
添加站长 进交流群
领取专属
10元无门槛券
手把手带您无忧上云
相关
资讯
PySpark,大数据处理的Python加速器!
人生苦短,我用python之入门篇-3
pyspark 安装
PySpark,一个大数据处理利器的Python库!
Kotlin学习之高阶函数和Lambda表达式的基础用法
热门
标签
更多标签
云服务器
ICP备案
对象存储
腾讯会议
云直播
活动推荐
运营活动
广告
关闭
领券