腾讯云
开发者社区
文档
建议反馈
控制台
登录/注册
首页
学习
活动
专区
圈层
工具
MCP广场
文章/答案/技术大牛
搜索
搜索
关闭
发布
文章
问答
(201)
视频
沙龙
1
回答
Datalab
BigQuery
数据
到
Dataproc
Hadoop
字数
、
、
、
、
我目前在Google
BigQuery
上有一些reddit
数据
,我想对选择的subreddits上的所有评论做一个单词计数。查询大约是90GiB,因此不可能直接加载到
DataLab
中并转换为
数据
帧。有人建议我使用
DataProc
中的
Hadoop
或Spark作业来创建
字数
统计,并设置一个连接器将
BigQuery
数据
导入
到
DataProc
中,以便
DataProc
可以进行
字数</
浏览 33
提问于2021-10-25
得票数 1
1
回答
面对DataprocCreateClusterOperator (气流2.0)的问题
、
、
、
、
from airflow.providers.google.cloud.operators.
dataproc
import DataprocCreateClusterOperator task_id = "idle_delete_ttl=7200, optional_components=['JUPYTER
浏览 5
提问于2021-12-20
得票数 2
回答已采纳
1
回答
在
Dataproc
集群上安装
Datalab
/木星
、
、
、
我试图在我的
Dataproc
集群上安装木星笔记本/
Datalab
,但是没有效果。--initialization-actions 'gs://
datalab
-init-bucket-001/
datalab
.sh'启动
Dataproc
,整个命令如下所示: 看看日志: OK >下载
浏览 1
提问于2018-03-19
得票数 1
回答已采纳
1
回答
在
BigQuery
笔记本中使用
Dataproc
和Spark
BigQuery
连接器时出错
、
、
、
、
第一步:从Cloud 启动
Dataproc
集群 --subnet default --zone us-west1/
datalab
/
datalab
.sh','gs://
dataproc
-initialization-actions/connectors/connectors.sh' \ --metadata_js
浏览 1
提问于2019-01-12
得票数 3
回答已采纳
1
回答
与
Dataproc
+
Datalab
+源代码repos的集成
、
、
有人能够集成
Dataproc
、
Datalab
和源代码回购吗?正如我们中的许多人所看到的,当您调用init操作来安装
datalab
时,它不会创建源代码回购。我正试图实现一个完整的端
到
端解决方案,用户登录到
datalab
笔记本,通过Pyspark与
Dataproc
交互,并将笔记本签入源代码回购。我无法像我前面指出的那样,通过init操作来做到这一点。我还试着安装
dataproc
,然后将
datalab
作为一个单独的安装(这一次它创建源回购),但是,我不能在这
浏览 0
提问于2019-05-01
得票数 2
回答已采纳
1
回答
将
BigQuery
表读入GCP
DataProc
上的Spark RDD,为什么在newAPIHadoopRDD中缺少这个类
、
、
大约一周前,我能够使用的指南作为模板,将Spark作业的
BigQuery
表读入
到
RDD中,用于在
Dataproc
集群上运行。从那时起,我现在遇到了缺少类的问题,尽管指南没有受到任何影响。我试图找到缺少的类com/google/cloud/
hadoop
/repackaged/
bigquery
/com/google/common/collect/ImmutableList,,尽管我找不到任何关于这个类现在是否被
浏览 0
提问于2019-08-29
得票数 3
1
回答
使用
Datalab
连接器从
Dataproc
连接到
BigQuery
时出错(从元
数据
服务器获取访问令牌时出错)
、
、
我有
BigQuery
表,
Dataproc
集群(使用
Datalab
),我遵循以下指南: "org.apache.
hadoop
.io.LongWritable", conf=conf) at com.google.cloud.
hadoop
.io.
bigquery
浏览 0
提问于2018-03-23
得票数 2
2
回答
GCP火花消耗
BigQuery
、
、
、
舞步:问题: 在与@Tanvee反复讨论这个问题之后,我们得出结论,当您需要将DataS
浏览 0
提问于2019-01-07
得票数 3
1
回答
将3mn行
数据
帧从Spark上传到
BigQuery
时出错(使用谷歌连接器)
、
、
在pyspark中执行完脚本后,我尝试使用将
数据
帧保存到
BigQuery
中。尽管它在<1mn行的情况下运行得很流畅,但在运行3mn行时会返回错误(尽管
数据
结构完全相同)。我的代码遵循google示例(但修改为我的项目/
数据
集/
数据
帧):output_dataset = 'product_recommendationon-demand for entry: gs
浏览 22
提问于2016-08-19
得票数 2
1
回答
如何对应GCP组件或如何理解?
我正在研究如何使用GCP,特别是大
数据
和分析函数,我不太确定它们的功能。我做了一些映射来理解这些组件。你能帮我查一下我的理解吗?云Pub/Sub: Apache Kafka 云编写器: Info
浏览 3
提问于2019-02-10
得票数 0
2
回答
Dataproc
中的
BigQuery
和Pyspark
、
、
我在
BigQuery
中有一个表,我想查询和实现FPgrowth算法。我想首先使用
dataproc
集群的VM实例在上尝试它。 我正在寻找一种方法,以直接查询的表格,在烧烤使用火星雨。我想使用产生的查询
数据
来实现FPGrowth (我已经很熟悉了)。
浏览 6
提问于2017-11-09
得票数 2
回答已采纳
6
回答
Google Cloud Dataflow和Google Cloud
Dataproc
之间的区别是什么?
、
、
我正在使用Google Data Flow来实现一个ETL
数据
仓库解决方案。而且看起来
DataProc
比DataFlow便宜一点。有没有人知道相对于
DataProc
,DataFlow的优缺点 为什么谷歌同时提供这两种服务?
浏览 1
提问于2017-09-27
得票数 66
2
回答
GCP
Hadoop
数据
仓库?
、
、
我知道Google
BigQuery
是一个
数据
仓库,但是
Dataproc
、Big Table、Pub/Sub被认为是
数据
仓库吗?这会使
Hadoop
成为一个
数据
仓库吗?
浏览 2
提问于2018-09-24
得票数 1
回答已采纳
2
回答
在
Dataproc
上极慢地处理9小时和3分钟在本地机器上
、
、
在
Dataproc
上训练182 K行需要1.5小时、70 on
数据
和9小时(从15/11/14开始,01:58:28,15/11/14,09:19:09)。在本地机器上加载相同的
数据
和运行相同的算法需要3分钟15/11/13 23:27:09 INFO com.google.cloud.
hadoop
.io.
bigquery
.ShardedExportToCloudStorage19:44 INFO com
浏览 0
提问于2015-11-14
得票数 1
回答已采纳
1
回答
将
数据
从iOS推送到Google
、
、
、
、
我对Google Cloud Platforms并不熟悉,对整个体系结构也不太确定,但我试图实现的是将一些
数据
从iOS application中保存到Google Cloud中,并使用Google CloudProducts对这些
数据
做一些分析工作,例如:
Dataproc
和
Datalab
。从我目前所读到的情况来看,我需要在Google Cloud
BigQuery
中创建一个
数据
集,并在其中创建一个表。
浏览 5
提问于2017-05-15
得票数 1
3
回答
如何在本地linux服务器上运行?
httplogs.log_20140615极限3').results()/usr/local/lib/python2.7/dist-packages/gcp/
bigquery
_results.results 134 执行中的/usr/local/lib/python2.7/dist-packages/gcp/
bigquery
/_query
浏览 0
提问于2015-10-26
得票数 1
1
回答
有什么方法可以在
Dataproc
中使用
BigQuery
吗?
、
我将
Dataproc
与(MySQL)上的
数据
连接到具有IPv4地址的GCSQL中。是否有从
Dataproc
到
BigQuery
的连接,以便我可以在
BigQuery
上使用
数据
?
浏览 1
提问于2016-03-24
得票数 1
回答已采纳
1
回答
如何使用
dataproc
从与我的
dataproc
集群不在同一项目中的
bigquery
中提取
数据
?
我所在的组织需要使用Spark从客户的
bigquery
数据
集中提取
数据
,考虑
到
客户和我们都使用GCP,使用
Dataproc
来实现这一点是有意义的。我读过,它看起来非常有用,但是它似乎假设
dataproc
集群、
bigquery
数据
集和临时
BigQuery
导出的存储桶都在同一个GCP项目中-对我来说并非如此。我有一个服务帐户密钥文件,它允许我连接到存储在
bigquery
中的客户
数据
并与之交互,我如何将该
浏览 2
提问于2018-11-02
得票数 0
2
回答
如何通过Spark SQL连接
BigQuery
?
、
、
、
、
我有一个简单的python代码,其中包括使用具有我的凭据的JSON文件连接到
bigQuery
。client_x509_cert_url": "https://www.googleapis.com/robot/v1/metadata/x509/clientEmail"现在,我需要将此代码移植
到
pyspark
浏览 2
提问于2019-04-10
得票数 2
1
回答
我能过滤
BigQuery
连接器返回的
数据
吗?
、
我调整了上的指令,以便使用PySpark从私有
BigQuery
对象中提取
数据
。我正在
Dataproc
上运行代码。所讨论的对象是一个具有基数>5亿行的视图。当我发表这个声明时: 'com.google.cloud.
hadoop
.io.
bigquery
.JsonTextBigQueryInputFormat:
Bigquery
connector version 0.10
浏览 0
提问于2018-11-08
得票数 0
回答已采纳
点击加载更多
相关
资讯
大数据框架之从Hadoop到Spark详解
从Hadoop到Spark,看大数据框架发展之路
去中心化查询引擎Subsquid计划将用户数据引入到Google BigQuery中
数据湖和SQL并不矛盾
Google AI在现场比赛期间预测NCAA Final Four的获胜者
热门
标签
更多标签
云服务器
ICP备案
实时音视频
对象存储
即时通信 IM
活动推荐
运营活动
广告
关闭
领券