Datalab BigQuery数据到Dataproc Hadoop字数

文章/答案/技术大牛

发布

1回答

、、、、

我目前在Google BigQuery上有一些reddit数据，我想对选择的subreddits上的所有评论做一个单词计数。查询大约是90GiB，因此不可能直接加载到DataLab中并转换为数据帧。有人建议我使用DataProc中的Hadoop或Spark作业来创建字数统计，并设置一个连接器将BigQuery数据导入到DataProc中，以便DataProc可以进行字数</

浏览 33提问于2021-10-25得票数 1

1回答

面对DataprocCreateClusterOperator (气流2.0)的问题

、、、、

from airflow.providers.google.cloud.operators.dataproc import DataprocCreateClusterOperator task_id = "idle_delete_ttl=7200, optional_components=['JUPYTER&#

浏览 5提问于2021-12-20得票数 2

回答已采纳

1回答

在Dataproc集群上安装Datalab/木星

、、、

我试图在我的Dataproc集群上安装木星笔记本/ Datalab，但是没有效果。--initialization-actions 'gs://datalab-init-bucket-001/datalab.sh'启动Dataproc，整个命令如下所示：看看日志： OK >下载

浏览 1提问于2018-03-19得票数 1

回答已采纳

1回答

在BigQuery笔记本中使用Dataproc和Spark BigQuery连接器时出错

、、、、

第一步:从Cloud 启动Dataproc集群 --subnet default --zone us-west1/datalab/datalab.sh','gs://dataproc-initialization-actions/connectors/connectors.sh' \ --metadata_js

浏览 1提问于2019-01-12得票数 3

回答已采纳

1回答

与Dataproc* + Datalab +源代码repos的集成*

、、

有人能够集成Dataproc、Datalab和源代码回购吗？正如我们中的许多人所看到的，当您调用init操作来安装datalab时，它不会创建源代码回购。我正试图实现一个完整的端到端解决方案，用户登录到datalab笔记本，通过Pyspark与Dataproc交互，并将笔记本签入源代码回购。我无法像我前面指出的那样，通过init操作来做到这一点。我还试着安装dataproc，然后将datalab作为一个单独的安装(这一次它创建源回购)，但是，我不能在这

浏览 0提问于2019-05-01得票数 2

回答已采纳

1回答

将BigQuery表读入GCP DataProc上的Spark RDD，为什么在newAPIHadoopRDD中缺少这个类

、、

大约一周前，我能够使用的指南作为模板，将Spark作业的BigQuery表读入到RDD中，用于在Dataproc集群上运行。从那时起，我现在遇到了缺少类的问题，尽管指南没有受到任何影响。我试图找到缺少的类com/google/cloud/hadoop/repackaged/bigquery/com/google/common/collect/ImmutableList，，尽管我找不到任何关于这个类现在是否被

浏览 0提问于2019-08-29得票数 3

1回答

使用Datalab连接器从Dataproc连接到BigQuery时出错(从元数据服务器获取访问令牌时出错)

、、

我有BigQuery表，Dataproc集群(使用Datalab)，我遵循以下指南： "org.apache.hadoop.io.LongWritable", conf=conf) at com.google.cloud.hadoop.io.bigquery

浏览 0提问于2018-03-23得票数 2

2回答

GCP火花消耗BigQuery

、、、

舞步：问题：在与@Tanvee反复讨论这个问题之后，我们得出结论，当您需要将DataS

浏览 0提问于2019-01-07得票数 3

1回答

将3mn行数据帧从Spark上传到BigQuery时出错(使用谷歌连接器)

、、

在pyspark中执行完脚本后，我尝试使用将数据帧保存到BigQuery中。尽管它在<1mn行的情况下运行得很流畅，但在运行3mn行时会返回错误(尽管数据结构完全相同)。我的代码遵循google示例(但修改为我的项目/数据集/数据帧)：output_dataset = 'product_recommendationon-demand for entry: gs

浏览 22提问于2016-08-19得票数 2

1回答

如何对应GCP组件或如何理解？

我正在研究如何使用GCP，特别是大数据和分析函数，我不太确定它们的功能。我做了一些映射来理解这些组件。你能帮我查一下我的理解吗？云Pub/Sub: Apache Kafka 云编写器: Info

浏览 3提问于2019-02-10得票数 0

2回答

Dataproc中的BigQuery和Pyspark

、、

我在BigQuery中有一个表，我想查询和实现FPgrowth算法。我想首先使用dataproc集群的VM实例在上尝试它。我正在寻找一种方法，以直接查询的表格，在烧烤使用火星雨。我想使用产生的查询数据来实现FPGrowth (我已经很熟悉了)。

浏览 6提问于2017-11-09得票数 2

回答已采纳

6回答

Google Cloud Dataflow和Google Cloud Dataproc之间的区别是什么？

、、

我正在使用Google Data Flow来实现一个ETL数据仓库解决方案。而且看起来DataProc比DataFlow便宜一点。有没有人知道相对于DataProc，DataFlow的优缺点为什么谷歌同时提供这两种服务？

浏览 1提问于2017-09-27得票数 66

2回答

GCP Hadoop数据仓库？

、、

我知道Google BigQuery是一个数据仓库，但是Dataproc、Big Table、Pub/Sub被认为是数据仓库吗？这会使Hadoop成为一个数据仓库吗？

浏览 2提问于2018-09-24得票数 1

回答已采纳

2回答

在Dataproc上极慢地处理9小时和3分钟在本地机器上

、、

在Dataproc上训练182 K行需要1.5小时、70 on数据和9小时(从15/11/14开始，01:58:28，15/11/14，09:19:09)。在本地机器上加载相同的数据和运行相同的算法需要3分钟15/11/13 23:27:09 INFO com.google.cloud.hadoop.io.bigquery.ShardedExportToCloudStorage19:44 INFO com

浏览 0提问于2015-11-14得票数 1

回答已采纳

1回答

将数据从iOS推送到Google

、、、、

我对Google Cloud Platforms并不熟悉，对整个体系结构也不太确定，但我试图实现的是将一些数据从iOS application中保存到Google Cloud中，并使用Google CloudProducts对这些数据做一些分析工作，例如：Dataproc和Datalab。从我目前所读到的情况来看，我需要在Google Cloud BigQuery中创建一个数据集，并在其中创建一个表。

浏览 5提问于2017-05-15得票数 1

3回答

如何在本地linux服务器上运行？

httplogs.log_20140615极限3').results()/usr/local/lib/python2.7/dist-packages/gcp/bigquery_results.results 134 执行中的/usr/local/lib/python2.7/dist-packages/gcp/bigquery/_query

浏览 0提问于2015-10-26得票数 1

1回答

有什么方法可以在Dataproc中使用BigQuery吗？

、

我将Dataproc与(MySQL)上的数据连接到具有IPv4地址的GCSQL中。是否有从Dataproc到BigQuery的连接，以便我可以在BigQuery上使用数据？

浏览 1提问于2016-03-24得票数 1

回答已采纳

1回答

如何使用dataproc从与我的dataproc集群不在同一项目中的bigquery中提取数据？

我所在的组织需要使用Spark从客户的bigquery数据集中提取数据，考虑到客户和我们都使用GCP，使用Dataproc来实现这一点是有意义的。我读过，它看起来非常有用，但是它似乎假设dataproc集群、bigquery数据集和临时BigQuery导出的存储桶都在同一个GCP项目中-对我来说并非如此。我有一个服务帐户密钥文件，它允许我连接到存储在bigquery中的客户数据并与之交互，我如何将该

浏览 2提问于2018-11-02得票数 0

2回答

如何通过Spark SQL连接BigQuery？

、、、、

我有一个简单的python代码，其中包括使用具有我的凭据的JSON文件连接到bigQuery。client_x509_cert_url": "https://www.googleapis.com/robot/v1/metadata/x509/clientEmail"现在，我需要将此代码移植到pyspark

浏览 2提问于2019-04-10得票数 2

1回答

我能过滤BigQuery连接器返回的数据吗？

、

我调整了上的指令，以便使用PySpark从私有BigQuery对象中提取数据。我正在Dataproc上运行代码。所讨论的对象是一个具有基数>5亿行的视图。当我发表这个声明时： 'com.google.cloud.hadoop.io.bigquery.JsonTextBigQueryInputFormat： Bigquery connector version 0.10

浏览 0提问于2018-11-08得票数 0

回答已采纳

点击加载更多