BigQuery存储应用编程接口:从Spark Pandas UDF使用客户端的最佳实践？

文章/答案/技术大牛

发布

1回答

、、

我有一个spark脚本，需要为每一行进行60个api调用。目前，我使用BigQuery作为数据仓库。我想知道是否有一种方法可以使用BigQuery API或BigQuery Storage API从我的udf中查询数据库？也许是一种执行批量查询的方法？pandas-gbq会是一个更好的解决方案吗？我每行需要进行的每个查询都是一个select count(*) fr

浏览 9提问于2019-12-12得票数 1

1回答

通过Spark使用BigQuery存储应用编程接口:请求多个分区，但仅获得1个分区

、、

我使用bigquery-spark-connector来读取使用BigQuery存储API的BigQuer。我的脚本(自动)从BigQuery存储应用程序接口请求多个分区，但我收到警告： WARN com.google.cloud.spark.bigquery.direct.DirectBigQueryRelation:请求了%

浏览 3提问于2019-11-08得票数 2

1回答

在Dataproc上使用Spark Bigquery连接器，数据似乎延迟了一个小时

、、、

我使用运行在Dataproc上的Spark2.4，每15分钟运行一次批处理作业，从bq表中获取一些数据，将其聚合(sum)，并通过pyspark.sql将其存储在另一个bq表中(覆盖)。如果我查询spark中的表，看起来数据大约落后了一个小时。或者更确切地说，它在大约一个小时之前就被切断了。如果我在Spark中查询的表上使用完全相同的查询，而不是在BQ web控制台中，所有数据都在那里并且是最新<e

浏览 6提问于2020-11-26得票数 0

1回答

如何在PyCharm中读取pandas数据帧中的BigQuery数据

、、、

我正在python-flask API中实现一个新的端点，它应该从BigQuery获取数据并将其发送到CloudSQL(mysql)。为此，我假设首先需要建立到BigQuery的连接。然而，我是云服务的新手，我需要帮助...提前感谢！

浏览 20提问于2021-10-22得票数 0

1回答

将Google访问令牌从客户端传递到服务器

、、

我有一个集成了Google服务的应用程序(具体地说是Google Bigquery API )。目前，我正在将访问令牌传递到服务器端(通过https)，在服务器端使用该令牌初始化Google库，并在那里执行操作。我在Google上找到的关于这方面的文档要么是在服务器端使用

浏览 6提问于2019-04-16得票数 2

1回答

BigQuery存储应用编程接口并行运行流

、、

我正在尝试使用BigQuery存储API获取一个巨大的BigQuery表。目前，我使用一个流顺序获取数据。该程序将在使用数十个虚拟CPU的服务器上运行，因此我希望并行化表的获取以获得性能。我使用的bq存储版本是google.cloud.bigquery.storage.v1，我在中看到，为了并行计算多个流，可以指定一个分片策略为BALANCED，但它看起来在v1中

浏览 0提问于2021-06-15得票数 0

1回答

android/ios后台如何存储镜像

、、、、

我正在尝试为我的虚拟移动应用程序实现一个应用程序接口，我正在使用MySQL和Laravel 5来实现它。我想存储用户从移动客户端发布的图像。我想知道，存储这些图像的最佳实践是什么。

浏览 0提问于2017-05-30得票数 0

2回答

将函数应用于Spark DataFrame中的所有单元格

、、、、

我正在尝试将一些Pandas代码转换为Spark以进行缩放。myfunc是一个复杂应用程序接口的包装器，它接受一个字符串并返回一个新的字符串(这意味着我不能使用矢量化函数)。return ds myfunc获取一个DataSeries，将其拆分成多个单元格，为每个单元格调用API，然后使用相同的列名构建一个新的这将有效地

浏览 2提问于2019-02-02得票数 1

回答已采纳

3回答

从Java中的另一个应用程序部署Apache Spark应用程序，最佳实践

、、、、

我是Spark的新用户。我有一个web服务，它允许用户通过从数据库读取并将结果推回到数据库来请求服务器执行复杂的数据分析。我已经将这些分析转移到了各种Spark应用程序中。目前我使用spark-submit来部署这些应用程序。然而，我很好奇，当我的web服务器(用Java编写)收到用户请求时，什么被认为是启动相应Spark应用程序的“最佳实践”

浏览 6提问于2015-03-26得票数 5

3回答

以高效的方式从BigQuery读取到Spark？

、、、

当使用从BigQuery读取数据时，我发现它首先将所有数据复制到Google Cloud Storage。然后将这些数据并行读取到Spark中，但当读取大表时，复制数据阶段需要很长时间。那么有没有更有效的方法将数据从BigQuery读取到Spark中呢？另一个问题:从BigQuery阅读由2个阶段组成(复制到GCS，从GCS并行阅读)。复制阶段是否受Spark簇大小的</

浏览 6提问于2017-01-04得票数 7

回答已采纳

1回答

如何使用AWS KMS加密Pandas/Spark* dataframe中的列*

、、、

我想要加密我的Pandas (或py/spark)数据帧中一列中的值，例如，获取以下数据帧中的列mobno，对其进行加密并将结果放入encrypted_value列中： ? 我要使用AWS KMS加密密钥。我的问题是:实现这一目标最优雅的方式是什么？我正在考虑使用UDF，它将调用boto3的KMS客户端。类似于： @udf def encrypt

浏览 11提问于2019-06-03得票数 5

1回答

如何使用BigQuery* API v0.27指定数据集位置？*

、

我正在尝试弄清楚如何使用BigQuery应用程序接口的0.27版在BigQuery应用程序接口查询中指定数据集位置。我有一个位于northamerica-northeast1的数据集，BigQuery应用程序接口返回404错误，因为这不是默认的多区域位置“US”。_params['bq_data_location'] return clie

浏览 17提问于2021-09-08得票数 0

回答已采纳

3回答

谷歌云数据存储和谷歌BigQuery哪个更适合分析查询？

、、、、

目前，我们正在将从供应商API检索到的数据上传到Google Datastore。想知道什么是数据存储和查询数据的最佳方法。我将需要查询数百万行的数据，并将从数据中提取自定义工程功能。因此，我想知道是应该直接将数据加载到BigQuery中并对其进行查询以加快处理速度，还是应该将其存储在数据存储中，然后将其移动到BigQuery中进行查询？我将使用pandas对存储的</e

浏览 0提问于2017-07-12得票数 0

1回答

使用我的最终用户凭据创建BigQuery广告字传输

我试图从python SDK创建google ads，但我遇到了一个奇怪的问题。要在BigQuery中创建转账，您的GCP帐户应具有BigQuery管理员角色，并且还应具有对AdWords帐户的读取权限。起初，我们手动创建传输，但现在我们必须使用pythons google-cloud-bigquery-datatransfer包来实现它。是否有办法使用最终用户凭据从代码创建BQ传输，或者是否有办法为最终用户帐户创建

浏览 57提问于2020-09-08得票数 0

2回答

用于NRT数据应用的Google

、、、、

我正在评估Kafka/Spark/HDFS，用于开发NRT (子秒级) java应用程序，该应用程序接收来自外部网关的数据，并将其发布到桌面/移动客户端(使用者)，用于各种主题。同时，数据将通过用于分析和ML的流和批处理(持久)管道提供。独立的TCP客户端从外部TCP服务器读取流数据。Kafka、Spark和HDFS可以通过亚马逊EC2 (或

浏览 2提问于2016-02-16得票数 0

1回答

使用CLI从项目/组织的所有角色中删除特定IAM用户

如何从项目或组织中递归删除所有角色中的特定用户？

浏览 15提问于2019-09-11得票数 1

1回答

如何自动分配已保存实体的id？

、

假设我有一个实体的以下结构，我试图使用客户端应用编程接口将其保存在RavenDB v2.0文档存储中。string Name { get; set; } } 如果我要创建10-20个实例，并且我想分别保存每个实体的实体我在站点上的文档中看到的是，您可以在调用session.SaveChanges()方法之后检索实体

浏览 0提问于2013-03-14得票数 1

2回答

Apache Spark* --将UDF的结果赋给多个dataframe列*

、、、、

我使用pyspark，使用spark-csv将一个大型csv文件加载到dataframe中，作为预处理步骤，我需要对其中一列(包含json字符串)中的可用数据应用各种操作。这将返回X个值，每个值都需要存储在各自单独的列中。(...) from pyspark.sql.functions i

浏览 2提问于2016-02-11得票数 57

回答已采纳

2回答

对API编程和对接口进行编程

、、、

通常建议“对接口编程，而不是对实现进行编程”。它有助于促进关注点的分离，并有助于单元测试。然而，我考虑的是API编程。假设我编写了一个API，该API使用了大量的“接口编程”。我们还可以说，API非常受欢迎，许多外部客户端都在使用它。如果API中的某个接口必须更改，则需要使用该API的应用程

浏览 3提问于2011-06-16得票数 1

回答已采纳

1回答

google-cloud-datastore java client:有没有一种方法可以推断模式和/或以Json的形式检索结果？

、、

我正在为apache-spark的数据存储数据源工作，基于spark数据源V2应用编程接口。我可以使用硬编码的单个实体来实现，但是不能泛化它。我需要推断实体模式并将实体记录转换为Spark Row，或者将实体记录读取为json并让用户转换为scala产品(数据存储java客户端是基于REST的，因此有效负载是作为json提取的)。我可以在Inte

浏览 36提问于2018-10-18得票数 0

点击加载更多