使用Scio将SCollection从textFile转换为BigQuery

腾讯云

开发者社区

文档建议反馈控制台

首页

文章/答案/技术大牛

发布

2回答

、

我用textFile阅读了一些文档，并对单个单词进行了flatMap，为每个单词添加了一些额外的信息： val col = sc.textFile(args.getOrElse("input","documentsextraInformation()) 我目前正在轻松地将其保存为文本 mapped.saveAsTextFile(args.getOrElse("output", "results")) 但是我不知道如何将映射保存到BigQuery模式。我见

浏览 21提问于2019-01-29得票数 0

回答已采纳

1回答

如何将SCollection[ SCollection[SomeType] ]压平成SCollection[SomeType]

、

我使用Beam (和Scio，尽管PCollection也可以回答这个问题)从BigQuery中的多个表中读取。因为我正在从动态生成的列表中读取多个数据集(它本身就是一个SCollection[String]，其中的字符串本质上指定了表名)，所以我最终得到了一个SCollection[SCollection[MyCoolDataType有没有办法将这些SCollection对象统一成一个？我试过： doubleCollection.r

浏览 14提问于2022-04-07得票数 1

1回答

Scio / apache beam java.lang.IllegalArgumentException:无法序列化方法

、、、、

我正在尝试使用数据流将一些数据从pub sub移动到云存储。我需要向scio / beam提供一个时间戳，这样它就可以将数据分组到窗口中。$class.parDo(PCollectionWrapper.scala:58) at com.spotify.scio.values.

浏览 0提问于2017-09-18得票数 2

1回答

是否可以将数据从beam ( S3 )流到S3桶？

、、、

目前，我正在开发一个项目，该项目使用Scala中的Scio从BigQuery表中提取数据。我能够提取数据并将其摄入到ElasticSearch中，但我也试图这样做，但使用S3存储桶。当然，我能够使用saveAsTextFile方法将数据写入txt文件，然后将其从我的机器上传到s3桶中，将正确的库添加到sbt中。但是，我不知道是否有可能立即编写saveCustomOutput代码将数据写入S3，而不是使用</

浏览 1提问于2022-05-03得票数 1

回答已采纳

1回答

74674982327500000000 = 7.47E+19在SQL中变为07467498232750E7。"E“变成字母，而不是乘法。

、

我需要"E“来乘以这个数字，而不是一个字母表，因为我想要根据的长度进行过滤。该数字属于一个列，该列的模式设置为字符串，因为大多数值是由字母和数字组合而成的唯一ids。他们中只有少数人错误地由数字组成。

浏览 5提问于2021-12-22得票数 -3

1回答

在将带有Hibernate的int64应用程序从DB2迁移到BigQuery时出现错误"Found: DB2，expected: integer“

、、、、

我正在尝试将一个DB2应用程序后端从BigQuery迁移到BigQuery，但是得到了一个数据类型不匹配错误。在DB2以及BigQuery字段中，类型被定义为整数，但是在场景整数后面是BigQuery中的INT64。因此，当Java尝试引用此字段时，它会给出一个错误：org.hibernate.HibernateException error Found: int64，expected：是使用Spring和Hibernate构建的，为了将这个Java

浏览 4提问于2020-07-30得票数 0

1回答

使用Python，将google.cloud.bigquery.job.query.QueryJob输出保存到本地JSON文件

、、

我们使用库在python中将BigQuery导出到本地JSON文件：import json full_query = """ FROM (select * from bigquery-public-data.baseball.schedules) AS t

浏览 0提问于2021-08-10得票数 0

2回答

将每个分区的字符串串联为单个字符串。

、

line n/2 line n Partition 1 Partition 2是否有任何方法来映射分区，以便将RDD从图1转</

浏览 0提问于2016-02-20得票数 1

回答已采纳

1回答

将Textfile从UTF-8转换为代码页850

、、、

如何在代码中包含从UTF-8到代码页850的转换？

浏览 1提问于2017-11-07得票数 0

1回答

将csv.gz从url加载到bigquery

、、

我正在尝试将所有csv.gz文件从加载到google。做这件事最好的方法是什么？我试着使用pyspark读取csv.gz文件(因为我需要对这些文件执行一些数据清理)，但是我意识到pyspark不支持直接从url读取文件。将csv.gz文件的已清理版本加载到BigQuery中是否有意义，还是应该将原始的原始csv.gz文件转储到BigQuery中，并在BigQuery本身中执行清洗过程？我正在阅读“谷歌BigQ

浏览 8提问于2022-11-12得票数 0

回答已采纳

1回答

如何在Google上提高网络效率

、、

我目前正在基于Google的VM (WindowsServer2019-4vCPU)上构建一个ETL，以执行以下过程： while True: # GENERATES然而，由于网络流量不足，我担心我正在使用我的资源。下面是我的VM报告部分中的网络报告(字节&#x

浏览 0提问于2020-06-05得票数 0

1回答

有没有一种内存高效的方法来转换输入流编码？

、、

我正在使用http客户端从Google Cloud Storage读取一个可能很大的CSV文件。获得CSV文件后，我需要将其上传到另一个存储桶，并将数据加载到BigQuery表中。不幸的是，我正在下载的文件是用UTF-16编码的，而BigQuery只支持UTF-8。我需要一种方法将数据从UTF-16转换为UTF-8。我知道我可以简单地从http响应输入流中以UTF-16格式读取数据，然后将其以UTF-8格式写入新的输入流，如下所示：

浏览 25提问于2019-09-12得票数 2

回答已采纳

3回答

ps2pdf从paps创建的ps文件创建一个非常大的pdf文件

、、、、

在linux中，我使用ps2pdf在bash脚本中将文本文件report转换为pdf。以前，我使用a2ps将文本转换为ps，然后馈送到ps2pdf，输出的pdf是正常大小并且不大。有没有办法从paps和ps2pdf中减少pdf文件的大小？或者我做错了什么？我使用的命令如下所示。p

浏览 21提问于2014-09-27得票数 0

1回答

从BigQuery导出的Firebase事件

、、、

是否有一种将火基事件导出到(例如Parquet格式)的推荐方法？如果我将数据导出到BigQuery，那么将数据一致推送到的最佳方法是什么？

浏览 2提问于2020-05-13得票数 1

回答已采纳

2回答

从MySQL到BigQuery的转移不超过限制？

我正在扁平这些表，并试图将它们作为一个批处理工作上传到bigquery中。我将使用一个ruby脚本连接到mysql，进行查询并批量上传到bigquery中。我将使用这个包装器连接到BigQuery 。要连接到MySQL 的包装器每秒最大字节数:每

浏览 2提问于2015-08-26得票数 2

回答已采纳

1回答

自动将Google Play控制台报告从谷歌云存储导入BigQuery

、、、、

Google Play控制台报告使用UTF-16编码，BigQuery - UTF-8。错误：'majestic-cairn

浏览 3提问于2018-03-20得票数 0

1回答

将HBase扫描转换为RowFilter扫描

、、

我正在使用来自spotify的来完成我的数据流工作。在最后的scio版本中，使用了新的bigtable java (com.google.bigtable.v2)val

浏览 5提问于2017-06-20得票数 0

回答已采纳

1回答

在BigQuery标准Sql中将整数类型强制转换为浮点型

在BigQuery遗留Sql中，我们可以使用float()函数将整型列转换为浮点型。我尝试过以下命令：从bigquery-public-data.github_repos.commits LIMIT 1000中选择float( author.time_sec )从bigquery-public-data.github_repos.commits LIMIT 10

浏览 8提问于2016-08-15得票数 9

回答已采纳

1回答

将pubsub有效负载摄取到大型查询中的最佳实践

、

数据可以以原始格式摄取，但需要以更表格的形式构造，并映射到发布层以供业务使用。我在谷歌上搜索了一些选项，但需要指导如何实时设计发布解决方案的发布消息摄取。应该简单地将与原始消息保持类似结构的所有数据转储为string或Json，还是应该将属性构造为列/结构/数组--的优点和缺点--将订阅拆分为多个过滤的活动并将它们映射到多个表中是有意义的。

浏览 3提问于2022-08-31得票数 0

2回答

将数据从云SQL复制到bigQuery

、

我正在寻找从云SQL (postgres)到bigQuery的流式数据库更改的推荐方法？我看到CDC流媒体似乎不适用于postgres，有人知道这个功能的时间线吗？乔纳森。

浏览 10提问于2022-07-26得票数 -5

点击加载更多

扫码

添加站长进交流群

领取专属 10元无门槛券

手把手带您无忧上云