腾讯云
开发者社区
文档
建议反馈
控制台
登录/注册
首页
学习
活动
专区
圈层
工具
文章/答案/技术大牛
搜索
搜索
关闭
发布
精选内容/技术社群/优惠产品,
尽在小程序
立即前往
文章
问答
(9999+)
视频
沙龙
1
回答
Airflow Composer删除特定
的
xcom键
、
我正在通过Airflow并行编排多个
数据流
作业
。
流水线
执行
中
的
任务之一是推送唯一
的
xcom键来存储每个
流水线
的
临时值,该临时值用于
向
Bigquery
表
中
插入一个值。数据加载完成后,我需要清除特定
的
xcom密钥。我不想删除仍在并行运行
的
其他
数据流
作业
可能生成
的
其他xcom键。它们是清除特定xcom密钥
的<
浏览 3
提问于2021-09-05
得票数 0
1
回答
使用
流水线
向
数据流
作业
中
的
Bigquery
查询
添加
分页
、
、
我
使用
以下代码在
数据流
中
执行
Bigquery
查询
其中'p‘是一个管道对象。当我执行一个返回大量行数
的
查询
时,我
的
数据流
作业
给出了一个错误:“
查询
执行过程
中
超出了资源。”提前
浏览 22
提问于2016-08-23
得票数 0
回答已采纳
1
回答
是否遇到从
数据流
管道到
BigQuery
的
低速流式写入?
、
、
在
使用
流式插入和Python SDK2.23写入
BigQuery
时,我遇到了意外
的
性能问题。 在没有写入步骤
的
情况下,
流水线
在一个工作线程上运行,占用大约20-30%
的
CPU。
添加
BigQuery
步骤,
流水线
可以扩展到6个工作进程,所有工作进程都占用70-90%
的
CPU。我对
数据流
和波束很陌生,可能这种行为很正常,或者我做错了什么,但在我看来,
使用
6台机器每秒
向
<
浏览 0
提问于2020-09-09
得票数 4
2
回答
云存储新增文件时触发
数据流
作业
、
、
我希望在
向
存储存储桶
添加
新文件时触发
数据流
作业
,以便处理新数据并将新数据
添加
到
BigQuery
表
中
。我看到云通过存储桶
中
的
更改来运行,但我还没有找到
使用
启动
数据流
作业
的
方法。有没有一种方法可以
使用
云函数来实现这一点,或者是否有其他方法来实现预期
的
结果(在将文件
添加
到存储存储桶时将新数据插入到
BigQue
浏览 6
提问于2016-04-02
得票数 2
回答已采纳
1
回答
google
数据流
写入
bigquery
表性能
我将处理数据和输出
的
性能与
Bigquery
表和文件进行了比较,差异是显著
的
:写入13个文件需要7分钟,写入13个
bigquery
表需要超过60分钟;
浏览 1
提问于2015-04-17
得票数 1
1
回答
在Dataflow SQL中将流数据与动态
BigQuery
表连接
、
我有一个Dataflow SQL
作业
,它将流PubSub与
BigQuery
表连接起来,并将结果写入
BigQuery
表。当我将一个新记录(新sales_region)
添加
到我
的
表'us_state_salesregions‘
中
时,新
的
sales_region在结果表
中
是不可见
的
。只有在创建新
的
数据流
作业
后,新
添加
的
sales_region
浏览 8
提问于2021-05-11
得票数 0
1
回答
设置管道google
数据流
的
优先级
、
我是谷歌
数据流
的
新手。我有两个
数据流
流水线
来执行两个不同
的
任务。一个是ETL处理并加载到
Bigquery
,另一个是从
Bigquery
读取以聚合报告。我想先运行管道ETL,在它完成后,将运行报告管道,以确保
bigquery
中
的
数据是最新
的
更新。 我试着在一条管道上跑,但它不起作用。现在我必须先运行手动ETL,然后再运行报表管道。谁能给我一些建议,让我在一个管道
中
运行2个
作业<
浏览 14
提问于2017-08-11
得票数 0
1
回答
在
作业
中
读取bigtable上
的
大型
查询
表花费
的
时间太长
、
、
、
我有一个
数据流
作业
,它从
bigquery
表(在大表之上创建)读取。
数据流
作业
是
使用
java
中
的
自定义模板创建
的
。我需要处理
bigquery
的
大约5亿条记录。我面临
的
问题甚至是读取100万条记录,大
查询
读取需要26分钟,
数据流
工作需要36分钟。在大
查询
中
读取太慢。 任何关于如何提高阅读性能
的
建议
浏览 10
提问于2022-12-02
得票数 1
3
回答
触发DataPrep
数据流
作业
的
云函数
、
我有一个很小
的
流水线
,我正在尝试执行:我已经通过Dataprep创建了一个
数据流
作业
,因为它有很好
的
UI,可以在写入GCS表之前执行所有转换(写入
BigQuery
很好),并且云函数会在文件上传到
BigQuery
存储桶时触发。然而,云函数不会触发
数据流
作业</em
浏览 64
提问于2018-05-08
得票数 1
回答已采纳
3
回答
谷歌
数据流
每项
作业
是否有BT写原子?
也许我是个糟糕
的
探索者,但我在文档
中
找不到答案,所以我只想在这里试试运气。我知道写GCS似乎不是原子
的
,在
作业
运行
的
过程中会产生部分输出分区。但是,我已经尝试过通过
数据流
将数据转储
浏览 6
提问于2016-08-05
得票数 1
回答已采纳
1
回答
我收到来自我
的
数据流
作业
的
错误消息“
查询
超出了第1层
的
资源限制。需要第3层或更高层”
、
我从
BigQuery
查询
数据
的
数据流
作业
失败,出现错误: Query exceeded resource limits for tier 1. Tier 3 or higher required.同样
的
Dataflow
作业
与我
的
另一个项目一起工作,我无法确定如何在Dataflow API
中
设置层。
浏览 0
提问于2017-03-25
得票数 0
1
回答
Dataflow sql、Beam SQL (Zeta sql或方解石SQL)之间有什么区别?
、
、
、
在浏览时,我看到了Dataflow SQL。它和beamSQL有什么不同吗?
浏览 12
提问于2020-02-17
得票数 1
回答已采纳
1
回答
当
使用
Dataflow SQL时,“SQL启动程序
中
的
错误”意味着什么?
我尝试
使用
Dataflow SQL UI创建Dataflow
作业
。我跟踪了,工作运行正常。我将数据源更改为
BigQuery
表。我
的
计划是: 这个错误意味着什么?谢谢你
的
帮忙!
浏览 2
提问于2020-07-09
得票数 0
回答已采纳
2
回答
对于
数据流
,BigqueryIO.write()和
bigquery
.insertAll()方法哪个更好
、
、
、
我正在开发java代码,以便从GCS读取记录并插入到BQ表
中
,从成本和性能
的
角度来看,哪个BigqueryIO.write()或
bigquery
.insertAll()方法更好。
浏览 0
提问于2019-03-05
得票数 1
1
回答
谷歌云
数据流
服务帐户没有传播给工人?
、
、
我们有多个
作业
(用Java /Kotlin编写),它们可以以两种不同
的
方式运行: 当从用户帐户运行
数据流
作业
时,Dataflow在我们
的
大多数Dataflow用例
中
,我们在项目A
中
运行Dataflow
作业
,而在项目B
中
从
BigQuery
中
读取
数据流
<e
浏览 0
提问于2018-12-05
得票数 3
2
回答
如何
使用
云运行python api从大
查询
表
中
读取大数据,系统配置应该是什么?
、
、
、
、
我用python创建了一个flask api,并作为容器镜像部署在gcp云中运行,通过云调度器运行,在我
的
代码
中
,我从big query读取大数据(1500万行和20列),我将系统配置设置为8gm ramquery = """ SELECT * FROM TABLE_SALES""" df = gbq.read_gbq(query), project_id="project_name") 有没有从BQ
中
读取数据
的
有效方法Problem2 :我
浏览 28
提问于2021-10-04
得票数 0
回答已采纳
3
回答
如何对
Bigquery
查询
的
结果进行
分页
根据pagination文档,您可以通过定义一个特定表来对结果进行
分页
。但是,
向
查询
添加
分页
又如何呢?例如,如果我有以下
查询
: client =
bigquery
.Client(location='US') result = client.query(query
浏览 33
提问于2019-05-10
得票数 2
1
回答
错误
Bigquery
/
数据流
“无法解析数据目录
中
的
表”
、
、
、
我在
数据流
上做
的
工作遇到了麻烦。下面是上下文,我
使用
以下路径在
bigquery
上创建了一个数据集现在,我想在
数据流
上运行一个
作业
,然后在google
中
输入以下命令 gcloud
数据流
sql
查询
‘SELECT country,DATE_TRUNC(ORDERDATE,月份),sum(sales) by 1,2’-<
浏览 1
提问于2021-09-29
得票数 1
2
回答
如何实现动态BigQueryIO输入
、
、
我正在
使用
谷歌
数据流
上
的
阿帕奇光束。 我
的
流水线
从
BigQuery
读取数据,但它依赖于执行参数。我应该能够用一个点(经度,纬度)和几个点来运行管道。只有一点,解决方案很简单:我可以将
查询
设置为ValueProvider。ST_GeogPoint(10.9765,50.4322), ) 问题是当我有超过1个点来为它们运行
查询
时我尝试在每个点上应用
浏览 16
提问于2019-01-27
得票数 0
回答已采纳
2
回答
<-> ->
BigQuery
、
、
、
我们正在开发处理日志数据
的
项目。我
的
想法是 日志数据
的
结构经常会发生变化,这会导致一个错误,当插入到
BigQuery
.How时,我们要在python
中
处理它?我
浏览 5
提问于2014-09-05
得票数 2
回答已采纳
点击加载更多
扫码
添加站长 进交流群
领取专属
10元无门槛券
手把手带您无忧上云
相关
资讯
使用Kafka,如何成功迁移SQL数据库中超过20亿条记录?
从Lambda到无Lambda,领英吸取到的教训
弃用 Lambda,Twitter 启用 Kafka 和数据流新架构
Google Cloud 发布 COVID-19 数据集,可构建 AI 模型来对抗疫情
分析GitHub:最流行的许可证是什么?
热门
标签
更多标签
云服务器
ICP备案
对象存储
云直播
腾讯会议
活动推荐
运营活动
广告
关闭
领券