目前我使用如下查询: SELECT ID,Key FROM mydataset.mytable where ID = 100077113 and Key='06019‘ID -唯一Key -可以有大约10,000个密钥
如果我知道,查找ID的关键字可以在大约10,000行上完成,并且工作速度更快,处理的数据也更少。如何使用BigQuery中的新集群功能对字段键进行分区?
比如说,在Dataflow/Apache程序中,我正在尝试读取数据呈指数增长的表。我想提高阅读的性能。dataset.tablename")BigQueryIO.Read.fromQuery("SELECT A, B FROM [projectid:dataset.tablename]")
如果我只是在表中选择所需的列,而不是上面的整个表,那么我的读取性能会提高吗?
我正在进行一个分析项目,该项目运行查询并每月在表A中处理结果并存储在BigQuery中。因为BigQuery不能用作事务性查询,因此我们必须将结果显示给我们的用户,所以我们决定将结果保存回on-prem SQl Server relationalDB (我们决定现在使用CloudSQL会很昂贵然而,我似乎不知道,因为这是一个每月的过程,每个月的数据被附加到TableA,我如何知道从哪里开始,从下一次
在尝试执行MERGE语句时,BigQuery仅扫描请求的分区,直到添加了DELETE语句,此时它将恢复为扫描整个数据集(在本例中从1 1GB扩展到>1TB )。有没有一种方法可以使用合并的全部功能,包括删除,而不产生额外的成本?与我的工作相匹配的通用示例如下: MERGE target_table AS t *## All Dates, partitioned on
USING source_t