我计划每天将增量数据附加到BigQuery表中。每次向现有表添加增量数据时,我都希望从表中的现有数据中消除重复记录(基于主键列)。一种方法是-
在- SELECT all_cols from table where pkey_col NOT IN (INCR_KEYS)行上运行一个查询,并将结果存储在一个新表
我使用的是BigQuery,它有一个带有month时间戳字段的非常大的表:org STRING我意外地写了两个月的数据,导入了两次,错误地使用了追加模式考虑到BigQuery不允许我更新或删除数据,那么消除重复数据的最佳方法是什么?我首先将除问题月份之外的所有数据复制到一个临时表中:
SELECT * FROM mytable WHERE month!=TIMESTAMP(&
我在一家非常小的初创公司担任合规角色,每天查看大量信息,例如银行转账/直接存款/ACH。从BigQuery中提取一份报告,该报告被导出到Google。我的问题是,有很多假阳性(基本上,“张贴数据”经常重复)。我在试着消除它。WHERE postingdata LIKE 'PersonName%'
但这既累又费时。