我正在将google数据流作业从dataflow javaSDK1.8升级到2.4版本,然后尝试使用--update和-transformNameMapping参数更新其在google云上的现有数据流作业If these steps have been renamed or deleted, please specify them with the update command.的兼容性检查中失败
当前正在运行的现有作业的数据
我将数据从卡夫卡流式传输到BigQuery,使用的是带有谷歌数据流运行器的阿帕奇光束。我想使用insertId进行重复数据删除,我在谷歌文档中找到了这一点。但是,即使这些插入在几秒钟内发生,我仍然可以看到许多具有相同insertId的行。现在我在想,也许我没有正确使用API来利用BQ提供的流式插入的重复数据删除机制。我在beam中编写的代码如下所示:
payments.apply("Write Fx Payments to
我有一个从PubSub主题读取事件数据的数据流管道。当收到消息时,我执行一个转换步骤,将事件数据与我想要的BigQuery模式相匹配。但是,如果创建的输入不符合模式,则会遇到问题。RuntimeError: Could not successfully insert rows to BigQuery table
目前,我正在进行大量手动检查,以确保输入是否符合模式,但是,在没有考虑到的情况下有没有一种方法可以尝试写到BigQuery,如果这样做失败了,用原始的输入做其他的</em