我目前正在开发一个ETL管道,该管道使用BigQuery来存储暂存数据,然后使用Dataprep来转换数据并将其存储在新的BigQuery表中以供生产。我们已经遇到了一些问题,需要找到最具成本效益的方法将这些转换应用于少量的数据选择上,通常情况下,从暂存数据表中的当前最大日期到最后X天。我们首先尝试在BigQuery中动态地这样做,如下所示:
W
我正在尝试从用户管理的朱庇特笔记本实例中读取一些BigQuery数据(ID:my-project.mydatabase.mytable原始名称受保护),在工作台中。我尝试的是中的灵感,更具体地说,代码是(请阅读一些关于代码本身的附加注释):from pyspark.sql.functionsimport udf, col
from pyspark.sql.types import Integer