我在S3中有一个数据集(~100 by ),它有一个时间戳,后面跟着一个JSON字符串,而不仅仅是一个纯JSON字符串。这些数据被压缩了。是否存在将这些数据读入Dataframe而不重新格式化数据以移除时间戳的问题?我根本不需要时间戳,它是可以忽略的。以下是数据的一个示例:我通常使用胶水库read_from_options读取它的数据,但是我没有看到任何忽略时间戳的选项,而只是读取JSON字符串。我不确定火花手
这是我在scala的代码, val arr = urn.split(":").map(_.trim)val out = res.split(",").map(_.trim) fin.toString它以UDF的形式运行,并引发以下错误:
org.apache.spark.SparkException: Failed to execute use