我试图理解数据目录和数据模式的定义。在我读了几篇文章之后,我变得更困惑了!
我意识到,当这篇文章谈到数据湖时,这个术语将被用来将data catalog描述为containing metadata information within data lake。与名称一样明显,它是数据池中所有信息的目录。
现在,据我所知,数据目录是数据库。而data schema被描述为containing metadata information within a database。这意味着数据湖中的data catalog等于数据库中的data schema。两者似乎具有相同的目的,如数据发现。
但术语在不同的
从Azure Data Factory生成拼图文件(复制活动-从Azure SQL复制到数据湖中的拼图)。当我尝试从蜂窝中读取相同的拼图时,它给出了错误,因为org.apache.parquet.io.ParquetDecodingException:无法读取块中0的值。
如果你使用Spark生成拼图,那么你可以设置Spark.sql.parquet.writeLegacyFormat=true,但是如何在Azure Data Factory中处理同样的事情。
十进制转换的问题即将到来
我想将Azure数据湖存储与Grafana集成起来,以实现时间序列数据的可视化。我需要知道我可以使用哪些工具来使其成为可能。
我使用ADF从数据湖中存储的csv文件中提取数据,并移动到Azure数据资源管理器中的一个表中。在那之后,我使用了grafana中的Azure data explorer插件来进行可视化。它工作得很好。但我需要知道有没有其他更好或更具成本效益的方法。
我正在使用ADF连接到源并将数据放入Azure data Lake存储中。在将数据放入data Lake Store之后,我想做一些转换,聚合,并在SSRS报告中使用这些数据,也用于创建多维数据集。
谁能向我推荐哪个是最佳选择(Azure Data Lake Analytics或Azure SQL DW)?
我希望在这里做出决定,在数据湖之后选择哪一个。
我正在使用flink从Azure数据湖中读取数据。但flink无法找到Azure数据湖文件系统。我已经实现了spark来读取Azure Data Lake文件系统文件。
因此,我尝试从flink中触发火花,从Azure数据湖中读取数据,并执行一些逻辑操作,然后将列表返回给flink。所以flink可以使用这些数据?
是否可以从flink触发spark作业?或者如何配置flink来理解Azure数据湖文件系统。有人能在这方面给我指点一下吗?