我正在尝试使用Java连接到我的MySQL数据库。_1, row_2, row_3, row_4 FROM dataset where row_5 is null and row_6 is null limit 100");}表'dataset‘有500万行,并在主索引(row_1、row_2、row
Spark Dataframe :How to add a index Column : Aka Distributed Data Index 我在Apache-spark中有一个现有的数据集,我想根据索引从中选择一些行我找到了下面的方法来添加使用order by的索引: df.withColumn("index", functions.row_number().over(Window.orderBy("a column
CSV中的列数可能会增加,从那时起,新文件中将包含新列。当发生这种情况时,我希望检测更改并自动将该列添加到目标Redshift表中。
我的计划是在源CSV文件上运行Glue Crawler。模式中的任何更改都将在Glue Data Catalog中生成表的新版本。然后,我想使用Java、.NET或其他语言以编程方式读取Glue Data Catalog中最新版本的表的表结构(列及其数据类型),并将其与Redshift表的模式进行比较。谁能给我举一些使用Java<