今天(2019.01.29)考了CCA175考试,针对考试中一些考点和技巧做出总结
spark.read.option("delimiter","###").csv(path)
的方式进行读取(###换成指定的分隔符,\n或者逗号),如需指定特定的列名的话,还可以toDF("columnName1","columnName2")
的方式去指定列名;df.rdd.map(_.toSeq.map(_+"").reduce(_+"###"+_)).saveAsTextFile(path)
(###换成指定的分隔符,\n或者逗号);df.write.option("compression","snappy")
这样使用snappy压缩保存的文件内容;原创声明:本文系作者授权腾讯云开发者社区发表,未经许可,不得转载。
如有侵权,请联系 cloudcommunity@tencent.com 删除。
原创声明:本文系作者授权腾讯云开发者社区发表,未经许可,不得转载。
如有侵权,请联系 cloudcommunity@tencent.com 删除。