首页
学习
活动
专区
圈层
工具
发布
首页
学习
活动
专区
圈层
工具
MCP广场
社区首页 >专栏 >CCA175 考试总结

CCA175 考试总结

原创
作者头像
ZHANGHAO
修改于 2019-04-19 07:22:19
修改于 2019-04-19 07:22:19
2.3K25
举报
文章被收录于专栏:张浩的专栏张浩的专栏

今天(2019.01.29)考了CCA175考试,针对考试中一些考点和技巧做出总结

  1. 考试的题目还是很基础的,进行一些转换,然后把结果输出出来;
  2. 先熟读题目,再进行操作,不要卡在一道题上浪费时间,要是一时某道题做不出来,可以先做别的题,如果是9道题的话,能做过7道基本上就合格了;
  3. Sqoop的导入和导出必考,要熟悉Sqoop的压缩和保存的文件格式;
  4. 给的数据文件基本上都是textFile,所以要熟悉RDD和DF的转换以及各种操作 ,有特定分隔符的textFile可以用spark.read.option("delimiter","###").csv(path)的方式进行读取(###换成指定的分隔符,\n或者逗号),如需指定特定的列名的话,还可以toDF("columnName1","columnName2")的方式去指定列名;
  5. 文件要求保存成特定分隔符的textFile的话,可以 df.rdd.map(_.toSeq.map(_+"").reduce(_+"###"+_)).saveAsTextFile(path)(###换成指定的分隔符,\n或者逗号);
  6. 文件要求使用snappy的压缩的话,可以在df.write.option("compression","snappy")这样使用snappy压缩保存的文件内容;
  7. 熟悉Hive外部表的创建和Hive表数据的导入;
  8. 写的代码改一改可以供后面的题目复用,所以可以先用文本编辑器把写的代码保存一下;
  9. 考试环境屏幕很小,环境也比较卡,如遇到操作不了的情况,可以点击刷新按钮,刷新考试环境,刷新后会快一些。

原创声明:本文系作者授权腾讯云开发者社区发表,未经许可,不得转载。

如有侵权,请联系 cloudcommunity@tencent.com 删除。

原创声明:本文系作者授权腾讯云开发者社区发表,未经许可,不得转载。

如有侵权,请联系 cloudcommunity@tencent.com 删除。

评论
登录后参与评论
25 条评论
热度
最新
请问答题可选python 和 scala吗
请问答题可选python 和 scala吗
回复回复点赞举报
请问,cca175考试难吗?需要参加培训吗?
请问,cca175考试难吗?需要参加培训吗?
33点赞举报
个人感觉不难,就是常用的一些Spark的操作得掌握
个人感觉不难,就是常用的一些Spark的操作得掌握
回复回复点赞举报
自己刷模拟题就可以了,可以不用参加培训
自己刷模拟题就可以了,可以不用参加培训
回复回复点赞举报
查看全部3条回复
請問你是怎樣準備考試的?在哪裡可以找的考試相關的材料嗎?謝謝!
請問你是怎樣準備考試的?在哪裡可以找的考試相關的材料嗎?謝謝!
11点赞举报
我是刷模拟题的
我是刷模拟题的
回复回复点赞举报
感谢分享! 请问如果要求保存结果为某个delimiter的text file, 可以保存为csv格式吗?我的理解是csv也是某种text格式。 比如 df.write.format("csv").option("sep", "\t").save("\some\path").
感谢分享! 请问如果要求保存结果为某个delimiter的text file, 可以保存为csv格式吗?我的理解是csv也是某种text格式。 比如 df.write.format("csv").option("sep", "\t").save("\some\path").
11点赞举报
如果说明了要保存成csv那就保存成csv就可以了。如果说明是文本格式,那用saveText保存成文本文件就ok了。
如果说明了要保存成csv那就保存成csv就可以了。如果说明是文本格式,那用saveText保存成文本文件就ok了。
回复回复点赞举报
1、英文要求高么,怕看不懂题目,能用在线翻译吗?2、文本编辑器使用自己的还是它提供的?3、考试环境是一个系统的交互环境么还是写完答案直接提交?
1、英文要求高么,怕看不懂题目,能用在线翻译吗?2、文本编辑器使用自己的还是它提供的?3、考试环境是一个系统的交互环境么还是写完答案直接提交?
11点赞举报
考试题目的英语还是挺基础的。基础的英语水平要有。考试环境是一个CentOS系统,文本编辑器使用这个系统里面的文本编辑器即可。具体的信息你可以看这个CCA175的主页 https://www.cloudera.com/about/training/certification/cca-spark.html
考试题目的英语还是挺基础的。基础的英语水平要有。考试环境是一个CentOS系统,文本编辑器使用这个系统里面的文本编辑器即可。具体的信息你可以看这个CCA175的主页 https://www.cloudera.com/about/training/certification/cca-spark.html
回复回复点赞举报
请问可以使用自己电脑上的编辑器进行写代码,在复制去执行吗?能详细描述一下考试环境吗?
请问可以使用自己电脑上的编辑器进行写代码,在复制去执行吗?能详细描述一下考试环境吗?
44点赞举报
不可以,只能用提供的机器。考试环境就是一个远程的centOS的服务器,屏幕比较小,通过浏览器来访问的。
不可以,只能用提供的机器。考试环境就是一个远程的centOS的服务器,屏幕比较小,通过浏览器来访问的。
回复回复点赞举报
考试的时候需要开启摄像头?一般笔记本上的摄像头可以吗?
考试的时候需要开启摄像头?一般笔记本上的摄像头可以吗?
回复回复点赞举报
查看全部4条回复
请问试题是中文吗,报名网址能发我一下吗,找了半天没找到。
请问试题是中文吗,报名网址能发我一下吗,找了半天没找到。
77点赞举报
试题是英文的。
试题是英文的。
回复回复点赞举报
是在cloudera官网报的名吗
是在cloudera官网报的名吗
回复回复点赞举报
查看全部7条回复
感谢分享
感谢分享
回复回复点赞举报
推荐阅读
编辑精选文章
换一批
2021年大数据Spark(三十二):SparkSQL的External DataSource
在SparkSQL模块,提供一套完成API接口,用于方便读写外部数据源的的数据(从Spark 1.4版本提供),框架本身内置外部数据源:
Lansonli
2021/10/09
2.9K0
第三天:SparkSQL
Spark SQL是Spark用来处理结构化数据的一个模块,它提供了2个编程抽象:DataFrame和DataSet,并且作为分布式SQL查询引擎的作用。 我们已经学习了Hive,它是将Hive SQL转换成MapReduce然后提交到集群上执行,大大简化了编写MapReduc的程序的复杂性,由于MapReduce这种计算模型执行效率比较慢。所有Spark SQL的应运而生,它是将Spark SQL转换成RDD,然后提交到集群执行,执行效率非常快!
sowhat1412
2020/11/05
14.5K0
第三天:SparkSQL
PySpark 读写 CSV 文件到 DataFrame
PySpark 在 DataFrameReader 上提供了csv("path")将 CSV 文件读入 PySpark DataFrame 并保存或写入 CSV 文件的功能dataframeObj.write.csv("path"),在本文中,云朵君将和大家一起学习如何将本地目录中的单个文件、多个文件、所有文件读入 DataFrame,应用一些转换,最后使用 PySpark 示例将 DataFrame 写回 CSV 文件。
数据STUDIO
2023/09/04
3.3K0
PySpark 读写 CSV 文件到 DataFrame
Sqoop工具模块之sqoop-import 原
    import工具从RDBMS向HDFS导入单独的表。表格中的每一行都表示为HDFS中的单独记录。记录可以存储为文本文件(每行一个记录),或以Avro或SequenceFiles的二进制表示形式存储。
云飞扬
2019/03/13
6.6K0
sqoop之旅3-数据导入
sqoop-import introduction 导入的主要语法是 $ sqoop import (generic-args) (import-args) $ sqoop-import (generic-args) (import-args) 命令格式为: $ sqoop import --connect \ (连接字符) --username \ (用户名) --password [-P |--password-file]\ (单个密码或用文件形式,文件权限一般为400) --query \ (查
皮大大
2021/03/02
1.1K0
基于 Spark 的数据分析实践
Spark是在借鉴了MapReduce之上发展而来的,继承了其分布式并行计算的优点并改进了MapReduce明显的缺陷。Spark主要包含了Spark Core、Spark SQL、Spark Streaming、MLLib和GraphX等组件。
yuanyi928
2019/06/19
2.1K0
基于 Spark 的数据分析实践
SparkSQL快速入门系列(6)
上一篇《SparkCore快速入门系列(5)》,下面给大家更新一篇SparkSQL入门级的讲解。
刘浩的BigDataPath
2021/04/13
2.7K0
SparkSQL快速入门系列(6)
Sqoop快速入门系列(3) | Sqoop常用命令及参数解析(建议收藏!!!)
  这里给大家列出来了一部分Sqoop操作时的常用参数,以供参考,需要深入学习的可以参看对应类的源代码。
不温卜火
2020/10/28
2.7K0
SparkSql学习笔记一
1.简介     Spark SQL是Spark用来处理结构化数据的一个模块,它提供了一个编程抽象叫做DataFrame并且作为分布式SQL查询引擎的作用。     为什么要学习Spark SQL?     我们已经学习了Hive,它是将Hive SQL转换成MapReduce然后提交到集群上执行,大大简化了编写MapReduce的程序的复杂性,由于MapReduce这种计算模型执行效率比较慢。所以Spark SQL的应运而生,它是将Spark SQL转换成RDD,然后提交到集群执行,执行效率非常快!同时Spark SQL也支持从Hive中读取数据。 2.特点     *容易整合     *统一的数据访问方式     *兼容Hive     *标准的数据连接 3.基本概念     *DataFrame         DataFrame(表) = schema(表结构) + Data(表结构,RDD)             就是一个表 是SparkSql 对结构化数据的抽象             DataFrame表现形式就是RDD         DataFrame是组织成命名列的数据集。它在概念上等同于关系数据库中的表,但在底层具有更丰富的优化。DataFrames可以从各种来源构建,         DataFrame多了数据的结构信息,即schema。         RDD是分布式的Java对象的集合。DataFrame是分布式的Row对象的集合。         DataFrame除了提供了比RDD更丰富的算子以外,更重要的特点是提升执行效率、减少数据读取以及执行计划的优化     *Datasets         Dataset是数据的分布式集合。Dataset是在Spark 1.6中添加的一个新接口,是DataFrame之上更高一级的抽象。它提供了RDD的优点(强类型化,使用强大的lambda函数的能力)以及Spark SQL优化后的执行引擎的优点。一个Dataset 可以从JVM对象构造,然后使用函数转换(map, flatMap,filter等)去操作。 Dataset API 支持Scala和Java。 Python不支持Dataset API。 4.创建表 DataFrame     方式一 使用case class 定义表         val df = studentRDD.toDF     方式二 使用SparkSession直接生成表         val df = session.createDataFrame(RowRDD,scheme)     方式三 直接读取一个带格式的文件(json文件)         spark.read.json("") 5.视图(虚表)     普通视图         df.createOrReplaceTempView("emp")             只对当前对话有作用     全局视图         df.createGlobalTempView("empG")             在全局(不同会话)有效             前缀:global_temp 6.操作表:     两种语言:SQL,DSL      spark.sql("select * from t ").show     df.select("name").show 
曼路
2018/10/18
9970
Spark入门指南:从基础概念到实践应用全解析
在这个数据驱动的时代,信息的处理和分析变得越来越重要。而在众多的大数据处理框架中,「Apache Spark」以其独特的优势脱颖而出。
BookSea
2023/10/20
1.4K0
Spark入门指南:从基础概念到实践应用全解析
Sqoop工具模块之sqoop-import-all-tables
    import-all-tables工具将一组表从RDBMS导入到HDFS。来自每个表的数据存储在HDFS的单独目录中。
云飞扬
2019/03/13
1.7K0
大数据技术Spark学习
Spark SQL 是 Spark 用来处理结构化数据的一个模块,它提供了一个编程抽象叫做 DataFrame,并且作为分布式 SQL 查询引擎的作用。 我们已经学习了 Hive,它是将 Hive SQL 转换成 MapReduce 然后提交到集群上执行,大大简化了编写 MapReduce 的程序的复杂性,由于 MapReduce 这种计算模型执行效率比较慢。所以 Spark SQL 的应运而生,它是将 Spark SQL 转换成 RDD,然后提交到集群执行,执行效率非常快!
黑泽君
2019/05/10
6K0
大数据技术Spark学习
Sqoop——将关系数据库数据与hadoop数据进行转换的工具
Sqoop的输入输出/导入导出是相对于文件系统HDFS的, 因此HDFS的导入导出如图1,图2
时间静止不是简史
2020/07/24
1.5K0
Sqoop——将关系数据库数据与hadoop数据进行转换的工具
Note_Spark_Day08:Spark SQL(Dataset是什么、外部数据源、UDF定义和分布式SQL引擎)
​ Spark 框架从最初的数据结构RDD、到SparkSQL中针对结构化数据封装的数据结构DataFrame, 最终使用Dataset数据集进行封装,发展流程如下。
Maynor
2021/12/07
4.7K0
Note_Spark_Day08:Spark SQL(Dataset是什么、外部数据源、UDF定义和分布式SQL引擎)
Hive 入门
Hive 的底层执行引擎有 :MapReduce,Tez,Spark - Hive on MapReduce - Hive on Tez - Hive on spark
Meet相识
2018/09/12
8340
Hive 入门
使用 Spark | 手把手带你十步轻松拿下 Spark SQL 使用操作
在《20张图详解 Spark SQL 运行原理及数据抽象》的第 5 节“SparkSession”中,我们知道了 Spark SQL 就是基于 SparkSession 作为入口实现的。
数人之道
2022/03/28
10.3K0
使用 Spark | 手把手带你十步轻松拿下 Spark SQL 使用操作
Apache Spark 2.2.0 中文文档 - Spark SQL, DataFrames and Datasets Guide | ApacheCN
本文介绍了基于Spark的SQL编程的常用概念和技术。首先介绍了Spark的基本概念和架构,然后详细讲解了Spark的数据类型和SQL函数,最后列举了一些Spark在实际应用中的例子。
片刻
2018/01/05
27.8K0
惊了!10万字的Spark全文!
Hello,大家好,这里是857技术社区,我是社区创始人之一,以后会持续给大家更新大数据各组件的合集内容,路过给个关注吧!!!
刘浩的BigDataPath
2022/11/30
1.7K0
Sqoop-1.4.4工具import和export使用详解
Sqoop可以在HDFS/Hive和关系型数据库之间进行数据的导入导出,其中主要使用了import和export这两个工具。这两个工具非常强大,提供了很多选项帮助我们完成数据的迁移和同步。比如,下面两个潜在的需求:
幽鸿
2020/04/02
1.4K0
sqoop命令参数参考说明及案例示例
3.全量导入(将数据从mysql导入到hive,hive表不存在,导入时自动创建hive表)
chimchim
2022/11/13
1.7K0
推荐阅读
相关推荐
2021年大数据Spark(三十二):SparkSQL的External DataSource
更多 >
LV.1
招商信诺系统开发高级工程师
交个朋友
加入[数据] 腾讯云技术交流站
获取数据实战干货 共享技术经验心得
加入数据技术工作实战群
获取实战干货 交流技术经验
加入[数据库] 腾讯云官方技术交流站
数据库问题秒解答 分享实践经验
换一批
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档