首页
学习
活动
专区
圈层
工具
发布
首页
学习
活动
专区
圈层
工具
MCP广场
社区首页 >专栏 >CCA175 考试总结

CCA175 考试总结

原创
作者头像
ZHANGHAO
修改于 2019-04-19 07:22:19
修改于 2019-04-19 07:22:19
2.2K25
举报
文章被收录于专栏:张浩的专栏张浩的专栏

今天(2019.01.29)考了CCA175考试,针对考试中一些考点和技巧做出总结

  1. 考试的题目还是很基础的,进行一些转换,然后把结果输出出来;
  2. 先熟读题目,再进行操作,不要卡在一道题上浪费时间,要是一时某道题做不出来,可以先做别的题,如果是9道题的话,能做过7道基本上就合格了;
  3. Sqoop的导入和导出必考,要熟悉Sqoop的压缩和保存的文件格式;
  4. 给的数据文件基本上都是textFile,所以要熟悉RDD和DF的转换以及各种操作 ,有特定分隔符的textFile可以用spark.read.option("delimiter","###").csv(path)的方式进行读取(###换成指定的分隔符,\n或者逗号),如需指定特定的列名的话,还可以toDF("columnName1","columnName2")的方式去指定列名;
  5. 文件要求保存成特定分隔符的textFile的话,可以 df.rdd.map(_.toSeq.map(_+"").reduce(_+"###"+_)).saveAsTextFile(path)(###换成指定的分隔符,\n或者逗号);
  6. 文件要求使用snappy的压缩的话,可以在df.write.option("compression","snappy")这样使用snappy压缩保存的文件内容;
  7. 熟悉Hive外部表的创建和Hive表数据的导入;
  8. 写的代码改一改可以供后面的题目复用,所以可以先用文本编辑器把写的代码保存一下;
  9. 考试环境屏幕很小,环境也比较卡,如遇到操作不了的情况,可以点击刷新按钮,刷新考试环境,刷新后会快一些。

原创声明:本文系作者授权腾讯云开发者社区发表,未经许可,不得转载。

如有侵权,请联系 cloudcommunity@tencent.com 删除。

原创声明:本文系作者授权腾讯云开发者社区发表,未经许可,不得转载。

如有侵权,请联系 cloudcommunity@tencent.com 删除。

评论
登录后参与评论
25 条评论
热度
最新
请问答题可选python 和 scala吗
请问答题可选python 和 scala吗
回复回复点赞举报
请问,cca175考试难吗?需要参加培训吗?
请问,cca175考试难吗?需要参加培训吗?
33点赞举报
个人感觉不难,就是常用的一些Spark的操作得掌握
个人感觉不难,就是常用的一些Spark的操作得掌握
回复回复点赞举报
自己刷模拟题就可以了,可以不用参加培训
自己刷模拟题就可以了,可以不用参加培训
回复回复点赞举报
查看全部3条回复
請問你是怎樣準備考試的?在哪裡可以找的考試相關的材料嗎?謝謝!
請問你是怎樣準備考試的?在哪裡可以找的考試相關的材料嗎?謝謝!
11点赞举报
我是刷模拟题的
我是刷模拟题的
回复回复点赞举报
感谢分享! 请问如果要求保存结果为某个delimiter的text file, 可以保存为csv格式吗?我的理解是csv也是某种text格式。 比如 df.write.format("csv").option("sep", "\t").save("\some\path").
感谢分享! 请问如果要求保存结果为某个delimiter的text file, 可以保存为csv格式吗?我的理解是csv也是某种text格式。 比如 df.write.format("csv").option("sep", "\t").save("\some\path").
11点赞举报
如果说明了要保存成csv那就保存成csv就可以了。如果说明是文本格式,那用saveText保存成文本文件就ok了。
如果说明了要保存成csv那就保存成csv就可以了。如果说明是文本格式,那用saveText保存成文本文件就ok了。
回复回复点赞举报
1、英文要求高么,怕看不懂题目,能用在线翻译吗?2、文本编辑器使用自己的还是它提供的?3、考试环境是一个系统的交互环境么还是写完答案直接提交?
1、英文要求高么,怕看不懂题目,能用在线翻译吗?2、文本编辑器使用自己的还是它提供的?3、考试环境是一个系统的交互环境么还是写完答案直接提交?
11点赞举报
考试题目的英语还是挺基础的。基础的英语水平要有。考试环境是一个CentOS系统,文本编辑器使用这个系统里面的文本编辑器即可。具体的信息你可以看这个CCA175的主页 https://www.cloudera.com/about/training/certification/cca-spark.html
考试题目的英语还是挺基础的。基础的英语水平要有。考试环境是一个CentOS系统,文本编辑器使用这个系统里面的文本编辑器即可。具体的信息你可以看这个CCA175的主页 https://www.cloudera.com/about/training/certification/cca-spark.html
回复回复点赞举报
请问可以使用自己电脑上的编辑器进行写代码,在复制去执行吗?能详细描述一下考试环境吗?
请问可以使用自己电脑上的编辑器进行写代码,在复制去执行吗?能详细描述一下考试环境吗?
44点赞举报
不可以,只能用提供的机器。考试环境就是一个远程的centOS的服务器,屏幕比较小,通过浏览器来访问的。
不可以,只能用提供的机器。考试环境就是一个远程的centOS的服务器,屏幕比较小,通过浏览器来访问的。
回复回复点赞举报
考试的时候需要开启摄像头?一般笔记本上的摄像头可以吗?
考试的时候需要开启摄像头?一般笔记本上的摄像头可以吗?
回复回复点赞举报
查看全部4条回复
请问试题是中文吗,报名网址能发我一下吗,找了半天没找到。
请问试题是中文吗,报名网址能发我一下吗,找了半天没找到。
77点赞举报
试题是英文的。
试题是英文的。
回复回复点赞举报
是在cloudera官网报的名吗
是在cloudera官网报的名吗
回复回复点赞举报
查看全部7条回复
感谢分享
感谢分享
回复回复点赞举报
推荐阅读
编辑精选文章
换一批
2021年大数据Spark(三十二):SparkSQL的External DataSource
在SparkSQL模块,提供一套完成API接口,用于方便读写外部数据源的的数据(从Spark 1.4版本提供),框架本身内置外部数据源:
Lansonli
2021/10/09
2.6K0
第三天:SparkSQL
Spark SQL是Spark用来处理结构化数据的一个模块,它提供了2个编程抽象:DataFrame和DataSet,并且作为分布式SQL查询引擎的作用。 我们已经学习了Hive,它是将Hive SQL转换成MapReduce然后提交到集群上执行,大大简化了编写MapReduc的程序的复杂性,由于MapReduce这种计算模型执行效率比较慢。所有Spark SQL的应运而生,它是将Spark SQL转换成RDD,然后提交到集群执行,执行效率非常快!
sowhat1412
2020/11/05
13.8K0
第三天:SparkSQL
PySpark 读写 CSV 文件到 DataFrame
PySpark 在 DataFrameReader 上提供了csv("path")将 CSV 文件读入 PySpark DataFrame 并保存或写入 CSV 文件的功能dataframeObj.write.csv("path"),在本文中,云朵君将和大家一起学习如何将本地目录中的单个文件、多个文件、所有文件读入 DataFrame,应用一些转换,最后使用 PySpark 示例将 DataFrame 写回 CSV 文件。
数据STUDIO
2023/09/04
2.2K0
PySpark 读写 CSV 文件到 DataFrame
Sqoop工具模块之sqoop-import 原
    import工具从RDBMS向HDFS导入单独的表。表格中的每一行都表示为HDFS中的单独记录。记录可以存储为文本文件(每行一个记录),或以Avro或SequenceFiles的二进制表示形式存储。
云飞扬
2019/03/13
6.3K0
Note_Spark_Day08:Spark SQL(Dataset是什么、外部数据源、UDF定义和分布式SQL引擎)
​ Spark 框架从最初的数据结构RDD、到SparkSQL中针对结构化数据封装的数据结构DataFrame, 最终使用Dataset数据集进行封装,发展流程如下。
Maynor
2021/12/07
4.4K0
Note_Spark_Day08:Spark SQL(Dataset是什么、外部数据源、UDF定义和分布式SQL引擎)
sqoop之旅3-数据导入
sqoop-import introduction 导入的主要语法是 $ sqoop import (generic-args) (import-args) $ sqoop-import (generic-args) (import-args) 命令格式为: $ sqoop import --connect \ (连接字符) --username \ (用户名) --password [-P |--password-file]\ (单个密码或用文件形式,文件权限一般为400) --query \ (查
皮大大
2021/03/02
9790
SparkSQL
Hive on Spark:Hive既作为存储元数据又负责SQL的解析优化,语法是HQL语法,执行引擎变成了Spark,Spark负责采用RDD执行。
ha_lydms
2023/11/04
7090
SparkSQL
基于 Spark 的数据分析实践
Spark是在借鉴了MapReduce之上发展而来的,继承了其分布式并行计算的优点并改进了MapReduce明显的缺陷。Spark主要包含了Spark Core、Spark SQL、Spark Streaming、MLLib和GraphX等组件。
yuanyi928
2019/06/19
2K0
基于 Spark 的数据分析实践
SparkSQL快速入门系列(6)
上一篇《SparkCore快速入门系列(5)》,下面给大家更新一篇SparkSQL入门级的讲解。
刘浩的BigDataPath
2021/04/13
2.5K0
SparkSQL快速入门系列(6)
Apache Spark 2.2.0 中文文档 - Spark SQL, DataFrames and Datasets Guide | ApacheCN
本文介绍了基于Spark的SQL编程的常用概念和技术。首先介绍了Spark的基本概念和架构,然后详细讲解了Spark的数据类型和SQL函数,最后列举了一些Spark在实际应用中的例子。
片刻
2018/01/05
26.9K0
Sqoop快速入门系列(3) | Sqoop常用命令及参数解析(建议收藏!!!)
  这里给大家列出来了一部分Sqoop操作时的常用参数,以供参考,需要深入学习的可以参看对应类的源代码。
不温卜火
2020/10/28
2.6K0
SparkSql学习笔记一
1.简介     Spark SQL是Spark用来处理结构化数据的一个模块,它提供了一个编程抽象叫做DataFrame并且作为分布式SQL查询引擎的作用。     为什么要学习Spark SQL?     我们已经学习了Hive,它是将Hive SQL转换成MapReduce然后提交到集群上执行,大大简化了编写MapReduce的程序的复杂性,由于MapReduce这种计算模型执行效率比较慢。所以Spark SQL的应运而生,它是将Spark SQL转换成RDD,然后提交到集群执行,执行效率非常快!同时Spark SQL也支持从Hive中读取数据。 2.特点     *容易整合     *统一的数据访问方式     *兼容Hive     *标准的数据连接 3.基本概念     *DataFrame         DataFrame(表) = schema(表结构) + Data(表结构,RDD)             就是一个表 是SparkSql 对结构化数据的抽象             DataFrame表现形式就是RDD         DataFrame是组织成命名列的数据集。它在概念上等同于关系数据库中的表,但在底层具有更丰富的优化。DataFrames可以从各种来源构建,         DataFrame多了数据的结构信息,即schema。         RDD是分布式的Java对象的集合。DataFrame是分布式的Row对象的集合。         DataFrame除了提供了比RDD更丰富的算子以外,更重要的特点是提升执行效率、减少数据读取以及执行计划的优化     *Datasets         Dataset是数据的分布式集合。Dataset是在Spark 1.6中添加的一个新接口,是DataFrame之上更高一级的抽象。它提供了RDD的优点(强类型化,使用强大的lambda函数的能力)以及Spark SQL优化后的执行引擎的优点。一个Dataset 可以从JVM对象构造,然后使用函数转换(map, flatMap,filter等)去操作。 Dataset API 支持Scala和Java。 Python不支持Dataset API。 4.创建表 DataFrame     方式一 使用case class 定义表         val df = studentRDD.toDF     方式二 使用SparkSession直接生成表         val df = session.createDataFrame(RowRDD,scheme)     方式三 直接读取一个带格式的文件(json文件)         spark.read.json("") 5.视图(虚表)     普通视图         df.createOrReplaceTempView("emp")             只对当前对话有作用     全局视图         df.createGlobalTempView("empG")             在全局(不同会话)有效             前缀:global_temp 6.操作表:     两种语言:SQL,DSL      spark.sql("select * from t ").show     df.select("name").show 
曼路
2018/10/18
9210
Spark_Day07:Spark SQL(DataFrame是什么和数据分析(案例讲解))
在Spark中,DataFrame是一种以RDD为基础的分布式数据集,类似于传统数据库中的二维表格。 DataFrame与RDD的主要区别在于,前者带有schema元信息,即DataFrame所表示的二维表数据集的每一列都带有名称和类型。
Maynor
2022/05/08
2.9K0
Spark_Day07:Spark SQL(DataFrame是什么和数据分析(案例讲解))
Spark入门指南:从基础概念到实践应用全解析
在这个数据驱动的时代,信息的处理和分析变得越来越重要。而在众多的大数据处理框架中,「Apache Spark」以其独特的优势脱颖而出。
BookSea
2023/10/20
1K0
Spark入门指南:从基础概念到实践应用全解析
Sqoop工具模块之sqoop-import-all-tables
    import-all-tables工具将一组表从RDBMS导入到HDFS。来自每个表的数据存储在HDFS的单独目录中。
云飞扬
2019/03/13
1.6K0
Sqoop——将关系数据库数据与hadoop数据进行转换的工具
Sqoop的输入输出/导入导出是相对于文件系统HDFS的, 因此HDFS的导入导出如图1,图2
时间静止不是简史
2020/07/24
1.3K0
Sqoop——将关系数据库数据与hadoop数据进行转换的工具
大数据技术Spark学习
Spark SQL 是 Spark 用来处理结构化数据的一个模块,它提供了一个编程抽象叫做 DataFrame,并且作为分布式 SQL 查询引擎的作用。 我们已经学习了 Hive,它是将 Hive SQL 转换成 MapReduce 然后提交到集群上执行,大大简化了编写 MapReduce 的程序的复杂性,由于 MapReduce 这种计算模型执行效率比较慢。所以 Spark SQL 的应运而生,它是将 Spark SQL 转换成 RDD,然后提交到集群执行,执行效率非常快!
黑泽君
2019/05/10
5.6K0
大数据技术Spark学习
Spark SQL,DataFrame以及 Datasets 编程指南 - For 2.0
Spark SQL 是 Spark 用来处理结构化数据的一个模块。与基础的 Spark RDD API 不同,Spark SQL 提供了更多数据与要执行的计算的信息。在其实现中,会使用这些额外信息进行优化。可以使用 SQL 语句和 Dataset API 来与 Spark SQL 模块交互。无论你使用哪种语言或 API 来执行计算,都会使用相同的引擎。这让你可以选择你熟悉的语言(现支持 Scala、Java、R、Python)以及在不同场景下选择不同的方式来进行计算。
codingforfun
2018/08/24
4.5K0
Hive 入门
Hive 的底层执行引擎有 :MapReduce,Tez,Spark - Hive on MapReduce - Hive on Tez - Hive on spark
Meet相识
2018/09/12
7870
Hive 入门
Spark入门指南:从基础概念到实践应用全解析
在这个数据驱动的时代,信息的处理和分析变得越来越重要。而在众多的大数据处理框架中,「Apache Spark」以其独特的优势脱颖而出。
BookSea
2023/10/13
3.3K0
推荐阅读
相关推荐
2021年大数据Spark(三十二):SparkSQL的External DataSource
更多 >
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档