首页
学习
活动
专区
圈层
工具
发布

#spark

Apache Spark是一个开源集群运算框架,Spark使用了存储器内运算技术,能在数据尚未写入硬盘时即在存储器内分析运算。

凯哥 | Spark 点火,湖仓起飞:Databricks 如何做成千亿美元“开源印钞机”?

凯哥

Spark 点火,湖仓起飞:Databricks 如何做成千亿美元“开源印钞机”?

3200

spark集成hive

用户4128047

        集群使用ambari+hdp方式进行部署,集群的相关版本号如下所示:

5610

spark临时文件较大问题处理

用户4128047

最近使用spark对ods明细表数据进行清洗,由于清洗的表数据量较大,加上集群只有5个节点,磁盘使用率也上去了,导致每次跑spark任务时,都会产生很多临时文件...

4110

Hive参数设置

用户4128047

设置为mr则调用Hadoop的mr执行;设置执行引擎为spark则调用spark执行任务。若有条件设置为Spark,因为运行比Hadoop的mr快。

6710

spark中cache和persist算子的区别

用户4128047

基于spark-2.4.0的源码对两个算子进行分析它们之间的区别 首先,看下cache()算子的源码

6510

在windows上pycharm配置spark环境

用户4128047

在pycharm中配置开发环境 a、打开pycharm,创建一个progect,设置run configuration

3310

Spark yarn集群搭建

用户4128047

yarn是hadoop的一个子项目,用于管理分布式计算资源,在yarn上面搭建spark集群需要配置好hadoop和spark。集群是有3台虚拟机组成,都是ce...

6810

一位AI产品经理的DGX Spark实践启示录:揭秘本地LLM推理如何重构AI应用开发范式

GPUS Lady

DGX Spark 桌面超算如何点亮癫痫研究的神经密码——一个科学家与“迷你超级计算机”的真实故事

11610

Hadoop在华为鲲鹏KylinOS无缝切换平缓迁移

肥仔鱼

Hadoop、Cloudera CDP7、CDH5、CDH6 在华为鲲鹏 ARM 麒麟KylinOS做到无缝切换平缓迁移过程

11710

Hadoop集群搭建(详细)_hadoop大数据集群搭建(含下载地址)

肥仔鱼

spark-submit --class org.apache.spark.examples.SparkPi --master yarn-client /op...

11610

hive执行引擎的发展历程

我爱少少冰

Tez通过优化任务执行流程,避免了MapReduce的中间结果频繁落盘,性能显著提升

9110

Hadoop大数据集群搭建(超详细)_hadoop集群搭建

肥仔鱼

Cloudera CDP7.3在国产麒麟aarch64(华为鲲鹏CPU)安装CMP v7.13指南(含文件下载)

17410

Spark 任务为什么会倾斜?数据倾斜产生原因与三种解决方案

用魔法才能打败魔法

写 Spark 的同学,应该都被数据倾斜折磨过。那种感觉就像:你把代码写的很完美,参数配得也算专业,结果一跑,Stage 卡在 99% 不动,UI 上只有一个 ...

17510

【Q&A】从文本到知识图谱:DGX Spark如何高效支持离线批处理与图构建

GPUS Lady

DGX Spark软件更新今日上线,同步支持基于NVIDIA GB10的OEM系统

11810
领券