首页
学习
活动
专区
圈层
工具
发布

#spark

Apache Spark是一个开源集群运算框架,Spark使用了存储器内运算技术,能在数据尚未写入硬盘时即在存储器内分析运算。

一位AI产品经理的DGX Spark实践启示录:揭秘本地LLM推理如何重构AI应用开发范式

GPUS Lady

DGX Spark 桌面超算如何点亮癫痫研究的神经密码——一个科学家与“迷你超级计算机”的真实故事

5410

Hadoop在华为鲲鹏KylinOS无缝切换平缓迁移

肥仔鱼

Hadoop、Cloudera CDP7、CDH5、CDH6 在华为鲲鹏 ARM 麒麟KylinOS做到无缝切换平缓迁移过程

10710

Hadoop集群搭建(详细)_hadoop大数据集群搭建(含下载地址)

肥仔鱼

spark-submit --class org.apache.spark.examples.SparkPi --master yarn-client /op...

9710

hive执行引擎的发展历程

我爱少少冰

Tez通过优化任务执行流程,避免了MapReduce的中间结果频繁落盘,性能显著提升

8710

Hadoop大数据集群搭建(超详细)_hadoop集群搭建

肥仔鱼

Cloudera CDP7.3在国产麒麟aarch64(华为鲲鹏CPU)安装CMP v7.13指南(含文件下载)

16510

Spark 任务为什么会倾斜?数据倾斜产生原因与三种解决方案

用魔法才能打败魔法

写 Spark 的同学,应该都被数据倾斜折磨过。那种感觉就像:你把代码写的很完美,参数配得也算专业,结果一跑,Stage 卡在 99% 不动,UI 上只有一个 ...

16610

【Q&A】从文本到知识图谱:DGX Spark如何高效支持离线批处理与图构建

GPUS Lady

DGX Spark软件更新今日上线,同步支持基于NVIDIA GB10的OEM系统

11210

DGX Spark是否支持GPUDirect RDMA技术?一文看懂

GPUS Lady

NET/IB : GPU Direct RDMA Disabled for HCA 0 ‘rocep1s0f0’ NET/IB : GPU Direct RDM...

10710

Hive与Spark的完美融合:深入解析Hive on Spark配置与优化指南

用户6320865

这些参数指定了Hive使用Spark作为执行引擎,并通过YARN进行资源管理。spark.executor.memory和spark.executor.core...

26710

Hive执行引擎深度解析:从MapReduce到Tez再到Spark的演进与调优指南

用户6320865

Spark则提供了丰富的API(如SQL、DataFrame)和交互式shell(spark-shell),大大降低了开发门槛。其统一的编程模型支持批处理、流处...

15010

Flink SQL vs Spark SQL:深度解析Catalyst优化器与代码生成的核心差异

用户6320865

在大数据技术快速发展的今天,结构化查询语言(SQL)作为数据处理领域最广泛使用的接口之一,持续发挥着不可替代的作用。无论是传统的关系型数据库,还是现代的大数据计...

16710

Spark网络传输层深度解析:基于Netty的BlockTransferService源码剖析

用户6320865

NettyBlockRpcServer在设计上采用了多种性能优化手段。线程池管理方面,Netty的EventLoopGroup基于NIO事件驱动,减少了线程上下...

8310

Spark源码深度解析:Whole-Stage Code Generation原理与实现揭秘

用户6320865

随着数据量呈指数级增长,企业如何应对实时分析与海量数据处理的双重挑战?2025年的今天,Apache Spark凭借其持续演进的内存计算与高效的DAG执行引擎,...

13110

Spark Catalyst优化器深度解析:物理计划生成与策略实现

用户6320865

spark.sql.cbo.enabled 和 spark.sql.statistics.histogram.enabled:基于成本的优化(CBO)依赖准确的...

19810
领券