Apache Kudu 1.4.0 中文文档 介绍 Kudu Kudu 入门指南 安装指南 配置 Kudu Kudu 集成 Apache Impala 管理 Kudu Kudu 故障排除 使用 Kudu...事务语义 ) 后台维护任务 Kudu 配置参考 Kudu 命令行工具参考 已知的问题和限制 贡献于 Kudu Export Control Notice ( 出口管制通知 ) Kudu 是一个针对 Apache...与 Apache Impala(incubating)紧密集成,使其与 Apache Parquet 一起使用 HDFS 成为一个很好的可变的替代方案。...pageId=10813605 欢迎转载,请注明来源:ApacheCN » Apache Kudu 1.4.0 中文文档 | ApacheCN
ApacheCN(Apache中文网)- 关于我们 : http://www.apache.wiki/pages/viewpage.action?...pageId=10030937 ApacheCN(Apache中文网)- Apache Zeppelin 0.7.2 中文文档 : http://www.apache.wiki/pages/viewpage.action...pageId=10030467 Apache Zeppelin 0.7.2 中文文档 快速入门 什么是Apache Zeppelin?...安装 配置 探索Apache Zeppelin UI 教程 动态表单 发表你的段落 自定义Zeppelin主页 升级Zeppelin版本 从源码编译 使用Flink和Spark Clusters安装Zeppelin
Apache Spark™ 是一个快速的, 用于海量数据处理的通用引擎....官方网址: http://spark.apache.org 中文文档: http://spark.apachecn.org 花了大概两周左右的时间,在原来 Spark 2.0.2 中文文档 版本的基础上... 的目录索引: Apache Spark 2.2.0 官方文档中文版 概述 编程指南 快速入门 Spark 编程指南 Spark Streaming 编程指南 DataFrames, DataSets...: TensorFlow R1.2 中文文档 sklearn 0.18 中文文档 Spark 2.2.0 中文文档 Spark 2.0.2 中文文档 Kudu 1.4.0 中文文档 Zeppelin 0.7.2...欢迎转载,请注明来源:ApacheCN » Apache Spark 2.2.0 中文文档 | ApacheCN
官方文档: http://storm.apache.org 中文文档: http://storm.apachecn.org ApacheCN 最近组织了翻译 Storm 1.1.0 中文文档 的活动...感谢大家参与到该活动中来 感谢无私奉献的 贡献者,才有了这份 Storm 1.1.0 中文文档 感谢一路有你的陪伴,我们才可以做的更好,走的更快,走的更远,我们一直在努力 。。。...我只能悄悄的告诉你,跟着中文文档走,把文档看一遍先,文档中的概念,例子什么的先弄懂,基本上就入门 2.Storm 如何成为大神呢?...Kafka 集成, 新的 Kafka Consumer(消费者)集成 Apache HBase 集成 Apache HDFS 集成 Apache Hive 集成 Apache Solr 集成 Apache...但总算是把这份中文文档给弄好了吧,也算是对大家,或者对自己有一个交代,没有半途而废吧!~~~ 希望大家可以一起走的更快,走的更远 。。。
Spark 概述 Apache Spark 是一个快速的, 多用途的集群计算系统。...它当前提供了几种用于部署的选项: Standalone Deploy Mode: 在私有集群上部署 Spark 最简单的方式 Apache Mesos Hadoop YARN 快速跳转 编程指南...5分钟的时间让您在EC2上启动一个集群的脚本 Standalone Deploy Mode: 在不依赖第三方 Cluster Manager 的情况下快速的启动一个独立的集群 Mesos: 使用 Apache...Spark 给 Spark 贡献 第三方项目: 其它第三方 Spark 项目的支持 外部资源: Spark 首页 Spark 社区 资源, 包括当地的聚会 StackOverflow tag apache-spark
org.apache.spark.examples.SparkPi) --master: 集群的 master URL (例如 spark://23.195.26.187:7077) --deploy-mode.../bin/spark-submit \ --class org.apache.spark.examples.SparkPi \ --master spark://207.184.161.138:.../bin/spark-submit \ --class org.apache.spark.examples.SparkPi \ --master spark://207.184.161.138:.../bin/spark-submit \ --class org.apache.spark.examples.SparkPi \ --master yarn \ --deploy-mode cluster.../bin/spark-submit \ --class org.apache.spark.examples.SparkPi \ --master mesos://207.184.161.138:
源目录中的 README 文件来创建一个新的 Dataset: scala> val textFile = spark.read.textFile("README.md") textFile: org.apache.spark.sql.Dataset...time, similar to other outputs scala> textFile.first() // First item in this Dataset res1: String = # Apache...scala> val linesWithSpark = textFile.filter(line => line.contains("Spark")) linesWithSpark: org.apache.spark.sql.Dataset...wordCounts = textFile.flatMap(line => line.split(" ")).groupByKey(identity).count() wordCounts: org.apache.spark.sql.Dataset...: name := "Simple Project" version := "1.0" scalaVersion := "2.11.8" libraryDependencies += "org.apache.spark
入门 首先需要将 Spark 和 GraphX 导入到项目中,如下所示: import org.apache.spark._ import org.apache.spark.graphx._ // To...import org.apache.spark.graphx....import org.apache.spark.graphx....该算法被包含在 org.apache.spark.graphx.lib 包可直接作为方法来访问 Graph 通过 GraphOps 。本节介绍算法及其使用方法。...import org.apache.spark.graphx.
Apache Mesos – 一个通用的 Cluster Manager,它也可以运行 Hadoop MapReduce 和其它服务应用。...Kubernetes 的支持正在 apache-spark-on-k8s Github 组织中积极开发。有关文档,请参阅该项目的 README。
SparkR (R on Spark) 概述 SparkR 是一个 R package, 它提供了一个轻量级的前端以从 R 中使用 Apache Spark.
Spark 可以通过 Maven 中央仓库获取: groupId = org.apache.spark artifactId = spark-core_2.11 version = 2.2.0 此外,...groupId = org.apache.hadoop artifactId = hadoop-client version = 最后,您需要导入一些 Spark...添加下面几行: import org.apache.spark.SparkContext import org.apache.spark.SparkConf (在 Spark 1.3.0 之前,您需要明确导入... org.apache.spark.SparkContext._ 来启用必要的的隐式转换。)...下面是一个调用示例: scala> val distFile = sc.textFile("data.txt") distFile: org.apache.spark.rdd.RDD[String] =
RestSharp是一个第三方开源的Http模拟请求辅助类,其底层实现基于System.Net.HttpWebRequest,且不依赖于任何第三方控件。其git...
我们创建了一个带有 2 个执行线程和间歇时间为 1 秒的本地 StreamingContext. import org.apache.spark._ import org.apache.spark.streaming...._ import org.apache.spark.streaming.StreamingContext._ // 自从 Spark 1.3 开始, 不再是必要的了 // 创建一个具有两个工作线程...接下来,我们想要计算这些单词. import org.apache.spark.streaming.StreamingContext._ // not necessary since Spark 1.3...Maven SBT org.apache.spark spark-streaming_2.11<...Scala Java Python 一个 StreamingContext 对象可以从一个 SparkConf 对象中来创建. import org.apache.spark._ import org.apache.spark.streaming
Scala Java Python R import org.apache.spark.sql.functions._ import org.apache.spark.sql.SparkSession.../bin/run-example org.apache.spark.examples.sql.streaming.StructuredNetworkWordCount localhost 9999 然后...# 终端 1: # 运行 Netcat $ nc -lk 9999 apache spark apache hadoop ....../bin/run-example org.apache.spark.examples.sql.streaming.StructuredNetworkWordCount localhost 9999 -...Batch: 0 ------------------------------------------- +------+-----+ | value|count| +------+-----+ |apache
决定从官网的文档开始入手,现在也略有些时间,就一边学习一边将其翻译成中文好了,不过英文比较烂。大概每天翻译一节吧。...Apache Hadoop 2.2.0 Apache Hadoop 2.2.0 比起之前的稳定发行版(hadoop-1.x),有一些明显的改进。 这是对HDFS和MapReduce的改进的简短概览。
import org.apache.spark.sql.expressions.UserDefinedAggregateFunction import org.apache.spark.sql.types...._ import org.apache.spark.sql.Row import org.apache.spark.sql.SparkSession object MyAverage extends...import org.apache.spark.sql.Encoder import org.apache.spark.sql.Encoders import org.apache.spark.sql.SparkSession...å Scala Java Python R import java.io.File import org.apache.spark.sql.Row import org.apache.spark.sql.SparkSession...开发人员应改为导入类 org.apache.spark.sql.types。
1.bootstrap.servers 指定Kafka集群所需的broker地址清单,默认“”
比如, 基于一个 HDFS 文件创建出来的的 RDD 中文件的每一个数据块就是一个分区, 并且这个 RDD 知道每一个数据块存储在哪些机器上, 同时, 在这个 RDD 上进行 map 操作后的结果有相同的分区数...引用资料 [1] ApacheHive.http://hadoop.apache.org/hive. [2] Scala.http://www.scala-lang.org.
问题修复 出现这个问题,是因为,语言与外观不兼容导致,语言选“中文”,外观选“Metal” ? ? 细心的你,可能发现,为啥要重启2次呢???...第一次设置完语言后,在设置外观,发现菜单不能选择,第二次重启后,才可以正常操作,估计是个bug 刚才那样只是暂时性中文显示,若想永久显示中文,请看下面 永久性中文显示 位置:apache-jmeter-
假设一台apache服务器域名为www.a.com, 首先需要启用Apache的几个模块: Httpd.conf代码 代码如下: LoadModule proxy_module modules...服务器的加入来实现。在进行配置之前请先卸载调已安装的tomcat,然后检查apache的版本。我这次配置使用的是apache-tomcat-6.0.18免安装版本,我亲自测试后推断安装版的tomcat在同一台机子上会不能启动两个以上...,可能是因为安装版的tomcat侵入了系统,导致即使在server.xml里修改了配置,还是会引起冲突。所以我使用tomcat免安装版。 apache使用的是apache_2.2.11-win32-...。这两个软件可以到官方网站下载。 把Apache安装为运行在80端口的Windows服务,安装成功后在系统服务列表中可以看到Apache2.2服务。服务启动后在浏览器中输入http://localhost...jdk的配置也是必须的,这个不再过多叙述。 想要达到负载均衡的目的,首先,在Apache安装目录下找到conf/httpd.conf文件,去掉以下文本前的注释符(#)以便让Apache在启动时自动加载代理