开发者社区

文档建议反馈控制台

最新优惠活动

文章/答案/技术大牛

发布

Spark mllib: implicitTrain和explicitTrain之间的区别

Spark MLlib是Apache Spark的机器学习库，提供了丰富的机器学习算法和工具，用于构建和部署大规模的机器学习模型。在Spark MLlib中，implicitTrain和explicitTrain是两种不同的训练方法，它们之间的区别如下：

implicitTrain（隐式训练）：implicitTrain是一种基于隐式数据的训练方法。隐式数据通常是指用户对物品的行为数据，比如用户的点击、购买、评分等。在隐式训练中，模型会根据用户的行为数据来推断用户的偏好和兴趣，从而进行模型训练和预测。隐式训练适用于用户行为数据较为稀疏或者无法直接获得用户的显式反馈的场景。
explicitTrain（显式训练）：explicitTrain是一种基于显式反馈数据的训练方法。显式反馈数据通常是指用户对物品的明确评分或者喜好程度的数据。在显式训练中，模型会根据用户的明确反馈数据来进行模型训练和预测。显式训练适用于用户行为数据相对丰富且能够直接获得用户的显式反馈的场景。

这两种训练方法在使用上有一些差异和适用场景的区别。根据具体的业务需求和数据情况，选择合适的训练方法可以提高模型的准确性和性能。

腾讯云相关产品和产品介绍链接地址：

腾讯云机器学习平台（https://cloud.tencent.com/product/tiia）
腾讯云人工智能开发平台（https://cloud.tencent.com/product/ai）
腾讯云大数据与AI（https://cloud.tencent.com/solution/big-data-ai）

页面内容是否对你有帮助？

有帮助

没帮助

相关·内容

Spark机器学习库(MLlib)指南之简介及基础统计

问题向导: (1)Spark机器学习库是什么，目标是什么？ (2)MLlib具体提供哪些功能？ (3)MLlib为什么要改用基于DataFrame的API? 1.Spark机器学习库(MLlib

07

基于Spark的机器学习实践 (二) - 初识MLlib

MLlib是Spark的机器学习（ML）库。其目标是使实用的机器学习可扩展且简单。从较高的层面来说，它提供了以下工具：

02

基于Spark的机器学习实践 (二) - 初识MLlib

MLlib是Spark的机器学习（ML）库。其目标是使实用的机器学习可扩展且简单。从较高的层面来说，它提供了以下工具：

04

Apache Spark 1.5新特性介绍

Apache Spark社区刚刚发布了1.5版本，大家一定想知道这个版本的主要变化，这篇文章告诉你答案。 DataFrame执行后端优化（Tungsten第一阶段） DataFrame可以说是整个Spark项目最核心的部分，在1.5这个开发周期内最大的变化就是Tungsten项目的第一阶段已经完成。主要的变化是由Spark自己来管理内存而不是使用JVM，这样可以避免JVM GC带来的性能损失。内存中的Java对象被存储成Spark自己的二进制格式，计算直接发生在二进制格式上，省去了序列化和反序列化时间。同时

09

Apache Spark 1.5新特性介绍

作者：梁堰波现就职于明略数据,开源爱好者,Apache Hadoop & Spark contributor。曾任职于法国电信研究员,美团网技术专家,Yahoo!工程师,具备丰富的数据挖掘和机器学

09

spark的机器学习库mllib

Apache Spark是大数据流行的开源平台。MMLib是Spark的开源学习库。MMLib提供了机器学习配置，统计，优化和线性代数等原语。在生态兼容性支持Spark API和Python等NumPy库，也可以使用Hadoop数据源。

01

适合小白入门Spark的全面教程

1.实时分析在我们开始之前，让我们来看看美国社交媒体比较有名的企业每分钟产生的数据量。

03

【原】Learning Spark (Python版) 学习笔记(四)----Spark Sreaming与MLlib机器学习

本来这篇是准备5.15更的，但是上周一直在忙签证和工作的事，没时间就推迟了，现在终于有时间来写写Learning Spark最后一部分内容了。　　第10-11 章主要讲的是Spark Streaming 和MLlib方面的内容。我们知道Spark在离线处理数据上的性能很好，那么它在实时数据上的表现怎么样呢？在实际生产中，我们经常需要即使处理收到的数据，比如实时机器学习模型的应用，自动异常的检测，实时追踪页面访问统计的应用等。Spark Streaming可以很好的解决上述类似的问题。了解Spark S

MLlib中的Random Forests和Boosting

【编者按】本文来自Databricks公司网站的一篇博客文章，由Joseph Bradley和Manish Amde撰写。此外，Databricks是由Apache Spark的创始人建立的，成立于2013年年中，目前团队人员均是开源圈子内的重量级人物，他们都热衷于"增值开源软件"：任职CEO的Ion Stoica是UC Berkeley计算机教授、AMPLab联合创始人，同时也是Conviva公司的联合创始人。 CTO Matei Zaharia是Apache Spark的创作者，同时也是麻省理工学院计

03

Spark MLlib

机器学习是用数据或以往的经验，并以此来优化程序的性能指标。机器学习本质思想：使用现有的数据，训练出一个模型，然后在用这个模型去拟合其他的数据，给未知的数据做出一个预测结果。机器学习是一个求解最优化问题的过程。老师教学生，学生举一反三，考试成绩是学习效果的预测。分类：人脸识别判断性别聚类：发掘相同类型的爱好和兴趣。物以类聚人以群分回归：预测分析价格

06

分布式机器学习原理及实战(Pyspark)

大数据（Big Data）是指无法在一定时间内用常规软件工具对其内容进行抓取、管理和处理的数据集合。大数据技术，是指从各种各样类型的数据中，快速获得有价值信息的能力。

02

Apache Spark 2.0预览：机器学习模型持久性

以上所有应用场景在模型持久性、保存和加载模型的能力方面都更为容易。随着Apache Spark 2.0即将发布，Spark的机器学习库MLlib将在DataFrame-based的API中对ML提供长期的近乎完整的支持。本博客给出了关于它的早期概述、代码示例以及MLlib的持久性API的一些细节。

08

Apache Spark 1.1中的统计功能

Apache Spark中的理念之一就是提供丰富友好的内置库，以便用户可以轻松组织数据管道。随着 Spark，尤其是 MLlib 在数据科学家和机器学习从业者中迅速风靡，我们窥见了模型拟合之外对数据分析支持的需求。为了满足这种需求，我们开始添加通用统计函数的可扩展实现来升级数据管道的各个组件。现在我们很高兴地宣布Apache Spark 1.1 内置了对探索性数据管道中常见的几种统计算法的支持：

“轻易强快”的Spark on Angel，大数据处理爽到爆！

作者简介游遵文机器学习算法工程师，现任职于腾讯TEG数据平台部智能学习组，专注于机器学习算法的研究及其分布式实现，参与Angel开源项目开发及优化。 Spark的核心概念是RDD，而RDD的关键特性之一是其不可变性，来规避分布式环境下复杂的各种并行问题。这个抽象，在数据分析的领域是没有问题的，它能最大化的解决分布式问题，简化各种算子的复杂度，并提供高性能的分布式数据处理运算能力。然而在机器学习领域，RDD的弱点很快也暴露了。机器学习的核心是迭代和参数更新。RDD凭借着逻辑上不落地的内存计算特性，可以很

07

MLlib中的随机森林和提升方法

本帖是与来自于Origami Logic 的Manish Amd共同撰写的。

如何选择Spark机器学习API

译者注：本文简要介绍了四种经典的机器学习算法。本文将简要介绍Spark机器学习库（Spark MLlib’s APIs）的各种机器学习算法，主要包括：统计算法、分类算法、聚类算法和协同过滤算法，以及

06

【工具】Apache Spark 1.5发布了！！！

Apache Spark社区刚刚发布了1.5版本，大家一定想知道这个版本的主要变化，这篇文章告诉你答案。 DataFrame执行后端优化（Tungsten第一阶段） DataFrame可以说是整个Spark项目最核心的部分，在1.5这个开发周期内最大的变化就是Tungsten项目的第一阶段已经完成。主要的变化是由Spark自己来管理内存而不是使用JVM，这样可以避免JVM GC带来的性能损失。内存中的Java对象被存储成Spark自己的二进制格式，计算直接发生在二进制格式上，省去了序列化和反序列化时间。同

06

spark零基础学习线路指导【包括spark2】

问题导读 1.你认为spark该如何入门？ 2.你认为spark入门编程需要哪些步骤？ 3.本文介绍了spark哪些编程知识？

03

大数据测试学习笔记之基准测试HiBench

简介 HiBench是一套基准测试套件，用于帮助我们评估不同的大数据框架性能指标（包括处理速度、吞吐等）的负载指标，可以评估Hadoop、Spark和流式负载等，具体的工作负载有： Sort WordCount TeraSort Sleep SQL PageRank Nutch indexing Bayes Kmeans NWeight enhanced DFSIO 等等同样的它还可以用于评估Spark Stream、Flink、Storm和Gearpump。工作负载对这些工作负载进行分类记录如下，总

06

【技术分享】决策树分类

所谓决策树，顾名思义，是一种树，一种依托于策略抉择而建立起来的树。机器学习中，决策树是一个预测模型；他代表的是对象属性与对象值之间的一种映射关系。树中每个节点表示某个对象，而每个分叉路径则代表的某个可能的属性值，从根节点到叶节点所经历的路径对应一个判定测试序列。决策树仅有单一输出，若欲有复数输出，可以建立独立的决策树以处理不同输出。

02

Spark MLlib 算法系列之 FM

本文介绍了Spark MLlib算法系列之FM，介绍了Spark在机器学习方面的优势，并给出了具体的算法实现和示例。

02

PySpark 中的机器学习库

传统的机器学习算法，由于技术和单机存储的限制，比如使用scikit-learn,只能在少量数据上使用。即以前的统计/机器学习依赖于数据抽样。但实际过程中样本往往很难做好随机，导致学习的模型不是很准确，在测试数据上的效果也可能不太好。随着 HDFS(Hadoop Distributed File System) 等分布式文件系统出现，存储海量数据已经成为可能。在全量数据上进行机器学习也成为了可能，这顺便也解决了统计随机性的问题。然而，由于 MapReduce 自身的限制，使得使用 MapReduce 来实现分布式机器学习算法非常耗时和消耗磁盘IO。因为通常情况下机器学习算法参数学习的过程都是迭代计算的，即本次计算的结果要作为下一次迭代的输入，这个过程中，如果使用 MapReduce，我们只能把中间结果存储磁盘，然后在下一次计算的时候从新读取，这对于迭代频发的算法显然是致命的性能瓶颈。引用官网一句话：Apache Spark™ is a unified analytics engine for large-scale data processing.Spark，是一种"One Stack to rule them all"的大数据计算框架，期望使用一个技术堆栈就完美地解决大数据领域的各种计算任务.

02

【原】Spark之机器学习(Python版)(二)——分类

写这个系列是因为最近公司在搞技术分享，学习Spark，我的任务是讲PySpark的应用，因为我主要用Python，结合Spark，就讲PySpark了。然而我在学习的过程中发现，PySpark很鸡肋（至少现在我觉得我不会拿PySpark做开发）。为什么呢？原因如下：　　1.PySpark支持的算法太少了。我们看一下PySpark支持的算法:(参考官方文档) image.png 　　前面两个pyspark.sql和pyspark.streaming是对sql和streaming的支持。主要是读取数

06

大数据技术之_19_Spark学习_08_Spark 机器学习_02_凸优化算法 + 线性回归算法 + FPGrowth 关联规则算法 + 决策树 + 随机森林算法

不严格的说，凸优化就是在标准优化问题的范畴内，要求目标函数和约束函数是凸函数的一类优化问题。

03

【技术分享】梯度提升树分类

Boosting是一类将弱学习器提升为强学习器的算法。这类算法的工作机制类似：先从初始训练集中训练出一个基学习器，再根据基学习器的表现对训练样本分布进行调整，使得先前基学习器做错的训练样本在后续受到更多关注。然后基于调整后的样本分布来训练下一个基学习器；如此重复进行，直至基学习器的数目达到事先指定的值T，最终将这T个基学习器进行加权结合。

用Spark学习矩阵分解推荐算法

在矩阵分解在协同过滤推荐算法中的应用中，我们对矩阵分解在推荐算法中的应用原理做了总结，这里我们就从实践的角度来用Spark学习矩阵分解推荐算法。

03

大数据开发：Spark MLlib组件学习入门

在Spark生态圈当中，MLlib组件，作为机器学习库而存在，在大数据分析、数据挖掘等数据处理操作上，提供重要的支持。学习Spark，对于MLlib组件的学习，也可以有相应程度的掌握。今天的大数据开发学习分享，我们就来讲讲Spark MLlib组件学习入门。

04

【Spark Mllib】逻辑回归——垃圾邮件分类器与maven构建独立项目

配置的时候要注意spark 和 scala 的版本，可以打开spark-shell 观察：

03

Spark 2.3.0 重要特性介绍

为了继续实现 Spark 更快，更轻松，更智能的目标，Spark 2.3 在许多模块都做了重要的更新，比如 Structured Streaming 引入了低延迟的持续处理；支持 stream-to-stream joins；通过改善 pandas UDFs 的性能来提升 PySpark；支持第四种调度引擎 Kubernetes clusters（其他三种分别是自带的独立模式Standalone，YARN、Mesos）。除了这些比较具有里程碑的重要功能外，Spark 2.3 还有以下几个重要的更新：

03

Spark MLlib 算法系列之 LR

本文介绍了Spark MLlib算法系列之LR，说明了Spark在机器学习方面的优势，并给出了Spark MLlib在分类、回归、聚类和协同过滤等常见机器学习问题上的实现库。

02

雅虎开源CaffeOnSpark：基于Hadoop/Spark的分布式深度学习

在基于Hadoop集群的大规模分布式深度学习一文中，雅虎介绍了其集Caffe和Spark之长开发CaffeOnSpark用于大规模分布式深度学习，并向github.com/BVLC/caffe贡献了部分代码。现在，雅虎机器学习团队又在这篇tumblr文章上宣布将整个CaffeOnSpark开源作为Spark的深度学习包。 Github：yahoo/CaffeOnSpark（Apache 2.0 license）许多现有的DL框架需要一个分离的集群进行深度学习，而一个典型的机器学习管道需要创建一个复杂的程序

05

Spark MLlib知识点学习整理

MLlib的设计原理:把数据以RDD的形式表示，然后在分布式数据集上调用各种算法。MLlib就是RDD上一系列可供调用的函数的集合。

02

2021年大数据Spark（三）：框架模块初步了解

整个Spark 框架模块包含：Spark Coke、 Spark SQL、 Spark Streaming、 Spark GraphX、 Spark MLlib，而后四项的能力都是建立在核心引擎之上。

02

[访谈] Olivier Grisel谈scikit-learn和机器学习技术的未来

几周前，我们的Florian Douetteau (FD)对Olivier Grisel(OG)进行了一次访谈，正好我得到这个机会去旁听。Olivier是scikit-learn机器学习库的主要贡献者

06

BigData--大数据技术之Spark机器学习库MLLib

MLlib fits into Spark’s APIs and interoperates with NumPy in Python (as of Spark 0.9) and R libraries (as of Spark 1.5). You can use any Hadoop data source (e.g. HDFS, HBase, or local files), making it easy to plug into Hadoop workflows. 1、Spark MLib介绍

01

【腾讯云的1001种玩法】Ubuntu 14.04 Spark单机环境搭建与初步学习

本文介绍了如何利用 Spark 进行大数据分析，包括数据处理、数据挖掘、机器学习等方面的应用。通过介绍 Spark 的架构、数据处理流程、编程模型、性能优化等方面的内容，让读者对 Spark 有更深入的了解。同时，本文还提供了实践案例，让读者更好地理解 Spark 在实际项目中的应用。

01

2小时入门Spark之MLlib

最近由于一直在用Spark搞数据挖掘，花了些时间系统学习了一下Spark的MLlib机器学习库，它和sklearn有八九分相似，也是Estimator，Transformer，Pipeline那一套，各种fit，transform接口。sklearn有多好学，MLlib就有多好学，甚至MLlib还要更加简单一些，因为MLlib库中支持的功能相对更少一些，并且MLlib基于DataFrame数据比sklearn基于numpy array会更加直观一些。

02

从Spark MLlib到美图机器学习框架实践

感谢阅读「美图数据技术团队」的第 23 篇原创文章，关注我们持续获取美图最新数据技术动态。

03

随机森林之美

导语：随机森林和决策树相比，能更好的防止过拟合。虽然每个基分类器很弱，但最后组合的结果通常很强，这也类似于：“三个臭皮匠顶个诸葛亮”的思想。对比发现Random Forest（随机森林）和SVM（支持

04

如何使用Apache Spark MLlib预测电信客户流失

Spark MLLib是一个用于在海量数据集上执行机器学习和相关任务的库。使用MLlib，可以对十亿个观测值进行机器学习模型的拟合，可能只需要几行代码并利用数百台机器就能达到。MLlib大大简化了模型开发过程。

01

超越Spark，大数据集群计算的生产实践

Spark拥有一个庞大的、不断增长的社区，还有在企业环境中不可或缺的生态系统。这些生态系统提供了不同生产环境案例所需的许多功能。一般来说，Spark应用做的是机器学习算法、日志聚合分析或者商务智能相关的运算，因为它在许多领域都有广泛的应用，包括商务智能、数据仓库、推荐系统、反欺诈等。本文会介绍Spark核心社区开发的生态系统库，以及ML/MLlib及Spark Streaming的Spark库的具体用法，对于企业的各种用例及框架也进行了说明。数据仓库对任何业务来说，数据分析都是一个核心环节。对分析型的

06

[访谈] Olivier Grisel谈scikit-learn和机器学习技术的未来

几周前，我们的Florian Douetteau (FD)对Olivier Grisel(OG)进行了一次访谈，正好我得到这个机会去旁听。Olivier是scikit-learn机器学习库的主要贡献者，因此他们两个详细地讨论了Olivier的工作和其它技术的发展。这是采访的第一部分。 Olivier Grisel 和 scikit-learn FD：Olivier，你作为scikit-learn的主要贡献者已经有一段时间了。你可以告诉我们一些关于你的贡献么？ OG：大概是2010年，我就开始做scikit-

03

【Python环境】Olivier Grisel谈scikit-learn和机器学习技术的未来

几周前，我们的Florian Douetteau (FD)对Olivier Grisel(OG)进行了一次访谈，正好我得到这个机会去旁听。Olivier是scikit-learn机器学习库的主要贡献者，因此他们两个详细地讨论了Olivier的工作和其它技术的发展。这是采访的第一部分。 Olivier Grisel 和 scikit-learn FD：Olivier，你作为scikit-learn的主要贡献者已经有一段时间了。你可以告诉我们一些关于你的贡献么？ OG：大概是2010年，我就开始做scikit-

09

大数据框架发展史

这几年大数据的飞速发展，出现了很多热门的开源社区，其中著名的有 Hadoop、Storm，以及后来的 Spark，他们都有着各自专注的应用场景。Spark 掀开了内存计算的先河，也以内存为赌注，赢得了内存计算的飞速发展。Spark 的火热或多或少的掩盖了其他分布式计算的系统身影。就像 Flink，也就在这个时候默默的发展着。

03

降维:主成分分析(PCA)

本文主要介绍了一种在技术社区中，基于用户行为，自动为用户推荐相关技术内容的算法。该算法通过分析用户的行为数据，挖掘用户的技术偏好，从而为用户推荐精准、高质量的技术内容。同时，该算法还可以不断自我学习，不断优化推荐效果。

00

SparkMLlib的数据类型讲解

SparkMLlib的数据类型讲解 Mllib支持单机上存储的本地向量和矩阵，也支持由一个或者多个RDD支持的分布式矩阵。本地向量和本地矩阵是简单的数据模型，用作公共接口。由Breeze提供基本的线性代数运算。。在监督学习中使用的训练示例在MLlib中被称为“labeled point” 一本地向量本地向量存储于单台机器，其拥有整类型的行，从0开始的索引，和double类型的值。Mllib支持两种类型的本地向量:密集向量(dense)和稀疏向量(sparse)。密集向量只有一个浮点数组组成，而一个稀疏向

07

PySpark初级教程——第一步大数据分析(附代码实现)

我们正在以前所未有的速度生成数据。老实说，我跟不上世界各地里产生的巨大数据量!我敢肯定你已经了解过当今时代数据的产量。McKinsey, Gartner, IBM,等公司都给出了他们公司的数据。

02

如何在Java应用里集成Spark MLlib训练好的模型做预测

昨天媛媛说，你是不是很久没写博客了。我说上一篇1.26号，昨天3.26号，刚好两个月，心中也略微有些愧疚。今天正好有个好朋友问，怎么在Java应用里集成Spark MLlib训练好的模型。在StreamingPro里其实都有实际的使用例子，但是如果有一篇文章讲述下，我觉得应该能让更多人获得帮助

03

你真的懂数据分析吗？一文读懂数据分析的流程、基本方法和实践

导读：无论你的工作内容是什么，掌握一定的数据分析能力，都可以帮你更好的认识世界，更好的提升工作效率。数据分析除了包含传统意义上的统计分析之外，也包含寻找有效特征、进行机器学习建模的过程，以及探索数据价值、找寻数据本根的过程。

02

【Spark Mllib】分类模型——各分类模型使用

这个数据集源自 Kaggle 比赛,由 StumbleUpon 提供。比赛的问题涉及网页中推荐的页面是短暂(短暂存在,很快就不流行了)还是长久(长时间流行)。

03

扫码

添加站长进交流群

领取专属 10元无门槛券

手把手带您无忧上云

扫码加入开发者社群

相关资讯

热门标签

活动推荐

运营活动

活动名称

广告关闭