首页
学习
活动
专区
工具
TVP
发布
精选内容/技术社群/优惠产品,尽在小程序
立即前往

大数据技术之_28_电商推荐系统项目_02

实现思路:通过 Spark SQL 读取评分数据集,统计所有评分中评分个数最多的商品,然后按照从大到小排序,将最终结果写入 MongoDB 的 RateMoreProducts 数据集中。     ...实现思路:通过 Spark SQL 读取评分数据集,通过 UDF 函数将评分的数据时间修改为月,然后统计每月商品的评分数。...统计完成之后将数据写入到 MongoDB 的 RateMoreRecentlyProducts 数据集中。     ...实现思路:通过 Spark SQL 读取保存在 MongDB 中的 Rating 数据集,通过执行以下 SQL 语句实现对于商品的平均分统计。...已经预先将商品的相似度矩阵进行了计算,所以每个商品 productId 的最相似的 K 个商品很容易获取:从 MongoDB 中读取 ProductRecs 数据,从 productId 在 candidateProducts

4.5K21

大数据技术之_24_电影推荐系统项目_06_项目体系架构设计 + 工具环境搭建 + 创建项目并初始化业务数据 + 离线推荐服务建设 + 实时推荐服务建设 + 基于内容的推荐服务建设

6、电影评分部分,获取用户通过 UI 给出的评分动作,后台服务进行数据库记录后,一方面将数据推动到 Redis 群中,另一方面,通过预设的日志框架输出到 Tomcat 中的日志中。   ...将数据文件 movies.csv,ratings.csv,tags.csv 复制到资源文件目录 src/main/resources 下,我们将从这里读取数据并加载到 mongodb 和 elastic...  我们会为原始数据定义几个样例类,通过 SparkContext 的 textFile 方法从文件中读取数据,并转换成 DataFrame,再利用 Spark SQL 提供的 write 方法进行数据的分布式插入...实现思路:通过 Spark SQL 读取评分数据集,统计所有评分中评分个数最多的电影,然后按照从大到小排序,将最终结果写入 MongoDB 的 RateMoreMovies【电影评分个数统计表】数据集中...,所以每个电影 mid 的最相似的 K 个电影很容易获取:从 MongoDB 中读取 MovieRecs 数据, 从 mid 在 simHash 对应的子哈希表中获取相似度前 K 大的那些电影。

5.1K51
  • 您找到你想要的搜索结果了吗?
    是的
    没有找到

    原 荐 SparkSQL简介及入门

    2)在应用程序中可以混合使用不同来源的数据,如可以将来自HiveQL的数据和来自SQL的数据进行Join操作。     ...3)内嵌了查询优化框架,在把SQL解析成逻辑执行计划之后,最后变成RDD的计算。 二、列存储相关     为什么sparkSQL的性能会得到怎么大的提升呢?     ...另外,使用这种方式,每个数据记录产生一个JVM对象,如果是大小为200GB的数据记录,堆栈将产生1.6亿个对象,这么多的对象,对于GC来说,可能要消耗几分钟的时间来处理(JVM的垃圾收集时间与堆栈中的对象数量呈线性相关...在已知的几种大数据处理软件中,Hadoop的HBase采用列存储,MongoDB是文档型的行存储,Lexst是二进制型的行存储。 1.列存储     什么是列存储?     ...4)从数据的压缩以及更性能的读取来对比 ? ?

    2.5K60

    SparkSQL极简入门

    为什么sparkSQL的性能会得到怎么大的提升呢?...另外,使用这种方式,每个数据记录产生一个JVM对象,如果是大小为200GB的数据记录,堆栈将产生1.6亿个对象,这么多的对象,对于GC来说,可能要消耗几分钟的时间来处理(JVM的垃圾收集时间与堆栈中的对象数量呈线性相关...在已知的几种大数据处理软件中,Hadoop的HBase采用列存储,MongoDB是文档型的行存储,Lexst是二进制型的行存储。 1.列存储 什么是列存储?...4)从数据的压缩以及更性能的读取来对比 ? ?...如果读取的数据列属于相同的列族,列式数据库可以从相同的地方一次性读取多个数据列的值,避免了多个数据列的合并。列族是一种行列混合存储模式,这种模式能够同时满足OLTP和OLAP的查询需求。

    3.9K10

    大数据技术之_28_电商推荐系统项目_01

    中;离线推荐服务从 MongoDB 中加载数据,通过 ALS 算法分别将【用户推荐结果矩阵】、【影片相似度矩阵】回写到 MongoDB 中。...【实时推荐部分】   2、Flume 从综合业务服务的运行日志中读取日志更新,并将更新的日志实时推送到 Kafka 中;Kafka 在收到这些日志之后,通过 kafkaStream 程序对获取的日志信息进行过滤处理...5、商品评分部分,获取用户通过 UI 给出的评分动作,后台服务进行数据库记录后,一方面将数据推动到 Redis 群中,另一方面,通过预设的日志框架输出到 Tomcat 中的日志中。   ...将数据文件 products.csv,ratings.csv 复制到资源文件目录 src/main/resources 下,我们将从这里读取数据并加载到 mongodb 中。...MongoDB 3.3.1 启动 MongoDB 数据库(略) 3.3.2 数据加载程序主体实现   我们会为原始数据定义几个样例类,通过 SparkContext 的 textFile 方法从文件中读取数据

    3K30

    Spark教程(一)为什么要学spark

    Spark可以将Hadoop集群中的应用在内存中的运行速度提升100倍,甚至能够将应用在磁盘上的运行速度提升10倍。 Spark让开发者可以快速的用Java、Scala或Python编写程序。...亲身体会 经过这两周的折腾,总算是在本地环境下完成了第一个spark项目,完成十万级文本分词和去重,速度还是挺快的,从读取数据、处理数据、再到保存数据,大概花了十分钟左右。...这里操作的数据库都是MongoDB,因为爬虫爬取的数据都是直接保存到Mongo。 之后再增加数据量,达到四千多万,读取数据花了8分钟,下图是正在处理和保存数据的Spark UI ?...以前处理数据会使用pandas,数据会保存在内存中,数据量过大就会崩了,这也是为什么要使用分布式计算的原因。没有做过横向对比,暂时还不知道有多大差别。...刚开始使用的语言还是Python,目标是学Scala,看了些基础语法,和Python挺类似的,以后多写写,维持这个项目,记录各种坑。 ok,BB了这么多,下一篇就要开始真正的代码实战了。 ?

    1.5K50

    开发大数据基础教程(前端开发入门)

    1) 什么是solr 2) 为什么工程中要使用solr 3) Solr的原理 4) 如何在tomcat中运行solr 5) 如何利用solr进行索引与搜索 6) solr的各种查询 7) solr的Filter...,codis实战 16) redis3.x集群安装配置 Kafka课程Kafka是当下流行的队列,可以说是从数据采集到大数据计算承上启下的重要环节,大家在此部分将会详细学习它的架构,kafka在大家大数据的项目中几乎都会涉及到...13) 数据库连接,以及pip安装模块 14) Mongodb基础入门 15) 讲解如何连接mongodb 16) Python的机器学习案例 Scala课程在此部分内,将更注重scala的各种语言规则与简单直接的应用...的特质 10) scala的操作符 11) scala的高阶函数 12) scala的集合 13) scala数据库连接 Spark 大数据处理本部分内容全面涵盖了Spark生态系统的概述及其编程模型,...Docker 是一个开源的应用容器引擎,让开发者可以打包他们的应用以及依赖包到一个可移植的容器中,然后发布到任何流行的 Linux 机器上,也可以实现虚拟化。

    1.3K10

    在Docker中快速使用各个版本(从10g到23c)的Oracle数据库

    镜像地址 为了测试需要,麦老师制作了各个版本的Oracle数据库环境,下载地址如下: # oracle nohup docker pull registry.cn-hangzhou.aliyuncs.com...oracle19clhr_asm_db_12.2.0.3:2.0 init # 对于ASM,① ASM磁盘脚本:/etc/initASMDISK.sh,请确保脚本/etc/initASMDISK.sh中的内容都可以正常执行...之前也详细说明过一些镜像的使用方法,例如:11.2.0. 23c: https://www.xmmup.com/zaidockerzhongkuaisutiyanoracle-23cmianfeikaifazheban.html...容器中一步一步安装配置Oracle19c的ASM+DB环境 【DB宝3】在Docker中使用rpm包的方式安装Oracle 19c 【DB宝4】只需2步即可拥有Oracle19c的ASM+DB环境 18c...中只需2步即可拥有Oracle 11g企业版环境(11.2.0.3) 【DB宝14】在Docker中只需2步即可拥有Oracle 11g企业版环境(11.2.0.4) 12.2.0.1: https:/

    1.4K20

    在Docker中快速使用Oracle的各个版本(从10g到21c)的数据库

    为了测试需要,麦老师制作了各个版本的Oracle数据库环境,下载地址如下: # oracle nohup docker pull registry.cn-hangzhou.aliyuncs.com/lhrbest...1521 -p 211:22 \ --privileged=true \ lhrbest/oracle_10g_ee_lhr_10.2.0.1:2.0 init 之前也详细说明过一些镜像的使用方法...,例如: 在Docker中只需2步即可拥有Oracle 21c环境 【DB宝10】在Docker中只需2步即可拥有Oracle18c环境 【DB宝11】在Docker中只需2步即可拥有Oracle...11g企业版环境(11.2.0.3) 【DB宝12】在Docker中只需2步即可拥有Oracle 12cR2(12.2.0.1)企业版环境 【DB宝13】在Docker中只需2步即可拥有Oracle...的ASM+DB环境 【DB宝3】在Docker中使用rpm包的方式安装Oracle 19c DB宝4 本文结束。

    1.8K50

    MongoDB + Spark: 完整的大数据解决方案

    当数据的处理过程需要反复迭代时,Spark可以直接在内存中暂存数据,而无需像MapReduce一样需要把数据写回磁盘。官方的数据表明:它可以比传统的MapReduce快上100倍。...好的我们了解了MongoDB为什么可以替换HDFS并且为什么有这个必要来做这个事情,下面我们就来看看Spark和MongoDB怎么玩!...这个时候你可以直接在HDFS上面架Spark来跑,Spark从HDFS取来原始数据进行计算,而MongoDB在这个场景下是用来保存处理结果。为什么要这么麻烦?...没有下推支持的话,每次操作很可能需要从MongoDB读取全量的数据,性能体验将会很糟糕。...任务递交到master,然后预先加载所需参考数据,broadcast就是把这些在内存里的数据复制到每一个Spark计算节点的JVM,然后所有计算节点多线程并发执行,从Mongodb里取出需要计算的仓位,

    2.7K90

    Scala学习之相同的函数名

    最近在慢慢的开始用Scala写Spark,刚开始也是在菜鸟教程上简单过了一遍Scala,现在还记得一些基本语法,还有各种奇怪的语法糖。想要更快的学习这门语言,还是需要自己多谢谢。...举一个简单的栗子,从MongoDB读取数据时使用的配置所定义的两个函数 def readConfig(context: SparkContext, database: String, collection...这两个函数的功能一样,但是接受的参数不一样,所以这才需要去定义两个函数。(试想一下,在Python中如何去实现) 可能你不懂Scala,让我简单跟你讲一下。...回到上面的栗子,一个类型是SparkContext,一个是SparkSession,这是Spark的数据类型;然后我们可以看到在函数末尾是冒号加ReadConfig,这里说的返回的数据类型是ReadConfig...,也就是从MongoDB读取数据时使用的配置类型。

    69630

    hadoop生态圈各个组件简介

    其中map对应数据集上的独立元素进行指定的操作,生成键-值对形式中间,reduce则对中间结果中相同的键的所有值进行规约,以得到最终结果。...map task:解析每条数据记录,传递给用户编写的map()并执行,将输出结果写入到本地磁盘(如果为map—only作业,则直接写入HDFS)。...reduce task:从map 它深刻地执行结果中,远程读取输入数据,对数据进行排序,将数据分组传递给用户编写的reduce函数执行。...公司一般将所有的这些框架部署到一个公共的集群中,让它们共享集群的资源,并对资源进行统一使用,这样便诞生了资源统一管理与调度平台,典型的代表是mesos和yarn。...spark采用Scala语言实现,使用Scala作为应用框架。 spark采用基于内存的分布式数据集,优化了迭代式的工作负载以及交互式查询。

    1.1K10

    一文了解 NebulaGraph 上的 Spark 项目

    而且,我趟出来了 PySpark 下的 Nebula Spark Connector 的使用方式,后边也会一并贡献到文档里。...TL;DR Nebula Spark Connector 是一个 Spark Lib,它能让 Spark 应用程序能够以 dataframe 的形式从 NebulaGraph 中读取和写入图数据。.../ 代码例子:example NebulaGraph Spark Reader 为了从 NebulaGraph 中读取数据,比如读 vertex,Nebula Spark Connector 将扫描所有带有给定...Lib,也是一个可以直接提交执行的 Spark 应用,它被用来从多个数据源读取数据写入 NebulaGraph 或者输出 Nebula Graph SST 文件。...再看看一些细节 这个例子里,我们实际上是用 Exchange 从 CSV 文件这一其中支持的数据源中读取数据写入 NebulaGraph 集群的。

    78230

    盘点大数据生态圈,那些繁花似锦的开源项目

    而在这个需求的刺激下,在过去数年,大数据开源生态圈得到了长足的发展——在数据的整个生命周期中,从收集到处理,一直到数据可视化和储存,各种开源技术框架林立。...而基于当下内存计算框架存在的普遍挑战,内存文件系统Tachyon得到了显著地关注,并在大量场景中得以部署,就拿下文提到的Spark来说:可以用作不同计算框架的数据共享,以避免磁盘IO;用以缓存数据,从而避免了...Spark出自伯克利AMPLab之手,基于Scala实现,从开源至今已吸引了越来越多企业的落地使用,仅国内比较知名的大规模部署就有百度、阿里、腾讯等。...Presto来自Facebook,类似于Impala的一个即席查询工具,在该公司内部得到广泛使用,而国内也在一些知名公司得到部署,比如美团。...同时,开源技术已经占领了数据从收集到可视化和存储的整个流程,比如:用于数据收集的Flume(NG)和Sqoop,分布式消息队列技术Kafka、RabbitMQ,用于数据可视化的HighCharts、D3

    74650

    Spark 的惰性运算

    (RDD Operations) 在 Spark 中,所有的 transformation() 类型操作都是延迟计算的,Spark 只是记录了将要对数据集进行的操作。...典型的 Spark Job 逻辑执行图如下所示,Spark Job 经过下面四个步骤可以得到最终执行结果: 从数据源(可以是本地 file,内存数据结构, HDFS,HBase 等)读取数据创建最初的...Spark 在每次 transformation() 的时候使用了新产生的 RDD 来记录计算逻辑,这样就把作用在 RDD 上的所有计算逻辑串起来形成了一个链条,逻辑执行图上表示的实际上就是是 Spark...得到的迭代器作为f方法的一个参数。compute方法会将迭代器中的记录一一输入f方法,得到的新迭代器即为所求分区中的数据。 iterator方法 iterator方法的实现在 RDD 类中。...这时候会有两种可能情况发生: 数据之前已经存储在存储介质当中,可能是数据本身就在存储介质(如读取 HDFS 中的文件创建得到的 RDD)当中,也可能是 RDD 经过持久化操作并经历了一次计算过程。

    2.7K21

    盘点大数据生态圈,那些繁花似锦的开源项目

    而在这个需求的刺激下,在过去数年,大数据开源生态圈得到了长足的发展——在数据的整个生命周期中,从收集到处理,一直到数据可视化和储存,各种开源技术框架林立。...而基于当下内存计算框架存在的普遍挑战,内存文件系统Tachyon得到了显著地关注,并在大量场景中得以部署,就拿下文提到的Spark来说:可以用作不同计算框架的数据共享,以避免磁盘IO;用以缓存数据,从而避免了...Spark出自伯克利AMPLab之手,基于Scala实现,从开源至今已吸引了越来越多企业的落地使用,仅国内比较知名的大规模部署就有百度、阿里、腾讯等。...Presto来自Facebook,类似于Impala的一个即席查询工具,在该公司内部得到广泛使用,而国内也在一些知名公司得到部署,比如美团。...同时,开源技术已经占领了数据从收集到可视化和存储的整个流程,比如:用于数据收集的Flume(NG)和Sqoop,分布式消息队列技术Kafka、RabbitMQ,用于数据可视化的HighCharts、D3

    907110

    技术分享 | Spark RDD详解

    (3)RDD的容错机制实现分布式数据集容错方法有两种: 数据检查点和记录更新RDD采用记录更新的方式: 记录所有更新点的成本很高。...一些关于如何分块和数据存放位置的元信息,如源码中的partitioner和preferredLocations 例如: a.一个从分布式文件系统中的 文件得到的RDD具有的数据块通过切分各个文件得到的,...它是没有父RDD的,它的计算函数知识读取文件的每一行并作为一个元素返回给RDD; b.对与一个 通过map函数得到的RDD,它会具有和父RDD相同的数据块,它的计算函数式对每个父RDD中的元素所执行的一个函数...2、RDD在Spark中的地位及作用 (1)为什么会有Spark?...因为Spark是用scala语言实现的,Spark和scala能够紧密的集成,所以Spark可以完美的运用scala的解释器,使得其中的scala可以向操作本地集合对象一样轻松操作分布式数据集。

    1.2K50
    领券