前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >什么是 RevoScaleR?

什么是 RevoScaleR?

作者头像
冬夜先生
发布2022-02-27 18:57:55
1.3K0
发布2022-02-27 18:57:55
举报
文章被收录于专栏:csico

您可以使用 RevoScaleR 做什么?

数据科学家和开发人员可以在自定义脚本或解决方案中包含 RevoScaleR 函数,这些脚本或解决方案可以在 R 客户端本地运行或在机器学习服务器上远程运行。利用 RevoScaleR 功能的解决方案将在安装 RevoScaleR 引擎的任何地方运行。

使用 RevoScaleR 函数分析数据需要三个不同的信息:

计算应该发生的地方(计算上下文)

使用哪些数据(数据源)

执行什么分析(分析功能)

一个常见的工作流程是针对本地计算机上的数据子集编写初始代码或脚本,更改计算上下文以在大数据平台上指定大量数据,然后通过将解决方案部署到目标环境来实施解决方案,从而使用户可以访问它。

在较高级别上,RevoScaleR 函数分组如下:

特定于平台的实用程序。

数据相关功能用于导入、转换、汇总、可视化和分析。这些函数构成了 RevoScaleR 函数库的大部分。

RevoScaleR 中的数据操作和分析功能适用于小型和大型数据集,但在三种常见情况下特别有用:

分析太大而无法放入内存的数据集。

执行分布在集群中多个核心、处理器或节点上的计算。

创建可扩展的数据分析例程,这些例程可以使用较小的数据集在本地开发,然后部署到较大的数据和/或计算机集群。

RevoScaleR 支持这些场景,因为它对数据块进行操作并使用更新算法。

数据以高效的 XDF 文件格式存储,专为快速读取任意行和列的数据而设计。RevoScaleR 中的函数用于在执行分析之前将数据导入 XDF,但您也可以直接处理存储在文本、SPSS 或 SAS 文件或 ODBC 连接中的数据,或者将数据文件的子集提取到内存以供进一步分析。

要执行分析,您必须提供以下信息:应在何处进行计算(计算上下文)、要使用的数据(数据源)以及要执行的分析(分析函数)。

使用 RevoScaleR 进行数据管理和分析

RevoScaleR 提供可扩展的数据管理和分析功能。这些函数可以与内存中的数据集一起使用,并以相同的方式应用于存储在磁盘上的巨大数据集。它包括以下功能:

访问外部数据集(SAS、SPSS、ODBC、Teradata 以及分隔和固定格式文本)以在 R 中进行分析

在高性能数据文件中高效地存储和检索数据

清理、探索和操作数据

快速、基本的统计分析

RevoScaleR 还包括一个可扩展的框架,用于编写您自己的大数据集分析。

使用 RevoScaleR,您可以分析远大于内存容量的数据集。这是可能的,因为 RevoScaleR 使用外部内存算法,允许它一次处理一个数据块(即行的一个子集,可能还有数据集中的变量),更新结果,并继续处理所有可用的数据。

访问外部数据集

数据可以以多种格式存储。通常,任何 RevoScaleR 分析的第一步都是使数据可访问。借助 RevoScaleR 的数据导入功能,您可以访问 SAS 文件、SPSS 文件、固定格式或分隔文本文件、ODBC 连接、SQL Server 或 Teradata 数据库中的数据,将其导入内存中的数据框,或将其存储为快速访问磁盘上的块。

定义计算上下文

RevoScaleR 具有设置计算位置的计算上下文的概念。计算上下文可以是本地的,也可以是远程的,其中远程将分块数据的处理和分析卸载到一个或多个远程机器学习服务器。

Local 是默认设置,它支持所有数据源输入。顾名思义,本地计算上下文仅使用本地计算机的物理内核。RevoScaleR 在 R 客户端和机器学习服务器实例上提供本地计算上下文。

远程计算上下文需要显式创建计算上下文对象、定义位置(具有机器学习服务器和本地数据的远程网络资源)和处理模式(例如等待与无等待作业)的单个逻辑对象。可以以分布式方式执行的 RevoScaleR 分析函数支持远程计算上下文,并且仅在机器学习服务器中的以下平台上可用:HDInsight、Hadoop (Spark)、Teradata、SQL Server 和机器学习服务器(Windows 和 Linux) )。有关更多信息,请参阅计算上下文。

高效地存储和检索数据

RevoScaleR 的一个关键组件是数据文件格式 (.xdf),它对于读取和写入数据都非常有效。您可以通过导入数据文件或从 R 数据帧创建 .xdf 文件,并将行或变量添加到现有 .xdf 文件(当前仅在本地计算上下文中支持附加行)。一旦您的数据采用这种文件格式,您就可以直接将其与 RevoScaleR 提供的分析函数一起使用,或者快速提取子样本并将其读入内存中的数据帧以用于其他 R 函数。

数据清理、探索和操作

使用新数据集时,第一步是清理和探索。使用 RevoScaleR,您可以快速获取有关数据集的信息(例如,多少行和变量)以及数据集中的变量(例如名称、数据类型、值标签)。借助 RevoScaleR 的汇总统计和多维数据集功能,您可以检查有关数据的汇总信息并快速绘制直方图或变量之间的关系。

RevoScaleR 还提供了 R 用于数据转换和操作的所有功能。在 RevoScaleR 的数据步进功能中,您可以指定 R 表达式来转换特定变量,并在从 .xdf 文件中读取数据时将它们自动应用于单个数据框或每个数据块。您可以使用 R 语言的所有灵活性创建新变量、重新编码变量和设置缺失值。

统计分析

除了描述性统计和交叉表之外,RevoScaleR 还提供用于拟合线性和二元逻辑回归模型、广义线性模型、k 均值模型以及决策树和森林等的函数。这些函数直接访问 .xdf 文件或其他数据源或对内存中的数据帧进行操作。由于这些功能非常高效,并且不需要一次将所有数据都存储在内存中,因此您可以分析庞大的数据集,而无需庞大的计算能力。特别是,您可以放宽以前需要的假设。例如,您可以将自变量分解为许多类别,以提供完全灵活的函数形式,而不是在模型中假设线性或多项式函数形式。大数据集提供的多自由度,结合 RevoScaleR 的效率,

本文系转载,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文系转载前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
相关产品与服务
腾讯云 TI 平台
腾讯云 TI 平台(TencentCloud TI Platform)是基于腾讯先进 AI 能力和多年技术经验,面向开发者、政企提供的全栈式人工智能开发服务平台,致力于打通包含从数据获取、数据处理、算法构建、模型训练、模型评估、模型部署、到 AI 应用开发的产业 + AI 落地全流程链路,帮助用户快速创建和部署 AI 应用,管理全周期 AI 解决方案,从而助力政企单位加速数字化转型并促进 AI 行业生态共建。腾讯云 TI 平台系列产品支持公有云访问、私有化部署以及专属云部署。
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档