在H2O中对新数据使用标准化时

，可以通过使用H2O的数据预处理功能来实现。标准化是一种常见的数据预处理技术，用于将数据转换为具有零均值和单位方差的标准正态分布。

在H2O中，可以使用h2o.preprocessing.Standardize函数来对新数据进行标准化。该函数接受一个H2O数据帧作为输入，并返回一个新的数据帧，其中包含标准化后的数据。

标准化可以帮助消除不同特征之间的量纲差异，使得模型在训练过程中更加稳定和准确。它通常在机器学习任务中的特征工程阶段使用。

以下是H2O中对新数据使用标准化的示例代码：

import h2o
from h2o.estimators import H2OGradientBoostingEstimator
from h2o.preprocessing import Standardize

# 初始化H2O集群
h2o.init()

# 加载训练数据
train_data = h2o.import_file("train_data.csv")

# 创建标准化转换器
standardize = Standardize()

# 对训练数据进行标准化
train_data_standardized = standardize.fit_transform(train_data)

# 加载新数据
new_data = h2o.import_file("new_data.csv")

# 使用训练数据的标准化转换器对新数据进行标准化
new_data_standardized = standardize.transform(new_data)

# 训练模型
model = H2OGradientBoostingEstimator()
model.train(x=train_data_standardized.columns, y="target", training_frame=train_data_standardized)

# 使用训练好的模型进行预测
predictions = model.predict(new_data_standardized)

# 输出预测结果
print(predictions)

在上述示例代码中，我们首先初始化了H2O集群，然后加载训练数据和新数据。接下来，我们创建了一个标准化转换器，并使用训练数据对其进行拟合和转换。然后，我们使用训练好的标准化转换器对新数据进行标准化。最后，我们使用标准化后的数据训练了一个梯度提升模型，并使用该模型对新数据进行预测。

对于H2O中标准化的更多信息和使用方法，可以参考腾讯云的H2O产品文档：H2O产品文档链接。

在H2O中对新数据使用标准化时

、、

我很好奇，当在R中使用H2O模型中的标准化功能时，它在计算新数据时是如何工作的。我知道当它对训练集进行标准化时，它会根据训练数据的平均值和标准差将平均值设置为0，标准差设置为1，但是它对新数据做了什么？它是基于训练数据的均值和标准差进行标准化，还是基于新的评分数据进行<em

浏览 10提问于2017-08-15得票数 2

1回答

AutoML H2O中的特征标准化

、、

当使用h2o的AutoML和深入学习以及GLM算法时，我想知道如何标准化特性。 autoML在使用深度学习或GLM算法时是否自动缩放(即标准化)特征？如果是这样的话，当我预测新的测试数据时，它是否也会自动标准化？如果不是真的话，那么是否有一个内置的h2o函数可以实现这一点

浏览 3提问于2022-09-21得票数 2

回答已采纳

1回答

H2O建模:独立k均值或回归代码

、、

我对H2O和在蜂箱上运行模型非常陌生。我目前考虑H2O的原因是，我的理解是H2O有助于在各种建模过程(例如k均值或逻辑回归)中优化数据解析。我的问题是:是否有一种方法可以让我编写python (或R) k-表示代码并在H2O中运行，或者唯一的方法是使用H2O预构建的进程？如果第一个选项也是可能的(我注意到了‘导入代码’)，那么解析如何在过程中发生(例如，在数据准备、变量标准

浏览 2提问于2017-06-05得票数 0

回答已采纳

1回答

用于K均值聚类的H2O* (开源)*

我使用H2O (特别是H2O flow )来进行K均值聚类。我选择了“标准化”复选框，以确保“在计算距离之前对列进行标准化”。它训练得很好，我调查了结果。它描述了结果中的"within_cluster_sum_of_squares“以供审查。我的问题是"within_cluster_sum_of_squares“是标准化之前还是标准化之后的距离？它看起来在标准化

浏览 0提问于2019-01-08得票数 0

1回答

我已经做h2o用户一年半多一点了，但是我的工作只限于half；对我来说还是比较新的。如果它对您也是新的，它基本上是0xdata的iPython版本，但是iPython让我们将您的笔记本导出到脚本中。我在流动中找不到类似的选择..。我即将将一个模型(内置于流中)转移到生产中，我想知道如何实现它的自动化。使用make，在模型建立和保存之后，我可以轻松地将模型加载到R中，并通过运行来自CLI的nohup

浏览 2提问于2015-12-17得票数 3

1回答

H2O“OUTPUT- CLUSTER MEANS”部分未正确报告指标

(注意:这与我在H2O (open source) for K-mean clustering之前发布的一个问题有关) 我将K-Means用于我们大约100个特征的数据集(其中一些是时间戳) (1)我检查了我对“输出-聚类均值”部分中的数字的理解应该接近原始数据(标准化之前)。对吧？/algos/kmeans/model.ini#L21-L27，告诉我输入的数据是如何转换成标准化值的？我

浏览 16提问于2019-01-22得票数 0

1回答

函数使用条件

、、

给出10个样本，每个样本有12个观察值，在mean=4和sd=1.4中呈对数正态分布，我想获得一个特定数字(6 -它指的是水质测量的标准数字)被计数的次数。, mean = 4, sd = 1.4), ncol = 12))rownames(h2o) <- paste(rep("Riv", nrow(h2

浏览 0提问于2018-09-15得票数 0

1回答

H2O R中的子集

、、

我有一个h2o对象。sub1<-trans[trans$Type==1,]sub1<-trans[trans$Type==1,]sub1<-h2o.exec(trans[trans$Type==1,]) 注意* trans是一个h2o数据对象。有没有在h2o中实现的想法？谢谢

浏览 0提问于2014-11-28得票数 8

1回答

获取H2OFrame作为对象，而不是获取对H2O集群中某个位置的引用

、

我们使用H2O库创建并训练了模型。在H2O容器中配置OpenShift，并部署经过训练的模型进行实时推理。当我们有一个容器的时候，效果很好。我们必须扩大规模，以应付交易量的增加。步骤2:将Pandas帧转换为H2O框架.这里，步骤2是返回存储在容器中的数据的句柄。"关键的区别之一是，数据通常不保存在内存中，而是位于(可能是远程的)

浏览 0提问于2019-04-10得票数 1

回答已采纳

1回答

R中使用h2o.glm的错误

、

我是R中h2o实现的新手，我有这样一个数据框架(Df1)：1.6966559037L, 78810L, 88619L, 21564L, 我想用h2o所以我有下面的代码： libra

浏览 1提问于2016-04-23得票数 0

回答已采纳

1回答

H2o:迭代大于内存的数据，而不将所有数据加载到内存中

、

有什么方法可以使用H2O来迭代大于集群累积内存大小的数据吗？我有一个大数据集，我需要在批中迭代并输入Tensorflow进行梯度下降。在给定的时间，我只需要在内存中加载一批(或少量)。我是否可以设置H2O来执行这种迭代，而不将整个数据集加载到内存中呢？下面是一年多前回答的一个相关问题，但没有解决我的问题：

浏览 1提问于2017-04-27得票数 4

回答已采纳

1回答

随机森林模型的F1得分

、

我已经构建了一个随机森林模型(H2O库)，然后在一些测试数据上检查了它的准确性。我想使用F1分数作为模型成功与否的衡量标准。但是，我在文档中找不到检索它的方法。我知道这是可能的，因为这看起来像F1 = performance.F1()H2O cluster u

浏览 2提问于2018-12-03得票数 1

1回答

如何在H2O中将数据从长格式转换到宽格式？

、、、、

我有一个标准化的、整洁的“长”数据结构，我想上传到，如果可能的话，在一台机器上进行分析(或者有一个明确的发现，我需要比目前可用的更多的硬件和软件)。数据是大的，但不是巨大的；可能有7000万行3列的有效标准化形式，当它被转换成一个稀疏的矩阵(大部分单元格是零)时，可能是300k×80k。 H2O中的分析工具需要它采用后一种宽格式。总体动机之一是通过分析这些数据来了解各种硬件设置的局限性，但目前我还在努力将数据放入H2O</em

浏览 1提问于2016-12-27得票数 6

回答已采纳

2回答

随机森林实现之间的差异

、、、、

在H2O中实现随机森林和标准随机森林库之间是否存在性能差异？有没有人对这两个实现进行过分析。

浏览 13提问于2017-07-19得票数 0

回答已采纳

1回答

如何在H2O.ai中使用rapidminer模型

、

我已经在快速矿工中创建了一个模型。它是一个分类模型，并将模型保存在pmml中。我想在H2O.ai中使用这个模型来进一步预测。有没有办法将这个pmml模型导入到H2O.ai中，并使用它进行进一步的预测。我很感谢你的建议。谢谢

浏览 11提问于2018-12-31得票数 1

1回答

H2O在并行上不起作用

、、

我已经创建了一个DF，并希望将其转换为H2O帧。要做到这一点，我需要：h2o.init(nthreads=-1)df<-as.h2o(df) 当我在comand行上执行htop时，我看到4个可用的处理器中只有一个在工作。

浏览 3提问于2017-08-22得票数 0

1回答

H2O中的自定义损失函数

、、

我正在通过R使用H2O，我试图建立随机森林，XGBoost，GBM模型来解决多类问题。H2O提供的模型性能洞察力很好，但作为成功的标准之一，我有自己的自定义函数，当模型用于对一组用户进行评分时，该函数可以对模型精度进行评分。一般来说，这个函数奖励预测，惩罚错误预测。我想知道在训练模型时，是否以及如何将这种自定义损失函数插入到H2O中。

浏览 0提问于2018-09-08得票数 5

1回答

H20:如何在文本数据上使用梯度增强？

、、、、

我正在尝试实现一个非常简单的ML学习问题，其中我使用文本来预测一些结果。在R中，一些基本的例子是：library(caret)library(text2vec) dataframe <- data_frame最后，训练algo (例如，使用caret)使用我的稀疏矩阵来预测output。spark_read_csv、rsparkling和as_h2o_frame将数据导入到as_h2o_frame<

浏览 1提问于2017-06-14得票数 2

回答已采纳

2回答

H2O数据准备导出到POJO

、

我是H2O项目的新手，但对将其用于我的web应用程序有很大的兴趣。我制作了一些教程，使用R中的h2o库构建模型，然后将其导出为POJO模型。我的问题是，我需要预测的数据的格式与我用于训练数据集的格式不同。我想知道是否有可能使用我的R代码进行数据转换，并将其导出为POJO (或类似的格式)，以便我可以为实时预测准备新的数据。我在H2O文档页面()的“H2O产品化”部

浏览 0提问于2018-01-30得票数 3

1回答

如何在h2o数据帧中添加新的分类变量

、、

我试图在框架h2o中添加新的分类变量。我已经根据一些需求创建了一个新的变量，我试图在h2o框架中获得新的值，但是我遇到了错误。<- with(flights, ifelse(arr_delay<30,0,NA)))我试图将它与现有的h2o框架进行变异，以添加以下新变量： flights_

浏览 0提问于2019-04-14得票数 2

回答已采纳

点击加载更多

扫码

添加站长进交流群

领取专属 10元无门槛券

手把手带您无忧上云

在H2O中对新数据使用标准化时

相关·内容

在H2O中对新数据使用标准化时

AutoML H2O中的特征标准化

H2O建模:独立k均值或回归代码

用于K均值聚类的H2O* (开源)*

自动化H2O流:从CLI运行流

H2O“OUTPUT- CLUSTER MEANS”部分未正确报告指标

函数使用条件

H2O R中的子集

获取H2OFrame作为对象，而不是获取对H2O集群中某个位置的引用

R中使用h2o.glm的错误

H2o:迭代大于内存的数据，而不将所有数据加载到内存中

随机森林模型的F1得分

如何在H2O中将数据从长格式转换到宽格式？

随机森林实现之间的差异

如何在H2O.ai中使用rapidminer模型

H2O在并行上不起作用

H2O中的自定义损失函数

H20:如何在文本数据上使用梯度增强？

H2O数据准备导出到POJO

如何在h2o数据帧中添加新的分类变量

扫码

相关资讯

热门标签

活动推荐

运营活动

社区

活动

资源

关于

腾讯云开发者

热门产品

热门推荐

更多推荐