我正试图用一种不同的方式来计算性能,它现在是如何为模型内置的。
我想访问交叉验证期间的原始预测,这样我就可以自己计算性能了。
g = h2o.get_grid(grid_id)
for m in g.models:
print "Model %s" % m.model_id
rrc[m.model_id] = m.cross_validation_holdout_predictions()
我可以用数据集上的模型运行预测,但我认为这个测试可能会有偏差,因为模型以前见过这些数据,还是没有呢?我是否可以对同一数据集进行新的预测,并使用它来计算性能?
在模型创建和模型编译过程中到底发生了什么?为什么Model中不包含compile?在tensorflow图和会话方面发生了什么?
示例代码:
# model creation
model = Model(inputs, outputs)
# model compile
model.compile(optimizer='adadelta', loss='binary_crossentropy')
在SparkMLlib中,我很难访问模型估计器的参数。更准确地说,我的问题是:我有一个logistic回归模型,我想找出最佳的正则化参数(regParam和elasticNetParam)。为了做到这一点,我使用了CrossValidator,它可以工作,并为我找到了一个比我尝试过的模型更好的模型。问题是,我不知道如何访问交叉验证器找到的参数的实际值。下面是用于安装交叉验证器的代码:
from pyspark.ml.evaluation import BinaryClassificationEvaluator
from pyspark.ml.tuning import CrossValidat
我正在与Spark合作,想知道如何获得创建的K-means聚类模型的精确值。同时,检查Spark - KMeansModel API,我发现了"ComputeCost“,它返回”Set Sum of Squared Error“值。
有没有办法计算从“Set Sum of Squared Error”值创建的模型的精确度?
或者,在Spark中有其他可用的选项来获得它吗?关于这一点,请给我一些建议。
提前感谢:)