Mllib支持模型选择,可以使用工具CrossValidator 和TrainValidationSplit,这些工具支持下面的条目:
Estimator:需要调优的算法或者pipeline。...例如,在下面的例子中,参数网格中hashingTF.numFeatures有三个值,并且lr.regParam两个值,CrossValidator使用了2folds。...= spark.createDataFrame(Seq(
(0L, "a b c d e spark", 1.0),
(1L, "b d", 0.0),
(2L, "spark f g h",...val pipeline = new Pipeline()
.setStages(Array(tokenizer, hashingTF, lr))
//用ParamGridBuilder构建一个查询用的参数网格...//使用ParamGridBuilder构建一个parameters网格,用来存储查询参数
//TrainValidationSplit会尝试所有值的组合使用evaluator来产生一个最佳模型
val