提问者的提问会根据先知的回答越来越具体, 多个问题问完后, 提问者的决策就形成了一颗决策树。决策树的分支由可以猜出响应变量值的最短的解释变量序列构成。...因此, 在猜猜看游戏中,提问者和先知对训练集的解释变量和响应变量都很了解, 但是只有先知知道测试集的响应变量值。
决策树通常是重复的将训练集解释变量分割成子集的过程, 如下图所示。...下表是14个节点的训练数据:
从数据中我们发现, 猫比狗更容易发脾气。大多数狗玩球, 而猫不爱玩。狗更喜欢狗粮和培根, 而猫喜欢猫粮和培根。解释变量是否喜欢玩球和是否经常发脾气可以转换成二元特征值。...最后将GridSearchCV的搜索目标scoring设置为f1。
这个分类器发现了测试集中90%的广告, 真广告中有88%被模型发现了, 你运行的数据结果可能会有不同。...决策树的一个分支在遇到显示响应变量值的叶子节点时停止。我们介绍了ID3算法,用来训练决策树通过递归分割训练集,形成子集以减低响应变量的不确定性。