机器学习最基本的目标是对训练数据中的实例进行泛化推广。不管有多少数据,在测试时要再次看到那些同样的实例是非常不可能的。在训练数据上表现好是很容易的,只需要记住那些实例。在机器学习中最一般的错误是在训练数据上进行测试,然后错误地认为成功了。这样选择的分类器如果在新数据上进行测试,输出的结果可能不会比随机的猜测更好。
很多功能强大的机器学习算法基本上都是“黑盒子”,对用户而言,只能看到输出结果,却不知道为什么是这样的结果。随着数据量的增加、问题复杂度的提高,人们在得到结果的同时更加希望了解为什么得到这样的结果。人们收集数据的能力越来越强,收集的数据类型也越来越多,不仅包括有标识的数据,还有大量未标识的数据以及那些含有大量噪声、不一致、不完整的脏数据、平衡数据。
如果还是像以前一样简单地丢弃脏数据,在信息过程中只使用已标识数据,不使用未标识数据,那么就会造成数据的很大浪费,而且学习到的模型的泛化能力会面临很大的问题。所以研究并开发能够有效利用所有这些数据的机器学习方法具有非常重要的实际意义。
面向算法研究的机器学习原型系统在向实际可用的机器学习系统转换时,会面临更多、更复杂的内外部因素的影响。这其中一个重要的因素就是在现实世界中,不同的领域中不同误判结果间代价的平衡性, 有的误判结果可能会导致很严重的后果,而有的则影响很小。
大数据分析的精髓就在于综合各种内部、外部数据对一个事物进行360°的刻画和解读,涉及的因素更多。近年来,代价敏感的学习算法就是这方面的一个有效的解决方案。在这类算法中,通过引入代价信息来度量误判的严重性, 不同的代价参数代表不同的损失,最终的目标是最小化总的代价而不是总的错误。
领取专属 10元无门槛券
私享最新 技术干货