机器学习主要分为有监督学习(supervisedlearning)和无监督学习(unsupervised learning)。
监督学习,就是人们常说的分类,通过已有的训练样本去训练得到一个最优模型(这个模型属于某个函数的集合,最优则表示在某个评价准则下是最佳的),再利用这个模型将所有的输入映射为相应的输出,对输出进行简单的判断从而实现分类的目的,也就具有了对未知数据进行分类的能力。
例如:在人对事物的认识中,我们从孩子开始就被大人们教授这个是树木,那是花,等等。我们所见到的景物就是输入数据,而大人们对这些景物的判断结果就是相应的输出。当我们见识多了以后,脑子里就慢慢地得到了一些泛化的模型,这就是训练得到的那个函数,从而不需要大人在旁边指点的时候,我们也能分辨的出来哪些是树木,哪些是花。监督学习里典型的例子就是KNN、SVM。
无监督学习与监督学习的不同之处,在于我们事先没有任何训练样本,而需要直接对数据进行建模。
例如:我们去参观一个画展,我们完全对艺术一无所知,但是欣赏完多幅作品之后,我们也能把它们分成不同的派别(比如哪些更朦胧一点,哪些更写实一些,即使我们不知道什么叫做朦胧派,什么叫做写实派,但是至少我们能把他们分为两个类)。无监督学习里典型的例子就是聚类了。聚类的目的在于把相似的东西聚在一起,而我们并不关心这一类是什么。
机器学习平台比较
机器学习平台提供了从头到尾完成一个机器学习项目的功能,包括数据分析,数据准备,建模和算法评估及选择。常用的机器学习平台有:(1)WEKA:一款免费开源的机器学习和数据挖掘可视化工具软件,其操作简便,运行速度快,尤其适合小规模的机器学习建模,适合于科研探索和机器学习入门人员等;(2)RapidMiner:在机器学习领域应是一个全面综合的软件工具,在算法和可视化效果方面都很突出,特别适用于不同数据的多方面分析和研究,适用于数据和业务分析人员;(3)Knime:接近RapidMiner,但界面比较复杂,比较适合开发人员,尤其是具备Eclipse开发经验的人员。
WEKA简单应用
Weka输入数据的格式:
@relationweather
@attributeoutlook
@attributetemperaturereal
@attributehumidityreal
@attributewindy
@attributeplay
@data
sunny,85,85,FALSE,no
sunny,80,90,TRUE,no
overcast,83,86,FALSE,yes
rainy,70,96,FALSE,yes
……
选择分类算法:从算法库里边选择J48算法。
结果显示:根据天气情况,判断外出游玩这个状态进行判断。例如:当天气是多云的时候,可以外出游玩,当天气是雨天并且有风的时候,不可以外出游玩。
领取专属 10元无门槛券
私享最新 技术干货