当你获得了一大批数据,这就是财富。可却不知道如何去使用它,无法去区分其中的差别。
无监督学习,就能够不依赖着标签,去自动学习数据之间的关系。也就是,你别说话,我一切帮你分好。
无监督学习最常应用的两个大方向,聚类和降维。
先和大家简单了解一下,聚类:
就是根据数据的相似性,将数据分成多类的过程。
如何去确定两个数据是否相似呢?
如何去把数据归为一类呢?
“配对”的技术如何,就看你有没有选对好“媒人”
常用的“配对”方法有:
欧氏距离
这个很好理解,这就是我们一直常用的方法,两点一线距离最短的方法
曼哈顿距离
就像你住在规则布局的城镇街道,从一点到达另一点的距离所走过的距离,也叫出租车距离(红色路线)
马氏距离
是一种有效的计算两个未知样本集的相似度的方法。与欧氏距离不同的是,它考虑到各种特性之间的联系(例如:一条关于身高的信息会带来一条关于体重的信息,因为两者是有关联的),并且是尺度无关的,即独立于测量尺度。
夹角余弦
是通过计算两个向量的夹角余弦值来评估他们的相似度。如果说越靠近1,也就越相似。
降维:当我们手上的数据的维度比较多时候,在保留其特性和分布情况下,为了可视化和精简数据的目的,我们可以对其进行降维度的操作。由于多维数据的任务存在关联性,在某些情况下降维后更加好进行处理。
好了,我们下期再见。
领取专属 10元无门槛券
私享最新 技术干货