本译文自EROGOL 在 http://www.erogol.com 发表的 ML Work-Flow (Part 3) - Feature Extraction,文中版权、图像代码的数据均归作者所有。为了本土化,本文略作修改。
在这篇文章中,我将讨论在一个成功的ML中的特征提取(Feature Feature,也称为特征构建,Feature Aggregation ...)的细节。提取到一个好的特征表示与这个领域相关的程度,它对你的最终结果有着重要的影响。 即使您保持所有设置相同,但使用不同的特征提取方法,您在最后仍会观察到截然不同的结果。 因此,选择正确的特征提取方法需要细致的工作。
特征提取是一个将给定的原始数据转换为嵌入在一个标准化、独特和机器可理解的空间中的实例点的过程。 标准化是指具有相同长度的可比较的表示; 所以一开始你就就要计算具有非常多样的结构差异(如不同长度文档)的实例的相似性或差异性。 独特意味着不同的类实例具有不同的特征值,这样就方便我们在新的数据空间中观察不同类的集群。机器可理解的表示主要是给定实例的数字表示。 你可以通过阅读来理解任何文档,但是机器只能理解数字所暗含的语义。
现在,我们可以把特征提取分成两个主要的小标题:
通常专家数据分析师用专业知识,数据分析和分析观测的推理混合发现特征。 这对于那种自动化解决方案对于某些没有太大帮助的行业的学科(如NLP和计算机视觉)尤其重要。 我们知道什么是最重要的,哪些规则隐含在这些领域。 然而,对于具有交易历史的客户的原始数据库,完全不知道对特定的客户进行引导之后会有什么样的特特征。 这需要结合人类的直觉,专业知识等方式来推断。
方法是分析,推理,假设,测试和递归的迭代。分析数据,声明一些实例之间的一些共同点,用统计工具测试您的假设,如果是真的,则将其添加到已批准的功能集中,否则重新定义声明或者忽略。 (我想这需要一个单独的博客文章来进行更多的讨论。)
在SENTIO SPORTS,我也想为足球队和球员做同样的事情。例如,我们试图根据球队和球员的计算特征来预测未来比赛的结果。然而,这些功能并不是自动化的,我试图分析历史数据,以提出不同价值观之间的试金石价值,相关性和因果关系。这就像在大海捞针一样,特别是如果你对足球没有足够的了解(就像我,但我相信数字!)。
确定性算法:
如果我们正在研究一个我们知道将实例与另一实例分开的重要方面的学科,那么我们就可以找到一套确定性的规则来发现这些规则。在计算机视觉等许多领域,情况就是这样,人们不断地提出新的算法。这些方法通常依赖于一些人类认知和认知的研究。一旦研究人员提供了基于图像边缘和角落的人类视觉感知的一些线索,计算机视觉社区设备算法在给定图像上发现相同的结构并将这些结构转换为数字形式。例如,他们计算某些方向的边数,并通过这些数字创建直方图。在这方面,这些是确定性的方法,如果提供相同的数据,则可以得到相同的特征值。
我主要是在特征学习和计算机视觉方面经验丰富,但我将尝试总结一些特定领域的已知特征提取算法;
(我知道不多,但我知道,具有很多功能多功能的工具箱)
这是现在正在改变的地方。特征学习是学习原始实例转换为代表性和歧视性的表示,这对于任何进一步的监督或无监督的目的是有用的。顾名思义,在这些方法中,我们学习了表示以及最终的预测模型。如果我们问为什么这是有用的,这里有一些要点。
特别是在科学时代,特别是微软,Facebook,谷歌等大型科技公司的关注下,对于特色学习的研究活动非常多。它也是深度学习社区的一个子话题。
尽管有大量不同的特征学习算法,但我在这里列出了一些:
神经网络 - 每个图层都包含不同级别的特征值。
那么,我们在许多不同的角度谈论了特征提取,像算法到一般的方法论。现在,我将谈谈特征提取步骤的实际问题。
给力你一大堆数据,希望为你的最终“目的”提取“可能”的“最佳”特征。你可以参考下面几点,来确定你的选择。
作为一个非常笨但重要的点,“ 检查NULL值!”。在每个特征提取过程之后,不要忘记检查所有数据的NULL值。否则,你会发现自己处于非常朦胧的状态,所以一定要检查那些NULL值。
目前为止就是这些。在这周,如果我发现任何关于特征提取的更多评论或重要的东西,我也会把它们写在在这里。感谢收看。
本文系外文翻译,前往查看
如有侵权,请联系 cloudcommunity@tencent.com 删除。
本文系外文翻译,前往查看
如有侵权,请联系 cloudcommunity@tencent.com 删除。