首页
学习
活动
专区
工具
TVP
发布
精选内容/技术社群/优惠产品,尽在小程序
立即前往

图形识别技术的一次重要转折

图像识别一个重要里程碑,莫过于要提及ImageNet。

早在2009年,ImageNet被创立,它包含了320万张图片,是一个供计算机视觉研究人员使用的数据库。

它的作用在于,希望英文里的8万多个名次,每个名词都能在数据库里找到对应的几百张图片。大家都可以基于里面大约120万个已经标记好分类的图片作为训练样本,用自己的识别技术来处理对其他图像的分类,看看谁的错误率最低。

具体的做法是,计算机看到一张图片的时候,给出最有可能的5个分类,如果正确答案不在这5个分类里面,那么就视为错误。

2010年的第一名,错误率为28%,用的是支持向量机(SVM)的技术,这种技术本质上就是在数据的不同类别之间,找到最佳的分界线,在更高维度中表现为找到一个"超平面",把数据划分为两组不同的类别。

这个技术一直是当时的图像识别问题的主流,随着数据量和算法的增加,卷积神经网络(CNN)才慢慢追赶了上来。

卷积神经网络中的卷积是一个数学操作,用于合并两个信息源。举个例子来简单说明,比如你有一张网格纸,上面有圆形、方形和三角形等,你有一个小的透明模版,上面有一个特定的圆形图案,你将这个模版放在网格纸上的每一个位置上,然后记录下模版和网格纸的图形相似程度,所谓卷积,就是在合并这两个信息。这里的模版就是一个过滤器。

卷积操作会在每个位置计算窗口和图像部分的元素乘积计算。从而提出图像边缘、纹理这些特征。卷积神经网络需要多层的卷积操作,才能逐步抽象出更高层次的特征,用来更好地识别和分类图像。

而"过滤器"的提出,是神经网络的一个重要里程碑,我在之前《谁举起了停滞了70年的人工智能行业》里有所提及。

卷积神经网络(CNN)和支持向量机(SVM)都是用于处理分类任务,但CNN偏向于利用卷积层自动提出特征,比较适合处理图像视频等高维度的数据,SVM通常需要手动构建特征,然后再基于这些特征的基础上找到最优的"分界线"进行分类,适用于数据维度较低的数据,如表格数据之类的。

回到我们提及的图像识别比赛,由神经网络教父Hintong带领的团队,利用卷积神经网络花了6天时间,把120万样本图像接收训练,当时用的是Nvidia 的GTX 580 CPU,计算速度为1.6万亿次浮点计算,他们在比赛中的错误率为15.3%。

这是二十多年来第一次在图像识别领域,重重地挫败了主流技术支持向量机(SVM)。

这是2012年的10月,卷积神经网络(CNN)侧重在大量的计算上,只有通过大量计算才能更好地抽离出数据特征,12年后的今天,在单精度浮点计算的情况下,Nvidia的H100已经能达到480万亿次浮点计算,是当初的300倍。

你在这里能得到什么?

我始终认为:最有价值的时刻,在于你是否真正捕获了更多客观的一手信息,并修补了以前自己错误的观点,得到一些启发,这是你和大多数人真正拉开距离的时刻。

你能在这里能得到一些启发,偶尔一两个就够了,人的差距在于思维模式的差异。

文章表达个人观点仅供参考,不构成对所述资产投资建议,投资有风险,入市须谨慎.

  • 发表于:
  • 原文链接https://page.om.qq.com/page/OAbxQaMfwghU1JqgtFcqun4Q0
  • 腾讯「腾讯云开发者社区」是腾讯内容开放平台帐号(企鹅号)传播渠道之一,根据《腾讯内容开放平台服务协议》转载发布内容。
  • 如有侵权,请联系 cloudcommunity@tencent.com 删除。

扫码

添加站长 进交流群

领取专属 10元无门槛券

私享最新 技术干货

扫码加入开发者社群
领券