首页
学习
活动
专区
工具
TVP
发布
精选内容/技术社群/优惠产品,尽在小程序
立即前往

AI产品经理系列课之二:我为什么要干“标注”这种活儿!

我们知道人工智能有可能会表现出智障行为,那是不是AI这条路就没必要走了呢?

答案必须是否定的!AI在很多领域有很重要的应用,而且也非常智能。这次我们从基础知识开始讲起,从解放人类生产力的这个角度去看人工智能到底能做什么。

想做一个产品,必先了解其原理,这里我们用一张图来概述:

先来解释一下学习/训练预测有什么样的关系?

假设人工智能的模型是个黑盒子,我们希望黑盒子能输出什么呢?举个例子,我想做人脸识别,需要黑盒子能够记住人脸特征,如果想做一个不同人脸解锁或者支付的场景,那黑盒子要记住不同人脸的特征。这种让机器去学会不同数据特征的这个过程,就叫学习或者训练。

学习或训练的输出是生成一个模型,这个模型可以拿来预测。我们把待识别的数据输入到训练好的模型里,模型就会根据之前训练好的模型输出一个结果,这个过程就叫预测。

学习过程中,主要有两部分重要的工作内容。第一部分,需要准备让黑盒子学习的数据,也叫学习数据集。比如,希望它学习人脸特征,就要准备人脸的数据。产品经理希望它能够识别张三和李四的不同,那就要张三和李四的一系列照片,要有足够多的照片。

第二部分,有了数据集之后,需要选择一套深度学习的算法,适合人脸识别的算法。可以选择的算法或框架很多,大部分也都是开源的,各种框架基于底层的算法集成的数据基本是一样的。然后,将训练数据输入到深度学习模型里,通过大量的计算,把里面的标志特征提取成参数,然后把参数的矩阵特征存到模型里。这就是整个训练的过程。

站在产品经理的角度,只要了解模型生成的过程,并且能把待识别的数据通过API输入到这个模型里,然后模型会输出这张图是张三或是李四的结果。这是深度学习或者AI的一个较基础的概念。理解了这个概念后,你才能真正理解AI产品经理的工作。

以上是一系列猫跟狗的图片。如果想生成一个模型来识别猫跟狗的话,这些图片就是需要输入给模型,让模型去接受训练的数据集。这些图片都是高质量的数据,可以看见,猫和狗的脸和躯体都会占屏幕超过一半。猫狗识别是在很多深度学习课程里的经典案例,但在实际工作中我们遇到的绝对不是这样的场景。

大家可以自行体会一下下面这张图:

这是一个实际的案例,产品经理想开发一个产品,提出的需求是:实时识别户外的人是否有抽烟,如果监测到有抽烟行为,再进一步需要做脸部识别,看是谁在抽烟,并统计他抽烟的次数。

相信你能看出这是一个户外的场景,这个户外场景里有草、有路、还有人。我们的任务目标首先是在里面识别出两个不同动作的人,这就需要我们给这个照片简单的标记出一个标签,对应两个不同的人。标记实际上是一种截屏,上图右边就是从图片中抠出来的,并标记这个人在抽烟。右边那个人没有抽烟,在谈笑风生。这样就可以很好的区别这两个人的不同特征了。

我们要给算法的数据不是一整张照片,而是从照片里抠出来的这两个人。我们告诉算法这个有绿色背景的人正在抽烟,而右面的人没有抽烟。这样,我们定义了第一个特征,不抽烟和抽烟。

再来看一个更麻烦点儿的图:

我们在这张图里标注了7个人,这7个人都没有抽烟。为什么没有人抽烟的照片我们也要放出来呢?因为这7个人的生理特征是不一样的,头型不一样,眼镜不一样,衣服不一样。如果期望AI能准确区分两种不同形态的人,需要有各种各样并且海量的数据。在收集这个数据集的过程中,我们需要积累标记大量不抽烟的人和标记大量抽烟的人。

最后再看看这张:

在这张图片里的人很勉强能被看到是在抽烟,她右手拿了一根烟,是下垂过程这样一个姿态。

假设这三张照片的构成的数据集能帮助生成一个识别人是否在抽烟的模型。但是,产品经理的第二个需求,人脸识别......这张照片就没法适用了。因为这个人的脸很难被看清。主要有两个问题,一个是她的脸的角度,另一个是光线问题,比较暗,很难看清面部特征。在标注数据的时候,额外标注人脸的话,就很难把她的特征具体圈出来。这种情况其实在产品初始设计时就应该意识到。

作为产品经理,回看这三张照片,我们应该先去人肉查看,这些人脸的特征是否能看得清楚。第一张照片,人脸特征几乎是不可能看得清楚的,两个人都只露半张脸,其中一个还不到半张。第二张照片的人脸角度不好,都是斜上的一个角度,所以拍出的人脸是扁的。第三张照片,不但角度不行,光线也不是特别好。所以,作为一个产品经理,如果能提前预见这种情况,那就不会提这样的需求了。

如果一个AI产品经理在提需求的时候并没有看对应的数据集,这样的AI产品经理是不称职的。所以在实际工作中,AI产品经理和研发工程师很难去互相理解的一个主要原因是,大家站在一个信息不对称的基础之上。而数据标注这种技能,尽管毫不起眼,但其实应该是所有AI产品经理的第一课。AI产品经理一定要深刻了解要做的产品的原始数据集是怎样的,等到做具体的模型和产品应用的需求时,你就能明白产品的极限到底在哪儿。

持续关注我们,我们还会推出一系列文章来帮助大家走进AI产品经理的日常。想跟我们讨论?不要犹豫,扫码加入我们的讨论群,共同探讨你感兴趣的话题,并有惊喜放松。^_^

  • 发表于:
  • 原文链接https://kuaibao.qq.com/s/20180619A0GF6700?refer=cp_1026
  • 腾讯「腾讯云开发者社区」是腾讯内容开放平台帐号(企鹅号)传播渠道之一,根据《腾讯内容开放平台服务协议》转载发布内容。
  • 如有侵权,请联系 cloudcommunity@tencent.com 删除。

扫码

添加站长 进交流群

领取专属 10元无门槛券

私享最新 技术干货

扫码加入开发者社群
领券