最近几年随着大数据、人工智能、机器学习行业的兴起,作为数据分析师多多少少都接触过一点推荐算法相关的分析,在做算法模型分析的前提是要弄懂推荐算法的机制,掌握了常规的业务知识以后,就算不会写代码去实现过程,也能用算法进行一定的分析。现在主流的推荐算法大概有四步:召回、过滤、粗排、精排。这些都代表什么意思呢?
下面会用一个特别特别形象的案例跟大家介绍:相亲。
召回:广撒网
召回的概念是从目前的资源池中将满足条件的资源圈出来。就好比要去相亲了,在相亲网站上进行了数据的搜集,首先确定了年龄段,发现相亲网站上选出来的人各式各样,各种颜色的皮肤,各种颜色的头发,嘴里说的念的都是“选我选我”的中国话~
当然还会存在一些收费或者VIP用户,会为他们推荐一些高质量的对象,还有通过其他的相亲网站、熟人介绍等方式。这些特殊通道就是多路召回。总之呢,在海选这一步,只要是符合粗略条件的什么都不管,一把拿过来再说。
这个原理跟我们平时头条有点类似,算法召回的方式有很多种,比如:向量召回、协同过滤、其他多路召回等等,包含的内容也是五花八门的,比如关注的博主发布的内容,热度比较高的,各种热点花边的,从内容分类来看还有娱乐、影视、政治、外交等等。总之最后在客户端呈现的内容,首先要做到“全”以后才有条件去做“准”,召回这一步就针对的是“全”的问题。
过滤:复选
经过海选的对象就进入到复试的阶段了,这么多对象不可能全部见一面,全部成功的,那么就需要在见面之前再筛一筛,这时候要在这些人中淘汰一批不符合某项条件的,比如太瘦了,太胖了,太高了或者家庭条件不符合、学历一般,投机倒把的等等,这一系列下来就能筛掉质量比较差的对象了。
还是以头条为例,召回的内容中挂着热点标签搞反动倾向,浏览数低,老旧内容先去掉,过滤一下质量不好的内容,留下稍微精华的一部分。
粗排:了解
既然要见面了,那就需要在见面之前先沟通一下吧,聊聊天,谈谈三观,谈谈理想,发现不合适,好的,换下一个。这时候就根据言谈举止等等再进行打分,再过滤掉一部分不合适的,精益求精。
就推荐算法来说,小的APP在召回阶段资源就不够了,到最后展示给客户的内容就不多,那么就可以粗排和精排一起做,大型APP比较任性需要用粗排继续过滤一波数据来降低服务器的载荷。
精排:见面
经过三面之后,剩下的人不多了,就可以安排见面了,那最后可以剩下哪个人,或者哪几个人还是需要再次评估的,到这一步就要根据个人的偏好还有对象的动态特征进行挑选了。
这就相当于新闻列表中除了之前所说的特征,还要根据点赞收藏转发用户偏好去进行一个综合的评分,将最适合当前用户的内容排序曝光出来。
由于新用户是没有行为数据的,所以就不能判断用户的偏好,对于推荐引擎来说相当于冷启动,这时推荐的内容相对比较杂乱,慢慢的随着用户的行为积累,算法学习出用户的偏好,推荐的内容就越来越集中于某一些领域。
领取专属 10元无门槛券
私享最新 技术干货