新闻推荐算法是目前新媒体研究中的热点。在前互联网时代,报纸、广播、电视等传统媒体主要通过人工为受众推荐信息;在互联网发展初期,信息的热门推荐方法得到发展并在雅虎等网站大量使用;在目前所处的大数据时代,则以个性化算法推荐和信息流展现为主流。
供图/CFP
个性化新闻推荐系统在实际的应用中褒贬不一,通过对一些用户的访谈,笔者发现,个性化新闻推荐中往往含有一些劣质内容,利用人性的弱点,导致过度娱乐化的新闻泛滥。这些刺激感官的内容吸引人们点击,造成了点击量上的“虚假繁荣”以及用户的“信息成瘾”。
//
个性化新闻推荐算法的问题
//
1
内容不符合用户兴趣
个性化推荐算法并不一定能把符合用户兴趣的内容推荐给用户,造成这个问题的原因有很多。
从数据质量上看,个性化推荐对数据的数量和质量要求比较高,如果一个用户缺乏有质量的数据,个性化推荐远远不如热门推荐的效果。多数新闻资讯类应用要面对大量历史阅读记录空白的新增用户,对他们进行个性化推荐的效果并不好。这个问题被称为“冷启动”问题,是大多数个性化推荐系统面临的共同问题。
从目前自然语言处理的局限来看,个性化推荐系统无法对文章内容做深入理解。目前的自然语言处理只能从其特有高频关键词层面进行标签层面的相似度匹配,这样产生的肤浅话题,无法与用户气质、性格、生活方式进行深层次匹配,很难满足用户阅读新闻资讯中一些细腻的心理需要。
协同过滤算法本身的缺陷,亦导致一些个性化推荐算法的推送内容不符合用户兴趣。一个经典的例子是,娱乐新闻往往很受欢迎,因此用户在协同过滤中的近邻群体多少都阅读过一些娱乐新闻,但这个用户可能从来不读娱乐新闻,强行推荐会使他反感。
2
内容质量问题
纯粹的个性化推荐系统对文章的质量和内容是没有把关的。算法所做的只是提取文章中包含的特征关键词,并将其与用户兴趣进行匹配。算法并不知道文章水平如何,内容是否健康。一篇文章可能没有任何有意义的内容,只是堆砌一些用户可能感兴趣的词语,但仍然会被算法推送给用户。算法本身是对用户特征和文本数据进行匹配,因此越是相似的结果越会被优先推荐,这容易导致内容同质化。
3
信息茧房与信息成瘾
信息茧房(Information Cocoons)指的是信息个性化技术使得人们可能减少阅读多样化内容的趋势。由于个性化推荐系统是根据用户已有的阅读偏好进行关键词匹配和推荐,因此相似性较低的内容基本上不会被推荐,这样用户的阅读内容会变得狭隘。在一次又一次阅读自己喜欢领域的信息后,用户不断地在自己与整个世界之间筑起一座高墙。许多人沉湎于这样的拟态环境中,无法自拔。
4
可遗忘性
个性化推荐算法“记住”了用户看过的文章和相应的喜好,但是对于用户来说,这种记住不一定是好事,用户也存在着让算法忘记他过去喜好的需求。
5
版权问题
算法只负责推荐,并不知道文章由谁撰写,以及是否涉嫌抄袭。事实上,有很多企业的推荐系统中推荐的文章数据,是由爬虫从其他网页抓取的,换句话说,是未经授权的窃取。
//
推荐算法的优化策略
//
1
技术不断革新
运用以人工神经网络为代表的新的算法范式,对于推荐系统中许多难以解决的老问题,很可能会有非常好的效果。目前,以深度学习为代表的人工神经网络方法在图像识别、声音识别领域取得了巨大成就,人工神经网络方法,正在被许多研究者尝试运用到推荐系统中。
针对很多新用户缺乏数据沉淀,从而难以进行有效推荐的问题,可以通过获取用户其他平台信息、获取用户已安装的其他软件信息以及引导用户进行口味选择这三种方法来解决。需要注意的是,此举可能侵犯用户隐私,在实际应用中,应当获得用户的许可和授权。
领取专属 10元无门槛券
私享最新 技术干货