【IT168 评论】当平台成长到一定程度,内容监管就变得难上加难。电商平台扩大,商品监管成为无法有效解决的难题;内容分享平台扩大,内容质量监管成为难题。2018年以来,我们已经看到多家社交媒体、内容分享平台爆出整顿消息,且出现了永久封站的情况。与动物相比,人类的聪明之处在于会发明并利用工具解决问题,我们知道可以利用AI技术解决这些问题,却不知道应该怎么用。
身处乱象却不沾惹分毫,如果把知乎看成一座拥有一亿四千万居民和游客的超级城市,知乎的社区规范就是让城市正常运转的法律法规。正是AI算法让知乎社区规范被更加智能高效地执行,这被称之为AI 所能够带来的人文价值,本文将完整解析知乎AI算法如何进行社区管理及内容运营。
本文根据【2018Gmic全球人工智能领袖峰会】知乎合伙人李大海的演讲实录整理而来。
嘉宾简介:
李大海,知乎合伙人、高级副总裁
演讲正文:
开篇之前,我想先简单介绍一下知乎。知乎的诞生源于一颗非常简单的初心,我们相信在信息爆炸的互联网海洋中,有价值的信息依旧是稀缺的。基于这种理念,知乎平台成立。我们希望用户在平台上彼此分享重要的信息,互相交流有价值的见解。基于此,知乎诞生的第一天就在努力用运营和产品手段维护良好的讨论氛围。
截止三月底,知乎已经有超过1.4亿注册用户,全平台日活用户达3400万,累计提问2300万,收获回答近1亿,如此庞大的数据量,单靠人为运营是很难发现问题的。这时,知乎引入了AI算法,帮助知乎小管家团队维护社区氛围。
首先,我们需要明确要解决的问题。知乎需要解决问题都属于自然语言处理领域,也就是NLP问题。但是,AI在NLP领域的表现并不如图片等领域表现出色。幸运的是,知乎积累了一个非常高质量的中文语料库,拥有大量优质提问与回答文本。同时,用户行为本身就是非常重要的数据。因为,用户在知乎生产和消费内容的同时也在建设这个社区。比如,用户对一个回答的赞同或反对、对任何内容的举报、对某一问题发起一个话题或者对问题和话题进行公共编辑,在某种程度上都可以认为是对相应文本语料进行标注。根据这些标注数据,知乎能够利用有监督的机器学习算法得到更好的语义表示,从而对语言理解达到更高层次。
在七年多的运营过程中,知乎总结出了一些有损社区氛围的情况。一是答非所问,这些回答往往是没有价值的信息,甚至只是传达了回答者的情绪;二是无效评论,这类评论会严重影响提问者以及读者的用户体验;三是传递某种不良情绪的回答,这对提问者和回答者的创作热情有很大影响。
为了解决上述问题,知乎开发了一个被称作“瓦力”的算法机器人。目前,瓦力已经可以在线上快速适时响应处理类似答非所问和不友善的内容,比如歧视、恶意贴标签、辱骂等低质内容,全力帮助知乎小管家团队减少低质内容和无关内容对用户的干扰,给用户提供人文关怀。目前,该机器人的准确率最高可达99.13%。知乎正在向着两大方向努力,一是在不同领域进一步提高机器人的准确率和召回率;二是不断提高瓦力机器人的适用范围。
当然,瓦力机器人的训练提升离不开用户。比如,知乎最近上线了理由反对功能的内测,已有五万用户参与了此次内测。用户的每一次反对和反对理由填写都是瓦力学习的机会,整个内测期间,用户选择与瓦力结合一共梳理了超两万条答非所问的回答。
从技术角度看,知乎最早解决答非所问的问题时采用的是随机森林模型。随机森林可以随机产生众多分类数组成森林,分类数就是把样本放到每个数里去分类。比如,用户发起一个讨论:知乎的宠物到底是狗还是狐?针对这个问题,每个树可以自行投票。当时,整个模型的准确率能够达到97%。虽然准确率很高,但该模型存在两个问题,一是召回率不高,只有58%,这意味着可能会把一些答非所问的回答放到线上。二是该模型会使用用户行为统计特征,也就是说,需要查看有多少用户对此回答点击了赞同或者举报。这就导致对一个新回答的判断必须放在线上观察一段时间,根据反馈结果判断回答质量。
为了解决这两个问题,知乎基于卵生模型的思路提升网络结构的表达能力。同时,对特征选取也做了很多改良,避免使用用户行为统计特征。改良后,知乎在召回率上确实有了非常大的提升,从60%提升到80%。同时,任何一个回答,只要发出来很快就能被分类。缺点在于模型的准确率下降了,但是可以结合其他业务策略弥补该差距。最后,知乎把新的模型上线替代了旧模型。
对于处理带有不友善情绪的回答,知乎目前正处于实践阶段。知乎的处理思路是要基于深层语义理解,也就是语义分析来解决这类问题。但从实践来看,这是不够的。同样的一句话出现在不同的关系里,意思可能就完全不同,好朋友之间的玩笑话可能是陌生人之间的互相嘲讽。目前,该问题是情感分析领域的前沿问题,机器人很难理解这类高级修辞手法。
在训练中,知乎会把内容本身的特征尽可能feed到模型中,包括文本特征、数值特征、反讽词表以及表现符特征等。但是,这不包括用户统计特征,原因已经在前面解释过了。知乎使用的网络拓扑模型是CNN和LSTL结合。
最后也是最关键的部分,知乎在分类层使用了知乎层大量一致的语料产生标准数据,这就是前面所讲的用户行为。如果针对某一评论,很多记录良好的用户都进行了反对,该评论是负向的可能性极大。相反,如果很多用户点了赞同,该评论是正向的可能性极大。基于此,知乎正在构建大量标注数据,如果该工作完成,知乎会第一时间发布在知乎专栏上。通过这种庞大的高质量用户行为的学习和分析,知乎一定可以在语义和用户关系两个层面实现更深的建模和理解。
当然,知乎作为一家技术公司,已经将AI技术广泛应用在知乎的内容生产、流通、消费等各个环节。知乎接下来的计划是用AI人机结合的方式打造一个智能社区。未来,每个知乎用户都能很快在知乎上找到感兴趣的人和内容,问题可以快速得到准确相应。知识的生产方式和迭代效率在这样的连接之下会发生质的改变,这就是我们认为的智能社区。
领取专属 10元无门槛券
私享最新 技术干货