如何发现和检测Facebook上的机器人？

FB客服

发布于 2018-02-08 10:54:06

1.9K0

发布于 2018-02-08 10:54:06

文章被收录于专栏：FreeBuf

随着社交网络在世界各地的增长，其对理解和统计欺骗行为显得非常重要。其中一个就是“like farming”（喜欢页面，类似微博的关注和知乎的点赞）——人为的增加Facebook喜欢页面的数量。为了对抗它们，全世界的研究者都试图设计检测算法来区分真实的人类行为和机器账号生成的仿人类行为。结果却导致更为复杂的farm方法出现——其能够逃避检测工具，包括Facebook部署的。

Like Farming是什么？

Facebook页面允许拥有者公布产品和活动来与消费者和粉丝产生关联。他们可以定向的推送广告——据报道有超过4千万的小商家拥有活动页面，而其中2百万使用了Facebook的广告平台。

同时，Facebook页面喜欢者的数量已经成为衡量它是否流行的标准，“like farms”的出现让这个数量变得膨胀。Farms通过这种方式来培养页面然后销售给骗子，从而增加它们的商业价值，或者有偿的给页面所有者提供服务。在like farm服务上花钱是非常不稳定的，通常100个喜欢需要10到100美元，但也会取决于你是否想要针对特定的领域——例如，专门针对美国用户通常比较贵。

Farm是怎么操作的？

Farm操作有好几种方法，最终的影响不仅仅取决于花费，还包括检测的难度。一个明显的方法是找出骗子账户，但打开一个骗子账户非常麻烦，因为Facebook需要用户输入验证码或者输入一个短信校验码。另外一个策略是依赖于被盗的账号，比如通过弱口令或者恶意软件非法获取账号，然后控制这个真实的账号。例如，骗子可以通过在受害者主机上安装恶意浏览器扩展来获取Facebook账号，劫持Facebook应用，通过社会工程学攻击，或者在其他网站泄漏的信息中找到认证信息（从地下论坛获取）然后在Facebook上撞库。

Like farms操作者一般不会自己去盗号或者注册虚假账号，他们通常直接在黑市上购买。当然，如果欺骗只是通过虚假的和被盗用的账号生成，那么这离真相还很远。事实还上有一种共谋网络，真实的用户也会用动力去传递一些喜欢的页面。这些网络会雇佣用户去交换它们的服务或者小额支付。有很多方法可以诱导用户去添加一个页面的喜欢——比如，许诺他们一些抽奖，优惠，审查内容等等。

如何对抗Like Farming

检测难度对于骗子来说和业务影响是同样重要的。对2014年的经验进行是否为喜欢页面付费？以及通过使用蜜罐来理解Facebook的喜欢页面欺骗的分析，我们从中观察到两种主要的“操作模式”：第一种并不隐藏他们的操作，喜欢数量爆发式的增长并且形成非常不相关的社会子图，另一个组使用了更隐蔽的方法，定期模仿用户的行为并且依赖于大量的良好的连接网络结构来添加喜欢页面，每个用户只保持少量的喜欢页面。

除此之外让用户人工的维护自己页面的信用度，like farming同时还操作了一部分“没什么意义的”页面。为了隐藏他们的行为，farm操作的账号的流行页面就跟Facebook的真实广告页面一样。前者会造成困境（例如希拉里克林顿的例子，一夜之间收到几千个来自泰国和缅甸的喜欢），然后就损害了正当商户的广告利益。这些需要新的用户去使用它们，但是like farm账户上不需要的。

我们把注意力转移到farming定量分析上，全世界的研究者已经研究了计算机算法来对抗信誉操纵。特别是Facebook联合大学的研究者——已经开发和部署了好几种工具来检测喜欢页面欺骗。其中一个，叫做CopyCatch，检测“lockstep”喜欢模式通过分析用户和页面的社会图表，同时创建图的边。

另一个叫做SynchroTrap，依赖于同步恶意账号的一类社会网络内容的常见行为，在持续一段时间内能对有相似行为的恶意账号进行聚类。这些方法可以解决一些问题，但是更隐蔽的like farm——它不依赖于欺骗/窃取的账号，就能够成功的躲避这些检测，他们将添加喜欢分散到更长的时间线上，分配到更多的仿造用户上。我们最近通过使用BoostLikes.com的研究确认了这些假设，展示了Facebook 部署的检测工具无法检测到这些欺骗。

Like farm检测工具仅仅关注与页面和用户的行为模式，这样无法捕捉到farm操纵账号的重要的特征。在我们最近的研究中，我们通过时间线特征来解决，比如用户用什么方式向Facebook提交了什么数据。为了提高检测机制的准确性，我们还发现like farm账户提交的数据单词比较少，词汇范围更小，可读性比较差。

此外，他们提交的主要针对特定的主题，生成更多的评论和喜欢页面，更少原创，更多别人的分享（比如其他用户分享的文章，视频，和URL）。因此，在这个时间线的特征的基础上，我们用机器学习方法来分类，并且对之前收集的like farm进行精确度评估，实现了近乎完美的准确度，包括BoostLikes.com的隐秘farm。

顺其自然的，这个判断必须依赖于通过数十亿的请求时间线来检测欺骗的算法是可扩展的。同时也就可以理解恶意操作者为了分散到各个用户来躲避检测花费有多大。这样看来，欺骗和反欺骗是猫和老鼠的游戏。

*参考来源：benthamsgaze.org ，FB小编老王隔壁的白帽子翻译，转载请注明来自FreeBuf黑客与极客（FreeBuf.COM）

本文参与腾讯云自媒体同步曝光计划，分享自微信公众号。

原始发表：2016-05-20，如有侵权请联系 cloudcommunity@tencent.com 删除

安全

安全漏洞

本文分享自 FreeBuf 微信公众号，前往查看

如有侵权，请联系 cloudcommunity@tencent.com 删除。

本文参与腾讯云自媒体同步曝光计划，欢迎热爱写作的你一起参与！

安全

安全漏洞

登录后参与评论

0 条评论

热度