2020年移动广告的市场将超5500亿元。
但异常流量一直是行业的痼疾,有的广告主因此损失掉巨额的广告费。
面对异常流量,各个平台和广告监测工具也都拿出了自己的态度和技术手段。Google Campaign Manager(后面统称CM)作为全球的广告监测和广告管理系统,也是早期就开始注重投入广告数据质量的工具。
那么它的数据过滤是什么样的,什么情况下数据会被过滤掉?下面我们一起来看一下:
非人为流量
包括漫游器、“蜘蛛”程序、抓取工具和非浏览器用户代理(统称为漫游器)的非人为流量表示网站和应用上的程序化活动。此类活动的构成如下:程序发出内容请求,并递归跟踪指向该内容中其他网页的链接(许多情况下还包括指向广告服务器的链接)。此类活动可能包括用于确保网站正常运行的系统监控工具以及内容索引或检索流程(例如搜索引擎填充自己的数据库所用的流程)。当用户的浏览器或漫游器向服务器发送内容请求时,除了此项请求外,它通常还会向服务器提供某些数据(包括其 IP 地址和用户代理)。
用户代理通常会向服务器提供某些信息,例如浏览器类型(Chrome、FireFox 等)、浏览器版本、设备的操作系统等。此外,它也可能会向服务器提供标识其身份的信息。此类信息可用于过滤掉非人为流量。
自动刷新
自动刷新网页是指利用 HTML 代码,按照指定的时间间隔让用户的浏览器自动重新加载更新后的网页,包括新的广告展示。Google 无法直接控制发布商网站启动的自动刷新,也无法确保发布商会毫无保留地报告和公开自动刷新的使用情况。
无效事件
在过滤流程中,如果某些日志条目所述的情形表明该条目不可用,系统便会从日志中移除这些条目,例如那些所述情形为服务器因无法解析请求而向其分配错误代码状态的条目。不完整或已损坏的日志条目也会被移除。Google 的处理流程要求请求中包含的某些字段必须完整、准确、可找到;如果这些字段出现任何缺失或错误,相应的日志条目就可能会遭到拒绝。
CM会根据以上的情况,使用 IAB 的“蜘蛛程序与漫游器”列表以及Google自己的数据来识别非人为活动。CM还会利用基于活动的识别方法,包括进行某些类型的模式分析,查找可能会被识别为非人为流量的行为。Google 广告流量质量小组可以利用自己的系统判别所有可疑活动。
所有过滤都是在事后被动地进行。系统会向用户(浏览器、漫游器等)提供其请求,但不会说明其流量已被标记或将被过滤并移除,因为 Google 不想让用户代理知道其活动已触发 Google 的过滤机制。
特殊情况下数据误过滤
实际上在一些特定的监测代码触发方式会导致真实数据被监测工具的机制过滤掉。但在此之前我们需要先知道广告监测代码的接入方式和不同的触发方法。
目前广告监测代码与第三方平台服务器的接入分 SDK与API两种方式,其中API还分C2S与S2S两种方式接入。
C2S(Client to Server):用户设备直接请求第三方平台服务器。
S2S(Server to Server):用户设备将请求回传给媒体服务器,由媒体服务器请求第三方平台服务器。
点击代码分同步加载与异步加载两种方式。
同步加载:点击广告时加载点击代码,代码加载成功后再跳转到落地页;
异步加载:点击广告时跳转到落地页,点击代码再同步从媒体的服务器后台触发请求。
了解了代码的接入方式和两种加载的方法后,结合之前说到的工具过滤机制,可以发现有些情况下,真实的流量是会被误判的。
比如部分媒体由于一些保护自己数据安全等原因,会要求使用异步加载的方式监测。这时由于代码是单独后台加载,就会以S2S的方式请求监测平台服务器,但这种方法会被监测工具的过滤机制过滤掉,原因是所有的请求都是从服务器IP地址请求,监测工具认为是非人为流量和自动刷新,最后导致原本是用户真实产生的数据大部分被归到异常流量中。
结语
异常流量有时并不等于虚假流量,排查异常流量的方向有正有反。像开头中说到,面对异常流量,各个平台和广告监测工具也都拿出了自己的态度和技术手段。要掌握合理的方式方法,达到在异常流量中去伪存真的目的。
领取专属 10元无门槛券
私享最新 技术干货