>
2017-04-10|
分享到:
|2411 |文章来源:媒介杂志

面对穷凶极恶的数据造假,你该有双火眼金睛!

注意!数据造假者的可乘之机

除了市场竞争加剧、造假需求旺盛外,互联网本身的4个特性让数据造假作弊分子有机可乘!

危机1虽然如今“实名认证”体系在不断完善,但归根到底互联网还是区别于真实的虚拟世界

真实的人很难被克隆和拷贝,而代表着网络用户身份的IP地址、电话号码和电子邮箱等则是可以进行批量复制的。造假者可以通过一台手机,模拟出成千上万台看起来真实的手机,然后操作这些模拟的手机执行各种刷量任务。

危机2万物互联,给了黑客和木马技术侵入他人终端设备作弊“可乘之机”

那些真实、正常的终端设备,一旦不幸木马感染或黑客攻击,就沦为了一只被随意操控的“肉鸡”,在用户不知情的情况下,发起大量浏览和点击等行为。尤其目前用户往往用一个“强账号”注册、登录其他站点,黑客只需要攻破安全性稍差的那个网站,就可以获取用户在其他网络平台上的信息,进而更好的控制其行为。

危机3互联网边际成本低,操作便捷,多快好省,且效果显著

以淘宝网为首的电商平台上也出现了很多以“涨粉”“刷量”“上热搜”为关键词的卖家,以极少的价钱就能刷到可观的数字。

传统媒体时代的收视率造假,常常要通过小额行贿或者赠送礼品让样本户锁定某频道,以提高其收视率。如今,一个媒体平台如果希望“数字”更加好看,直接在后台修改设置和数据就能实现,几乎没有任何投入可言。

危机4网络带来了无限的媒体空间,形成了长尾市场

AdMaster发布的《2016反广告欺诈白皮书》显示,2016年上半年在监测范围内的超过500家广告主的数字广告流量中,平均每天能有高达28%为虚假流量,垂直网站、DSP/Ad Network 更是成为虚假流量的重灾区。

以前,电视台、甚至传统门户网站的媒体资源都是有限的,而随着互联网的普及,媒体资源极大丰富。程序化购买的出现更是释放了这些长尾流量的广告价值,但与此同时也给了数据造假更多入局的机会,虚假流量和广告可见性问题成为难以解决的业界“毒瘤”。

揪心!数据造假技术大起底

互联网自身的诸多特性,成为滋生互联网数据造假的温床。众多作弊者锤炼各自的“看家本领”,从早期简单粗暴的刷量,到体系化、以假乱真的“十八般武艺”,造假技术可以说也在日臻完善。

造假1无中生有,只为数据更可观

在所有互联网数据造假的技术中,刷机应该是最简单粗暴的一种方式,单纯为了数字达到可观的结果。

早期的做法多为同时操作多部手机终端,以人工的方式,批量的刷各种转化。时间一长,这种方式在数量、速度上往往难以满足需求,所以又催生了程序化自动刷量的方式。

刷机墙

正常情况下,第三方采取加监测代码的方式来帮助广告主监督其广告在媒体上的投放情况。监测代码将采集来的“谁,在什么时候,看到了来自哪个媒体展示的,哪个广告主的广告”等信息拼凑成URL,再以HTTP请求的方式传给第三方,第三方可以根据URL解析出广告、媒体和用户的三方信息,并记录一次正常的广告曝光。

而造假者直接可以通过爬虫程序,不断地变换IP、cookie甚至设备ID自动装填各种参数以及发起HTTP请求。这样一来,大量虚假流量的涌入对第三方为真实效果的统计和评估造成了极大的麻烦。

然而,仅仅在数量上的优化目前已经无法欺骗到第三方和广告主了。僵尸粉、小白号、大量新注册账户、同一IP段、集中的点击等都无法做到自然真实,我们可以根据形式、IP、频度、时间段、后续行为等维度将其一一过滤,甚至有时能被肉眼识破。因此,简单粗暴的刷量只能满足作弊者一时的需求,当数据造假进入到“下半场”,则出现了更有技术含量的做法。

造假2 以次充好,有真实流量却无转化

如果说刷量是一种无中生有的行为,那么以次充好则可以被称作“偷天换日”了。原本定好投在优质内容的广告被投入劣质的内容源中,但曝光和点击仍然是真实产生的,这种异常流量往往不容易被查出,使得广告投入的性价比大打折扣,出现“有真实流量没实质转化”的效果。

地域、时段、资源、终端以及广告位置的不同,广告价值自然千差万别。作弊者在其中大作文章,用劣质流量滥竽充数卖高价,坑蒙拐骗广告主。例如,像开屏、首页Banner、视频前贴片等位置的广告资源竞争十分激烈,而其他广告位却仍有大量库存,为了售卖更多的库存,一些媒体就用较为“冷门”的广告资源冲抵。2016年AdMaster发布的《广告反欺诈白皮书》中称:剧目定向异常、素材未展示已经成为目前视频广告欺诈罪常使用的方式。

虽然以次充好能够帮助媒体平台完成广告主要求的KPI,但与刷量方式类似,这些流量无法带来有效的转化,久而久之,广告主就会有所察觉,毕竟他们需要的是销量,而非流量。一如宝洁首席品牌官所说“宝洁在美国市场的广告花费达到惊人的2千亿美元,尤其数字营销方面,但我们行业的整体增长却严重贫血,销售额增长的还不够。”

造假3流量劫持,掠夺归因效果

流量劫持也是目前较为常见数据造假的方式之一。除了通过黑客技术和木马病毒远程劫持控制“肉鸡”进行广告作弊外,还有一种以非法的手段获取广告效果的行为,即在归因层面动手脚

微博上关于网页端劫持的吐槽

流量劫持也会根据技术水平的高低分为几类:

其一是让所有人都为之反感但又无能为力的运营商弹窗,这种霸王硬上弓式的弹出式劫持,硬生生的掠夺了原本媒体广告的曝光机会。

还有一种是在网页端的劫持,例如当用户在某网站点击广告之后,原本是要跳到广告主的落地页,被拦截意味着本属于A平台带来的流量被强行归因到了B广告平台。

这类方式还会被运用到APP下载上,作弊者往往在网页中加入代码,当用户提出下载请求后,最终下载下来的却并非他想要的APP。

在效果归因层面赤裸裸的强取豪夺是非常伤害行业发展的行为。不仅伤害了广告主的利益,也让多数媒体平台深恶痛绝。而后,当造假技术升级了好几个档次,仿佛又回到了最初的起点。真人点击、刷单甚至接听回访电话、实际付费购买的真人作弊产业链又开始受到青睐。虽然作弊成本较高,但这种人工干预是最难预防的,因为它几乎与正常的广告行为十分相似。

必须!反作弊技术正当时

魔高一尺,道高一丈。互联网广告中无效曝光和异常流量等问题不解决则会牵一发动全身,并不只是广告主预算的损失,而是整个数字营销生态的一损俱损。因此,有愈发猖獗的数据造假,就呼唤更加高明的反作弊机制的出现。

诊断1建立统一、科学、透明的监测标准和评估体系

行业需要在什么才算有效的曝光,哪部分属于异常流量等方面达成共识。唯有如此,才能形成更为正向的循环,广告主也愿意分配预算到数字营销市场来。

对此,宝洁的做法与传统尼尔森电视收视率系统相似,采用MRC(媒介收视率评议委员会)创建的可视性标准去统一衡量各家媒体。

其中,“可见曝光”是一个重要指标,它追踪一个展示广告中至少有一半在浏览器窗口被看到,且时间持续至少1秒。此外,AdMaster在2016年发布《广告反欺诈白皮书》中,明确虚假流量的产生方式包括:非人类流量、有代码无素材、单素材多代码、层接嵌套、无曝光有点击等。

诊断2广告投放前及时遏制作弊行为,提前过滤掉机器人流量

在这方面,第三方数据监测机构基于海量监测数据,根据以往投放时积累的cookie ID、IP地址等信息,建立起了庞大的黑白名单数据,为每一个程序化的投放机会打分,提前甄别虚假流量来源。

秒针推出了事前反作弊工具UserPulse,包含了千万级IP与亿级ID的庞大的黑白名单数据。2016年,秒针根据MRC和IAB(互动广告局)发布的最新异常流量检测和过滤规则,将自己的广告异常流量排查模块SmartVerify升级,新规则考量IP、UserAgent和设备 ID 等多维度,进一步完善与更新黑名单,使用 IAB 官方认证的名单进行过滤,提升了移动设备行为异常的分析检验能力。

秒针SmartVerify异常流量排查流程

机制3投放中的实时监测

而当广告投放出去,广告主则会开始关心投放效果:素材有没有投偏?代码有没有被调用?有无传输问题?广告轮播顺序是否正常?有没有在一个广告位上重复添加相同监测代码而导致的多次曝光异常现象?

针对以上种种现象,AdMaster在广告投放过程中也有基于内容定向的“定投识别”技术和证据获取拷贝的“监播实录”技术,可以通过模拟机器人或程序自动反复刷屏截图,通过与原素材匹配达到自动拷屏的目的,从而监测并取证视频以及精准投放类广告地域、内容定位、轮播顺序及广告内容是否真实等作弊现象,让代理了解广告每日的上线情况,有效规避和减少流量异常导致的浪费。



机制4事后识别和惩处

而被称为“造假重灾区”的媒体在反作弊方面的行动就稍显滞后,通常只能在数据作弊行为发生后进行识别和惩处。Facebook曾因广告数据造假而深陷信任危机,为此Facebook开始公开后台数据,为广告主提供旗下包括Facebook、Instagram等媒体平台毫秒级的广告业绩信息。

而国内一些互联网大平台也以海量数据为基础,来识别数据造假和恶意刷单等行为,例如京东的“天网”系统和新浪微博的智能反垃圾系统。


京东“天网”反刷单流程

机制5“蜜罐”

最后,在业内还存在一种叫“蜜罐”的说法。蜜罐好比是情报收集系统。一方面会故意释出让造假者攻击的目标,引诱黑客前来攻击。所以攻击者入侵后,你就可以知道他是如何得逞的,随时了解针对服务器发动的最新的攻击和漏洞。另一方面反作弊者还会深入数据造假的产业链,试用产品或是走访了解,收集出作弊者的种种工具,在了解敌情的基础上更好的开展反造假工作。


“蜜罐”示意图

文章评论

请输入您的留言: