




版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
-PAGEV-互联网广告联盟风控体系研究摘要近年来随着移动设备的飞速发展,移动广告越来越受到广告主们的追捧,移动广告联盟应运而生。与此同时,黑产组织也盯上了移动广告这块大蛋糕,各类作弊手段开始层出不穷;平台方为了保障广告交易的公平性,设立了反作弊组,让风控系统与人工排查相辅相成,减少广告主们的损失。为了更好地去理解广告联盟风控体系,本文通过真实的反作弊组工作流程以及网上的资料从广告样式、广告投放机制、结算方式等方面介绍了广告联盟平台方;同时从作弊用户分类、作弊手段、作弊手段特征等方面解析了黑产组织目前的状况,并从中提取了较为关键的特征值来设定反作弊规则。在梳理了反作弊组的工作流程后,本文着手于设计广告联盟反作弊系统,设计中系统主要分为实时在线反作弊系统以及离线反作弊系统,对于两者的需求以及规则进行分析。最终,分析实时在线反作弊系统的主要逻辑部分代码;同时设计了热力图、模拟器识别等功能。图表清单图3-1反作弊组流程 13图3-2先审后发 14图3-3先发后审 15图3-4正常热力图 17图3-5异常热力图 18表3-1基础数据策略 19表3-2设备层数据策略 19表3-3效果层数据策略 20表3-4行为层数据策略 20表3-5强弱规则设计 20目录摘要 I1绪论 11.1研究背景和意义 11.2研究内容 21.3研究方法 22文献综述 42.1国内外风控体系研究现状 42.2广告联盟与互联网广告研究现状 52.2.1广告结算方式 62.2.2广告精准投放 82.3互联网广告作弊用户研究现状 92.4互联网广告作弊手段研究现状 93广告联盟风控体系研究 113.1反作弊团队工作流程 113.2广告样式排查 123.3风控系统需求背景 133.4风控系统反作弊策略 143.4.1实时反作弊系统策略 143.4.2离线反作弊系统策略 163.4.3防误点策略 194风控系统反作弊功能设计 204.1SDK接口配置 204.2实时反作弊系统设计 204.3热力图实现 224.4模拟器识别 235结论 25参考文献 27-PAGE31-绪论1.1研究背景和意义互联网技术与广告业结合的产品——互联网广告,随着21世纪移动端设备技术的飞速发展,碎片化趋势越来越明显,一个小型的广告联盟“互动通”曾在报告中指出,目前有约八成的移动用户行为发生在移动客户端[1],行业内出现了不少人们称之为广告联盟的商业平台。这些平台整合了各路流量媒体资源,帮助广告主们进行广告投放,又或者是帮助媒体开发商进行流量变现,[2]在这其中广告联盟是一个类似于中间商的角色,其工作主要是整合广告位资源以及广告素材,通过大数据精确用户画像让广告投放更加精准,以及保证广告交易公平。在国外,早在1996年著名的亚马逊就成立了第一个互联网广告联盟。而自2014年来,字节跳动、腾讯、百度等互联网巨头企业也开始各自成立国内的网络广告联盟,除去这些头部企业,国内目前已有近百个大大小小的广告联盟,而且每个量级的广告联盟都有各自经营的特色[3],国内的移动互联网广告逐渐走向黄金时期。根据2020年官方推出的中国互联网广告数据报告显示,凭借着新技术的创新,虽然今年来的广告收入增幅逐年下降,但互联网营销服务依然呈现多元化增长[4]。互联网已成为广告主们主要投放的媒体之一,中国随着近些年信息科技的飞速发展,再加上智能手机全民化的影响,目前已经成为仅次于美国的全球第二大互联网广告市场。根据高扬的数据预测,互联网广告的总收入在近几年内将持续增长,其年均复合增长率预计将高达的11.8%,约在2022年前后突破800亿美元大关[5]。而有巨大利益的地方就有对应的黑色产业存在。为了追求利益,互联网广告生态链上的各个角色都可能有作弊行为,为此流量造假手段开始体系化,普通作弊方式已经无法覆盖作弊者的需求,针对广告联盟的作弊行为逐渐呈现全方位、多层次的体系化态势[6]。宝洁集团全球首席品牌官普里查德曾公开表示,当广告媒介的生态链条不够透明时,投入在广告的成本中会有很大一部分被浪费,2005年时在美国移动广告市场中,有接近75%的广告投放成本被浪费,可见不仅是互联网广告,整个广告行业一直以来都收到作弊行为的困扰[7]。虽然广告主们认识到了作弊行为的猖狂,开发出了CPC与CPA两种能有效打击简单作弊方式的广告结算方式,CPA与CPC仍然受到假点击以及假注册的侵扰,异常流量分别占26.1%和30.5%[8],依然是个不小的数目。为了广告联盟的公平性,更是为了广告主与开发商的利益,反作弊组应运而生。在研究风控体系时,研究的初衷,也就是建立风控体系的动机是什么?如果放任作弊行为又会有什么样的危害?首先从广告主的角度出发,建立风控体系进行反作弊降低了企业的营销成本。虚假流量和异常消耗会导致企业营销预算损失,损害了广告主的利益;其次从平台方的角度出发,正确的归因和功劳分配才能使平台方能更好地经营,作弊本质上是抢归因,媒体A的功劳给了媒体B,媒体A肯定不愿意,如果长期下去,媒体A会减少甚至停止推广,造成劣币驱逐良币,影响广告主的媒体结构,平台方和广告主都会因为推广效果变弱而受到影响;最后从行业的角度出发,规范行业健康发展生态和行业信誉是一个行业可持续发展的重要前提。联盟行业参与者众多,主要有广告主,媒体,平台方,一个交易公平性低的市场势必会导致平台方的信誉降低、客户流失,甚至关闭联盟项目造成整个联盟行业萎缩,整个产业上下游的合作商受损[9]。1.2研究内容本文的目的在于详解广告联盟反作弊的现状,对于作弊用户、作弊手段等进行分类介绍;同时通过Visio等方式反映反作弊团队的工作机制;并且分析智能反作弊系统的大体框架,最后还要尝试开发实现点击热力图、模拟器识别等小功能。反作弊系统的设计也需要人们对于流量作弊进行更彻底的分析,这次设计也是一个深入了解流量作弊黑色产业的过程。当前市场上数据造假主要依靠黑客或机器人进行,很多数据造假都被伪装成了真实的用户行为,流量的水分与日俱增。学习使用技术抵制广告数据欺诈行为就显得极其重要。1.3研究方法主要研究方法有:(1)文献学习法:通过对国内外互联网广告监管机构,及国内广告联盟反作弊的成果进行总结,提炼归纳有关的研究结论,为本研究寻找理论基础;(2)实地考察法:深入国内广告联盟行业的头部品牌之一腾讯优量汇的反作弊组团队日常工作,整理归纳反作弊团队的工作流程,使用并学习一个企业级的广告联盟反作弊系统。(3)实证研究法:利用产品类软件进行流程分析,并使用开发软件开发部分反作弊功能。基于一定量样本的真实作弊用户数据,通过数据分析后归纳整合出各类作弊用户的作弊手段与特征。2文献综述2.1国内外风控体系研究现状互联网广告在web端一直得到了相当成熟的体系监管,百度在2010年左右将搜索广告彻底商业化后不久,就打造出了相当完备的搜索广告风控系统,百度针对搜索广告的反作弊技术也至今都是国内大大小小搜索引擎借鉴的典范;而黑产组织因此把目标放到了社交网站的广告上。与搜索广告不同的是,搜索广告的作弊方式集中于Web端的页面作弊,而针对社交网站的广告作弊则更具多样性,作弊用户与作弊手段的量级都远超搜索广告。发展到2018年时,随着各大厂商介入广告联盟的市场,移动广告联盟成了比社交网站广告更大的蛋糕,黑产组织再次转移目标,将移动广告联盟作为目标。目前一个广告联盟的标准反作弊体系中包括两个部分:风控系统以及反作弊团队:反作弊团队一般由产品、运营、技术组员工组成;技术组员工开发并且不断更迭优化反作弊系统;运营员工则使用反作弊系统高效率地对于联盟成员展开周期性的反作弊巡查;产品员工则充当两者的桥梁,收集运营员工反馈的工作需求以及经典案例,同时协助技术组员工优化现有的反作弊系统。在技术上,美国互联网广告业近年来不断探索广告数据欺诈的防范举措,主要尝试包括第三方监控和过滤工具的感知效果对点击欺诈的预防作用研究、互联网广告点击欺诈的机器学习与模式识别技术研究、互联网广告数据欺诈检测工具研究等[10]。而美国广告市场的这些举措也极大地打击了流量造假市场;2019年由虚假流量引发的经济损失比2017年下降约11%。在视频广告中有14%为机器模拟产生的虚假流量,这一比率明显低于2017年的22%[11]。值得一提的是,国内的搜索引擎风控系统要比广告联盟风控系统成熟得多,广告联盟风控系统可以在很多方面借鉴搜索引擎的策略。搜索引擎的风控系统在图像识别等机器学习产生的风控算法上尤为成熟[12],还有可以使用在广告联盟会员纬度上的PR值算法[13]。下面是国内某头部广告联盟的人工排查流程:首先反作弊外包运营对反作弊智能系统的每日巡查告警案例分别进行数据排查和样式校验,给出初步排查结论;反作弊外包运营将初步排查分析数据过程及结果录入运营排查平台,流转至反作弊开发对作弊及疑似作弊媒体进行二次分析确认;反作弊值班开发对初步排查结论进行二次确认后,由反作弊产品运营做最终复核并对需要进行封禁、暂停、限期整改的媒体以企业微信、点对点沟通、邮件形式进行内部周知;反作弊外包运营最后操作封禁、暂停,封禁及暂停后系统自动发送邮件及站内信(待上线)周知开发者;并将处理结果更新至反作弊运营排查平台。从这一整个流程中我们可以看出,目前广告联盟面对几乎所有广告请求,都会通过智能反作弊系统进行初步排查,而系统无法判定而被汇报至人工排查的请求数量已经非常少了。外包运营员工也可以通过一些较为简单的非技术手段(简单地数据分析以及图表结合)来进行人工初步作弊判定。最后反作弊系统与外包运营员工都无法判定的极少数案例才会被上报给技术组排查员工,使用指针等专业技术手段进行作弊最终确认。而对于告警案例的广告素材、广告样式审核更是直接全部交由反作弊外包运营组进行处理,可见图像学习,甚至于机器学习技术目前尚未在风控体系中被好好利用,智能反作弊系统以及人工反作弊组配合排查的运作形式,目前依然是国内大多数广告联盟的标准配置。2.2广告联盟与互联网广告研究现状要想了解广告联盟的风控体系,我们就要先了解广告联盟本身。广告联盟主要包含三种角色,广告主、媒体以及平台。广告主很好理解,一个公司想要进行推广,他找到了平台,提供素材,并且协调计费方式以及投放用户,这就是广告主的定义;媒体就是人们日常使用的APP们,如果一个APP加入了广告联盟,广告联盟将接口嵌入该APP后,该APP就可以在APP本身设定的各个广告位上获得由平台指定的广告投放,此时该APP就成为了媒体。值得一提的是,媒体和广告主并不是绝对的,一个公司可能同时是广告主和媒体。举个例子,当一个公司通过平台进行流量变现后,将变现得到的钱用来让广告联盟推广自己,此时这个公司就同时是媒体与广告主。最后讲讲平台,也就是狭义的广告联盟。平台在这个广告投放与流量变现的流程中充当了中间商的角色。平台本身可能并没有很多流量媒体,但是平台整合了很多优质的流量媒体,同时还提供了能使广告投放更加精准的算法以及保证交易公平公正的监管体系,因此吸引了广告主来进行广告投放。而移动广告,目前收到很多广告主追捧的原因在于以下几点:首先目前大量的点击行为发生在移动端,简而言之对于大多数可以商业化的网站,移动端的浏览量都占据了更大的份额;其次移动广告的效果,相较于传统的广告而言更容易检测,这样保证广告交易的公平性就更加容易了,并且广告主也可以根据投放数据更好地进行用户画像的定位,甚至于广告主可以要求通过更加难以掺水的结算方式进行结算;最后移动广告的形式更具多样性,从图文并茂到全屏视频广告再到小游戏广告,移动广告给人感官带来的冲击远超以往的广告形式。目前市面上经常出现的移动端广告可以归结为以下几类:开屏广告。这类广告无需多言,广告位处于最显眼的开屏位置,毫无疑问拥有所有类型广告位中最高的曝光率,同时也有着最高的投放价格。开屏广告一般以大图或者全屏视频形式为主,时长一般为3-5秒。Banner位广告,Banner位广告是指移动客户端中类似于横幅一般的横条广告位。虽然没有极高的曝光率,但是由于其样式很容易融入到不同的APP界面中,因此Banner广告一直收到广告主们的青睐。但是因为样式的缘故,Banner广告也常常遇到素材展示比例不协调,投放量大但曝光率低等等问题。过去Banner位广告因为投放量大,占有率高等原因,一直是流量造假的广告位重灾区[14]。插屏广告,一般以大图或者全屏视频为主要形式,常常出现在页面跳转时或者用户按到某个按钮后。插屏广告拥有仅次于开屏广告的高曝光率,也因此具有仅此于开屏广告的第二高成本。激励广告,一般出现在游戏软件或是阅读、视频类软件中。激励广告与插屏广告的表现形式完全一致,区别在于:激励广告是在用户知情并且意图通过看广告来得到奖励的情况下点击的,而插屏广告则可能出其不意。最后是最特别的原生广告位。前面四种广告位无一例外,都是由平台提供端口嵌入媒体APP中,广告形式完全由平台控制;而对于原生广告位,平台只提供广告投放算法,具体的广告位形式则由媒体自行确认,媒体因此有机会开发更能融入APP界面或者更具特色的广告形式。以国内社媒的龙头APP新浪微博为例,新浪微博的原生广告位有热搜第3、6位,视频/信息流第3位等等。相比于前几种广告位形式,原生广告位更加贴近用户在APP原本的使用体验与媒介环境,能够洞察用户在该场景下的个人需求,并且提供能够满足用户需求的商品或者服务的信息。[15]2.2.1广告结算方式要想更系统地了解黑产在广告联盟中的作弊方式,我们首先就得熟悉广告联盟的结算方式,从结算方式的元素中寻找可以造假的机会。广告联盟兴起以来最普遍的结算方式就是CPC(CostPerClick),事实上CPC可以说是互联网广告还停留在PC端时就已经出现的概念,也是人们最熟知的网站盈利方式。点击量作为一个最容易计量也是相当直观反映网站人气的数据指标,在网络技术尚不成熟的00年代促成CPC的一时辉煌。然而在黑产组织的作弊技术不断提升后,点击量造假已经成为最容易,门槛最低的作弊方式,CPC也因此开始遭到启用。同样受欢迎的还有CPM(CostPerThousandImpressions),即这条广告展示给1000个人所需要的成本,因为互联网广告投放和展示的量级都比较大,因此这里以千人为单位。CPM最大的特点就是按量计费,不同级别的广告主根据自身推广的需求来购买投放量。需要注意的是CPM中的M并不单纯指广告的展现,而是根据广告的形式来做区分。比如对于Banner位这种把广告放在页面固定位置的广告位,M指页面的PV量;而对于插屏、开屏广告等到占据全屏的广告形式,M就是指广告的投放量。当然即使是CPM这种已经覆盖各个量级的结算方式,依然会有体量小或者预算紧的广告主希望能有更具性价比的结算方式,CPA结算应运而生。CPA中的A指的是Action,由广告主来指定这个Action是哪个具体的用户行为,比如一次下载;完成一次交易;以及完成一次注册等等。CPA结算方式的最大受众就是网络游戏行业以及电商行业的广告主们,因为CPA结算完美的覆盖了这两个行业广告主的核心需求。除了CPA以外,电商行业还有其他青睐的结算方式,CPS就是一个例子,CPS比起CPA来说更加贴近电商行业的核心需求——促成交易;也可以说CPS就是CPA的一种。CPS(CostperSale)如同名字一般,收到广告推送的用户每成功达成一笔交易,网站就可以自主获得佣金。事实上在广告联盟行业还有这许多其他的结算方式,但是根据19年腾讯优量汇给出的广告联盟白皮书来看,这四种结算方式占市场上的大头,因此本文通过结算方式来推导作弊方式时以这四种结算方式为主。目前市场上的作弊行为一般由木马病毒或者是模拟机器作为发起点[16],因此国内开始逐渐抛弃CPC结算方式,换以更加具有效果代表性的CPA结算[17],也算是从结算方式上进一步打击了作弊行为。由腾讯制作《2020中国移动广告反欺诈白皮书》中提到,依托SDK集成模式、从流量源头预防是移动广告反欺诈的大势所趋[18]。而受到CPA计费模式困扰的黑产组织也开始将目标放在CPC结算方式的广告上[19]2.2.2广告精准投放广告联盟之所以能成为互联网广告交易中的中间人,不仅仅是因为其统筹资源的能力,广告联盟具有更加高效的投放算法也是重要原因之一。虽然各家广告联盟的投放算法都有差异,但是依然能够归结为几个主要类型:最简单直接的投放方式就是根据用户地理位置来划分用户类型,目前大部分软件在用户初次使用时都会征询用户的地理位置获知权限,因此用户的定位可以被广告联盟通过这些软件的端口轻松地获取到;除此之外用户社交动态的定位、用户资料的所在地信息也可能被广告联盟所参考。根据这些数据广告联盟可以确定一个用户的地理位置与常去的场所,根据地理位置的不同来清晰用户画像,比如根据所在城市的发达程度来划分用户群体等等。但是众所周知,同一个城市内的居民其实并没有非常多地理位置以外的共同点,因此根据用户地理位置来投放广告虽然容易,但是效果并不是很出众。由于目前国内的社交网络上UGC和PGC内容都非常丰富,在用户们能更好地深耕自己兴趣领域的同时,广告联盟也能更轻易的掌握一个用户的兴趣爱好。只要从用户自制的UGC以及用户浏览的UGC和PGC中提炼出最频繁出现的内容标签,广告联盟就可以大致确定一个用户的感兴趣方向。该类投放形式其实在淘宝中早有体现,用户们常常会发现在淘宝购物车底部的猜你喜欢页面中,出现了许多自己近期浏览过的兴趣领域相关商品。根据用户的行为来定向投放广告。用户的行为虽然很容易被广告联盟的端口捕捉到,但是要把用户的行为数据整理成有用的信息具有不小的难度,事实上目前广告联盟所能真正利用的用户行为数据还是以浏览记录、点击行为为主来进行分析,举个例子,如果一个用户浏览了一件商品最终却没有购买,那么广告联盟通过端口识别到这个用户行为后,就会为该用户推送相关商品的广告。其实深究几类广告推送的方式,大致可以摸索到广告联盟投放广告的方式是通过抓取用户数据,从不同角度去描述用户画像,最终通过用户画像来进行广告投放,因此有些用户数据更丰富,算法更加先进的公司采取根据用户属性进行投放的方式。诸如UGC平台以及社交网站上存有大量的用户数据,从海量数据中提炼出典型特征给用户的身份属性打上标签,比如用户的职业、年龄、性别甚至联系方式等等,通过数据将用户归类到用户画像大类后,根据广告主的需求选择用户画像类别进行广告投放。2.3互联网广告作弊用户研究现状在互联网广告的生态链上,主要有三个角色:广告主、平台以及媒体。除了作为监管者的平台,广告主和媒体都有动机去进行作弊行为:对于媒体而言,数据的造假、或者是一些违规的广告形式都可以让媒体的受益暴涨,同时也可以提升媒体自身在广告主群体中的地位;而对于广告主来说,虽然一些虚假的流量\行为会导致广告预算的浪费,但是对于广告主企业的广告投放专员来说,这也是完成KPI的重要途径之一。除开广告主和媒体两个角色以外,生态链上还有其他角色:比如版权方,很多版权方售出版权后,版权的收益就与广告投放量成正比了,因此版权方也有作弊的动机;DSP代理商一直通过代理广告赚取佣金来盈利,通过作弊行为快速消耗代理客户的广告资金,就可以快速的赚取佣金。通过动机推出可能作弊的角色后,我们还可以通过鉴别难度来将作弊用户分为三类。作弊门槛最低的初级作弊用户:该类用户一般是无组织的散户,可能是有作弊动机者的小号、以及媒体的周边人,之所以是初级作弊用户,是因为该类用户作弊手段落后,较容易鉴别,无组织、数量少、且对于反作弊的感知非常小,该群体的用户行为特征是单个用户点击量极大;同时用户点击事件非常集中。中级作弊用户:该类用户一般是作业作弊者或是众包软件的深度用户,比起初级作弊用户,中级作弊用户对于反作弊有着一定的感知,因此他们会有相对高明一些的作弊手段,作弊行为也更加隐蔽,用户行为特征以短时间内点击量不高、长时间连续性、有间隔的点击为主。而高级作弊用户一般是规模化、产业化的黑产团队,该类用户是三类作弊用户中数量最多的,同时也是技术手段最高、对反作弊策略反映最为灵敏的。该类用户的作弊手段具有多样性,无法单一地表述出来,高级作弊用户有共通的特征:作弊APP内用户在设备信息及曝光、点击和效果数据方面一致性和相似度非常高;高级作弊用户在APP维度上具有集中性,一个APP内要么不存在高级作弊用户,要么高级作弊用户极多。2.4互联网广告作弊手段研究现状目前互联网广告行业针对CPC结算方式的反作弊技术较为成熟,这里以针对CPC结算方式的反作弊技术为主进行介绍。互联网广告反作弊一般会在系统中提前输入反作弊策略,让系统可以作为第一层屏障过滤掉作弊用户,常见的几种反作弊策略有以下几种。针对低级作弊用户,反作弊组常常使用用户识别反作弊策略。当一个用户的行为特征贴合低级作弊用户的行为特征时,系统可以通过Id、Cookie等记录使用户们具有唯一性和可识别性,随后给这些用户行为特征异常的用户们打上作弊的标签。打完标签后该用户群体的点击等用户行为将不再被计入到最终的结算中。与用户识别反作弊策略相似的是IP反作弊策略。IP反作弊策略抓住了识别用户的核心数据——IP地址,通过IP锁定唯一用户,再重复用户识别反作弊策略的流程,进行打标签与数据过滤。值得注意的是较为谨慎的黑产组织可能通过VPN等等方式更改IP地址,为此该策略一般会将识别范围扩大到某一个IP号段(扩大识别范围后需要把学校、公司等公关IP放入白名单)。时间控制反作弊。广告联盟常常可以通过端口获取很多用户行为的详细时间数据,可以从多个角度来反映用户行为的真实性。最常使用的是行为间隔时间分析,系统或人为预先分析好一个正常用户的点击间隔时间,如果出现了点击间隔时间完全不接近正常用户点击间隔时间的用户行为,那么系统可以将其判定为作弊行为;此外还有曝光——时间差识别策略,我们在接收到一条广告后,通常都会先预览广告素材内容再点击广告详情,因此同行为间隔时间分析,系统预先设置好一个正常用户的曝光——点击时间差,偏离太多的用户行为直接被判为作弊。黑名单反作弊。黑名单反作弊策略是相当传统却又有效的作弊策略,在广告联盟反作弊中,实时反作弊系统和离线反作弊系统都可以输出黑名单,黑名单可以包含用户、应用、IP等纬度。黑名单输出后被装载在实时反作弊系统的策略链中,可以作为实时反作弊的强规则,一旦有请求命中了黑名单策略,则可以直接判定为作弊。黑名单反作弊不仅可以作为判定策略,还可以作为样本库,样本库丰富后可以给机器学习在广告联盟风控体系中的应用带来契机[20]。3广告联盟风控体系研究3.1反作弊团队工作流程某大厂广告平台部反作弊组的流程大致如下:图3-SEQ图\*ARABIC1反作弊组流程广告投放系统检测到广告的请求、曝光、点击等行为后,就会将后台收集到的数据反馈给反作弊组。反作弊组将从数据和广告样式两个方向进行排查。数据异常的请求将会被送到实时和离线两个风控系统中进行校验。实时系统已经搭载了不断更新的反作弊策略,可以再得到数据的第一时间判定该请求是否作弊;无法确认的请求会被送到离线风控系统中进行二次确认,离线风控系统中是根据某个广告位或是用户累计的异常数据,通过评分卡等形式进行作弊确认。目前的广告联盟风控体系中,人工排查与智能反作弊系统协作依然是主流结构。未来反作弊系统中的机器学习应用更加智能化后,人工排查所占的角色也会逐渐变小。3.2广告样式排查样式排查难度较低,但是目前主要还是由人工进行排查,个别广告联盟开发出了样式排查的机器审核算法,但目前的水平只能用作辅助。由于联盟每日投放的广告量级很高,因此出于对工作效率的考虑,你反作弊组常常采用先审后发与先发后审相结合的广告样式排查方法。先审后发是针对大部分广告主的普遍排查形式,尤其针对于医疗、旅游等高风险行业,广告主的素材在经过审核后才可以上线展示。图3-SEQ图\*ARABIC2先审后发先发后审就是先进行广告投放,投放一段时间后根据投放量来捞起部分广告进行复审。针对低风险行业或者是企业信誉较高的广告主,可能会采取此种模式。先发后审虽然能够节省人工排查的时间,极大地提高了广告投放效率,让大客户的广告素材能更快地上线展示,但同时也存在着一定的风险,在机器审核逐渐成熟后,可以将流程优化为机审通过后进行广告分发,曝光量到达某个规定值后回捞给人工样式排查。图SEQ图\*ARABIC3-3先发后审目前广告联盟为了节省人工成本,在先发后审的基础上进一步简化了样式排查的内容,国内的某头部广告联盟就把人工样式排查的范围缩减到了智能反作弊系统未能判定是否作弊的异常数据请求中。人工排查组只需要审查这些数据异常但暂时未被判定作弊的广告素材与样式,排除样式违规带来的数据异常即可。3.3风控系统需求背景在线风控系统的功能需求有:作为第一道屏障过滤异常的广告流量。保证流量真实的同时,尽可能的不影响正常的广告投放系统,避免异常流量浪费广告资源。功能可以主要分为两块,检测异常的数据,排除非真实流量;以及通过反作弊策略、黑名单、规则集与评分卡相结合的方式过滤作弊行为。离线风控系统的功能需求有:接受在线风控系统无法判断的流量,进行周期更长、统计更加全面的反作弊处理。主要功能同样是分为两块:保证最终广告结算中数据输入的公平性;以及确认作弊行为,记录这些作弊行为并从用户纬度产出黑名单策略,黑名单策略将成为在线实时风控系统的重要一环。此外,由于反作弊系统的最终目的是为了保证广告交易的公平性,因此反作弊系统在功能需求上不能仅仅针对数据、流量上的造假;一些影响到交易公平性的非作弊行为依然需要被消除(比如边缘区域误点等等)。3.4风控系统反作弊策略3.4.1实时反作弊系统策略实时反作弊系统作为风控体系的第一道屏障,相比于离线反作弊系统,实时反作弊系统的主要策略与规则更加的简单直接,判定过程也因此更加高效,能够在接收到很多单个广告流的同时,依据能实时得到的数据进行第一步作弊判定。先来梳理一下一个比较完整的广告流程:广告系统通过投放算法将广告主提供的素材下发到媒体的终端广告位上,如果是竞价广告的话则是媒体选择终端并对广告系统发出请求,得到广告素材下发至广告位;用户在浏览界面时刷到了广告位,因此产生了曝光行为;用户在浏览到广告后,出于兴趣或者是误点,产生了点击行为。综上,一个较为完整的广告流程中,共包含了投放、曝光与点击三个主要的用户行为因素。根据这一结论,可以先得出几个简单高效的反作弊策略:(1)曝光、点击异常广告系统完成广告投放时,会将该条广告的数据缓存到Redis中,实时反作弊接收到广告的曝光或者点击行为后,将会从Redis读取该广告的数据,若没有读取到符合的投放记录,则会判断为作弊。(2)广告点击、曝光时间差异常当模拟器模拟的用户行为不够真实时,又或是遇到了作弊用户分类中的低级作弊用户;用户行为特征上就会凸显出广告从曝光到点击的时间差过短,远远低于一个自然人正常浏览广告的点击时间差;当然这种情况也可能是由于误点导致的,但在目前的移动广告市场上,误点也常常被视作无效的点击行为,因此根据点击时间差来判断用户行为的真实性其实还算公平。此外,还会有离线反作弊系统回馈给实时反作弊的黑名单机制。当某个用户或是某个媒体被确认为作弊后,实时反作弊系统的黑名单机制就会从用户IP、应用、媒体本身等纬度上进行作弊者的封禁。不仅仅数据可以被用来进行反作弊判定,还有一些图表可以直观甚至直接地反映用户的真实性。热力图就是实时反作弊中的重要图表之一,热力图把手机屏幕当作一个坐标轴,而将用户的点击行为轨迹通过点的形式体现在坐标轴上,点数越密集的地方颜色就会越深。通过热力图坐标轴的颜色分布,系统就可以图像识别技术进行作弊确认(当然目前热力图也可能由运营组进行人工识别)。但是由于目前广告样式以及素材的多样性,运营员工可以根据广告素材结合热力图进行判定,因此人工识别的准确率暂时还是高于机器识别。如下图中的两个大图广告,广告素材中都要具有诱导点击性的按钮元素,因此用户点击性集中于按钮附近。而异常的热力图则由于非真实的点击行为,呈现出了异常的分布,具有很明显的几何特征。目前热力图来判定作弊仍然是通过人工审核,因为热力图完全应用到反作弊系统中的时间不长,暂时没有足够的样本用来建立模型库,在未来模型库成熟后,机器学习被应用到热力图判定中将极大提升效率。图3-4即为两个无作弊广告位的热力图。通过图可以清晰地看见,两个广告位的热力图都没有呈现过于分散的分布或是过于明显的几何特征;同时点击较为密集的部分正好符合按钮在素材中的大致位置,根据热力图可以判定这两个广告位并没有作弊;图3-5则是典型的作弊广告位点击热力图。热力图呈现非常明显的几何形状,在几个分散的集中点外再无其它点击,不可能为正常自然人用户的点击行为。即使不用参考广告位具体素材,也可以判断为广告位作弊。图3-4正常热力图图3-5异常热力图黑名单是实时反作弊系统中的重要功能,也是提高实施反作弊系统运行效率的重要因素之一,与之相对的,白名单功能同样也是提高系统运行效率的优化方案,黑名单与白名单都可以从用户、IP、应用等维度将一个请求排除到策略链条之外。白名单和先发后审机制一样,主要应用于平台方的长期合作伙伴、以及企业信誉优秀的大客户们。白名单机制有效减少了非必要的请求判定,优化了实施反作弊系统的运行效率。一般会将白名单机制放在实时反作弊系统策略链条的头部位置,好让没必要接受检查的请求能够尽快脱离策略链条。3.4.2离线反作弊系统策略相比于实时反作弊系统简单高效的反作弊规则,离线反作弊系统涉及到了一个较长周期内的持续统计,以及更加复杂的判定策略;同时离线反作弊系统也更加依赖人工巡查的辅助。针对数据的风控策略,离线反作弊系统的规则可以根据数据来源的不同将策略分为四个大类。(1)APP基础信息。主要以APP层级展现媒体查询当天的基础数据,代表性的数据有过滤比例(原始点击-有效点击)/原始点击、ctr(有效点击/有效曝光)、消耗等等。诸如过滤比例以及ctr都是非常直观的数据,因为两个数据都是基于实时反作弊系统清洗后数据的一个直观统计,过滤比例高的APP毫无疑问存在着极高比例的作弊行为;而消耗则需要跟大盘进行比较,如果消耗出现异常的峰值,则需要配合人工进行原因排查。表3-1基础数据策略基础数据CTR、CPM高于大盘3-5倍为异常,高于大盘5-10为倍高度异常过滤比例高于大盘2倍为异常,高于70%为高度异常曝光用户点击比例高于50%为异常,高于80%为高度异常用户平均点击次数高于10为异常,高于20为高度异常热点图点击坐标分布呈现规律图形、单点集中、均匀分散初步结论均确认作弊(2)设备层数据。设备本身带有的数据,或是应用终端在设备上留存的数据。最具代表性的数据为曝光/点击地域一致性。曝光/地域一致性不仅可以通过和大盘相比来进行判定,两者还可以横向比较,或者长期统计两者的差值,将每个周期的差值与差值大盘相比较。此外,与供应厂商联系紧密的广告联盟可以拿到无图标应用安装的数据检测,无图标占比也是非常直观的一种判断数据。之前归纳的作弊用户分类中,模拟器作弊一直是中高级作弊用户的常用手段之一,根据设备的CPU型号(模拟器的设备型号一般是X86)、较为密集的IP号段,以及与正常用户相差较大的文件系统类型差异度,可以大致判定出有多少比例的设备为模拟器。具备大致判定模拟器的条件后,模拟器设备占比将成为一个很直观体现作弊比例的数据。表3-2设备层数据策略曝光地域一致性低于40%为异常,低于20%为极度异常点击地域一致性低于40%为异常,低于20%为极度异常无图标检测高于20%为异常,高于50%为高度异常,高于80%为极度异常需考虑厂商媒体、快应用媒体的影响模拟器检测高于20%为异常,高于50%为高度异常,高于80%为极度异常(3)行为层数据。广告联盟通过在媒体应用终端嵌入的端口可以捕捉到许多用户行为。一般被用于判定作弊的数据是点击时间分布,点击波动规律、点击峰值时间异常均为异常。值得注意的一点:点击时间分布不适用于与大盘直接相比的传统方法;需考虑媒体类型影响:如公交出行类集中在早晚高峰等等。表3-3行为层数据策略行为层点击时间分布点击波动规律、点击峰值时间异常均为异常需考虑媒体类型影响:如公交出行类集中在早晚高峰等曝光点击时间差分布与同广告位类型的大盘分布对比不一致为异常点击激活时间差分布与大盘分布对比不一致为异常(4)效果层数据。因为市场上出现了许多诸如CPA一般,以某个特定用户行为来收费的结算方式,因此下载率、激活率、注册率、留存率甚至付费等等可能被用来代表某个用户行为的数据有被掺水的可能。表3-4效果层数据策略效果层下载类:激活率、注册率、留存率、付费率高于/低于大盘3-5倍为异常,高于/低于大盘5-10为倍高度异常需区分媒体类型、广告位类型外链类转化:下单率、表单预约率高于/低于大盘3-5倍为异常,高于/低于大盘5-10为倍高度异常需区分媒体类型、广告位类型
综上,通过数据来源与数据类型将各类数据/图表分为四个大类,并且针对不同的数据指标制定不同的策略。由于判定一条广告作弊所涉及到到的指标较多,所以将规则区分为强规则与弱规则。若命中强规则则直接判定确认作弊,强规则集判定完毕后在交由弱规则集进行判定;弱规则集则需要组合多个指标进行确认。具体设计如下。表3-5强弱规则设计确认作弊点击热力图呈现单点集中、均匀分散、规律图形;点击热力图与素材热力图分布无区分度地域一致性低于一定比例自动点击高于一定比例模拟器点击高于一定比例疑似作弊触发两条及以上极度异常指标触发一条极度异常指标+任意一条高度异常指标触发一条极度异常指标触发两条高度异常指标触发一条高度异常指标+任意一条异常指标触发三条异常指标通过设计强规则与弱规则组合的作弊判定方法,可以有效优化风控系统的工作效率。3.4.3防误点策略反作弊系统不仅要针对作弊用户,为了保证广告交易的公平性,反作弊系统还需要消除非作弊行为带来的误差。19年的数据,所有移动广告的点击中有约30%为用户误操作造成,为了保障平台变现的准确性,因此需要对与各类误点有过滤策略。误点有两个主要的类型:边缘点击和关闭按钮点击。边缘点击发生在广告和APP内容交互的连接处,用户在APP页内容操作时误点广告。这类误点的过滤策略很简单,过滤掉交互区域连接处的点击即可。关闭按钮点击:广告带关闭按钮,用户误点集中在关闭按钮附近。可以考虑移动手机适配的因素采用模型识别不同机型同一广告关闭按钮的大小、位置,分别进行过滤。4风控系统反作弊功能设计4.1SDK接口配置虽然广告投放流程不一定要通过联盟平台方提供的端口,但是为了在反作弊判定时,智能反作弊系统可以抓取到更完整的请求,并从请求中获得完整并且无造假的数据,联盟在每个应用中添加自主的SDK端口依然是非常有必要的。目前的SDK端口一般放在Android端的应用上,因为IOS端系统的封闭性,目前的作弊行为基本存在于Android端,同时联盟平台方也没有足够的权限在IOS端布置自己的SDK接口。以字节跳动旗下广告联盟穿山甲的SDK端口接入为例,下载穿山甲官方的SDK包并将其添加至应用的ApplicationModule/libs文件夹中,并在应用App中添加如下代码:repositories{flatDir{dirs'libs'}}depedencies{compile(name:'open_ad_sdk',ext:‘aar')}代码添加后,SDK的基本导入就已经完成了,添加权限并且在Application#onCreate()中调用穿山甲官方提供的初始化配置类代码,即可完成SDK的初级配置。完成以上步骤的SDK端口虽然没有广告投放的功能,但是已经使平台方能更好地监管应用收到的请求。SDK接口配置好后,通过获取设备信息并组合成json格式,经过加密算法生成唯一的ID值,然后存放在本地并且返回给平台方。:4.2实时反作弊系统设计上文提到过,实时反作弊系统的规则简单而高效,并且以强规则为主,因此实时反作弊系统常常呈链条装。通过ICE端口接收到请求后,请求在反作弊规则组成的链条中逐级接受反作弊判定,触发强规则的请求则直接被排除;只有通过反作弊规则链条上每一个反作弊规则的请求才会生效。代码的主要逻辑部分:publicclassAnticheatingRules{//反作弊规则、策略privateList<AbstractHandler>handlerList;//组合多种Handler实现对请求的处理publicvoidreload(){//周期性重载规则策略,并设置策略的设定}publicbooleananti(AdActionrequest){intisCheating=false;//转化request的形式使反作弊系统可以处理LogItemlog=LogItemConverter.parse(request);//初次核查if(!firstCheck(log)){isCheating=false;}else{//请求通过反作弊规则链条进行逐级判定isCheating=log.isCheating();}}publicclassClickTimerHandler{//设置策略时间间距为t小时privatestaticlongInterval=t*60*60*1000;publicvoidanti(LogItemlog){//当某个请求已被判定作弊时,则将其踢出策略规则链条if(log.isCheating)){{return;}//确认该Action是否为广告行为,若不是则取消判定if(!log.isAction()){return;}//通过Redis获取该行为的曝光时间LogItemExpose=Redis.get(log.getID());若曝光时间与点击时间的时间差大于大盘时间差,则判定为作弊if(Click.getTime()-Expose.getTime()>Interval){log.markCheating();}}}4.3热力图实现该部分主要展现在Python语言基础上利用pythonpyheatmap包绘制点击热力图的主要逻辑部分代码。(1)准备工作:载入pythonpyheatmap包,建立坐标轴。defplot_data(file):withopen(file,'a')asfa:data=fa.read().split('\n')x1=[]y1=[]data_test=[]forlineindata:line=line.strip().split()iflen(line)>3:x,y,z=line[1],line[2],line[0]ifz=='0':x1.append(int(x))y1.append(int(y))data_test.append([int(x),int(y)])file='log.pace'data=plot_data(file)(2)鼠标移动轨迹捕捉whileTrue:#print("PressCtrl-Ctoend")Width,Height=page.size()#读取屏幕大小#print(Width,Height)x,y=page.position()#捕捉鼠标移动位置print(x,y)(3)鼠标点击位置捕捉defonMouseEvent(click):print("Position:",click.Position)returnTruedefmain():hm=pyHook.HookManager()hm.HookKeyboard()hm.MouseAllButtonsDown=onMouseEventhm.MouseAllButtonsUp=onMouseEventhm.HookMouse()pythoncom.PumpMessages()if__name__=="__main__":main()4.4模拟器识别结合前文提到的模拟器作弊特征,模拟器作弊大致可以分为电脑端、手机软件以及脚本三种模拟方式。由于使用电脑端模拟器进行作弊时,作弊者可以通过VPN来切换IP地址,因此IP地址无法成为识别模拟器的关键因素;而通过手机软件进行模拟器作弊时,手机端模拟器可以更改设备唯一性标识,因此设备唯一性标识也无法用来判定是否为模拟器。综上,排除了几个判定方法后,反模拟器作弊手段可以整理为:(1)电脑端的手机模拟器的CPU基本显示为x86型号,而目前市面上的手机现有x86型号的CPU,因此可以识别CPU型号,排除所有CPU型号为x86的设备请求。Build.MODEL.contains("x86")android.os.Build.CPU_ABI.contains("x86")(2)由于电脑端的手机模拟器无法使用通话功能,因此可以通过判断一台设备是否可以打电话来间接判断该设备是否为模拟器,但该识别方式需要一定的用户权限来进行通话功能测试。Stringurl="tel:"+"1";Intentintent=newIntent();intent.setData(Uri.parse(url));intent.setAction(Intent.ACTION_DIAL);//跳转到通话界面并执行Intent来检查是否存在booleancanResolverIntent=intent.resolveActivity(context.getPackageManager())!=null;(3)通过是否存在传感器来判定是否为真机。智能手机为了适配各种APP的不同功能需求,都会装载如光传感器、温度传感器等,其中方向传感器作为切换屏幕的关键硬件,是安装率最高的几类传感器之一。*@returntrue为模拟器publicintnotHasLightSensorManager(Contextcontext){SensorManagersensorManager=(SensorManager)context.getSystemService(Context.SENSOR_SERVICE);Sensorsensor8=sensorManager.getDefaultSensor(Sensor.TYPE_Direction);//光if(null==sensor8){Log.i("","方向传感器判定为false");return0;}else{Log.i("","方向传感器判定为true");return1;}}5结论面对移动广告市场上猖狂的作弊行为,广告联盟平台方不断提升自身的反作弊水平,目前已经取得了卓越的成绩,针对CPC等较为简单的结算方式已经可以做到极高正确率的反作弊判定;同时也已经对于黑产组织的结构及运作方式、作弊方式有了深刻的理解。但是受制于机器学习在反作弊系统的应用仍然不够成熟,平台方的反作弊目前依旧要依托人工排查来运行。反作弊系统要发展到智能化的程度还有很长的一段路需要走。在当前体系设计的基础上,本文认为在反作弊策略以及运作机制上都仍有进步优化的空间:其中最重要的就是在积累大量的作弊数据后,平台方应当建立起足够丰富的样本库,通过机器学习极大提升风控系统的智能化程度,逐步减少人工排查辅助的角色。国内的搜索引擎反作弊体系已经相当成熟有效,其重要的原因之一就是搜索引擎在国内起步更早,相比于广告联盟,搜索引擎的反作弊体系具备更多的作弊样本,为模型训练提供更好的条件。本文主要是从反作弊团队的实际工作出发,以及各大广告联盟、论文给出的相关数据,对于目前市场上黑产组织的用户性质、运作方式及作弊手段进行了一个整体的介绍;同时也梳理了风控体系的运作机制,挖掘反作弊判定中的关键数据,同时设计了风控体系中的部分功能。但由于目前的抓包软件无法抓取到广告请求的详细数据,因此本文的实践难度较大;同时由于编程水平仍需加强,在功能设计上只能做到部分功能实现。参考文献互动通移动广告交易平台H[J].成功营销,2016(Z1):119.天佬.国内主流网络广告联盟评测[J].成功营销,2008(11):68-70.张艳.艾维邑动公司网络广告联盟平台的商业模式分析[D].华中师范大学,2018.丁汉青,杨雅,喻国明.2020中国互联网广告市场的十大特点与发展趋势——基于对《中国互联网广告数据报告(2020)》的分析[J].新闻界,2021(02):34-39.高扬.互联网违法广告如何规制[J].方圆,2020(24):60-63.刘晓.互联网媒体平台:数据造假“重灾区”[J].媒介,2017(4):33-37.PhilipEijlander.Possibilitiesandconstraintsintheuseofself-regulationandco-regulationinlegislativepolicy:ExperiencesintheNetherlands-lessonstobelearnedfortheEU?[J].ElectronicJournalofComparativeLaw,2005,9(1):102-114.MartySwant,TimCarmody.IsFacebookWinningtheBattleAgainstAdFraud?[J].Adweek,2018,3(4):4-5.谢旭阳.移动端互联网广告监管的建议[N].中国市场监管报,2020-09-08(003).陈宇.阿里妈妈商业模式研究[D].上海师范大学,2009.MRC.MRCViewableAdImpressionMeasurementGuidelines[R].America:MediaRatingCouncil,2014.FrankMcSher
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 2025昆明市公有房屋管理中心劳务派遣人员(2人)考前自测高频考点模拟试题(含答案详解)
- 2025年智能电能表及配件项目发展计划
- 2025年甘肃省兰州市西北师范大学诚聘海内外高层次人才模拟试卷及答案详解一套
- 2025年饮料罐铝板项目发展计划
- 2025广西南宁市消防救援支队政府专职消防员招聘3人模拟试卷完整参考答案详解
- 2025年福建省晋江晋文坊商业管理有限公司招聘4人模拟试卷及参考答案详解一套
- 2025年山东职业学院公开招聘人员(28名)考前自测高频考点模拟试题及完整答案详解一套
- 2025年证券经纪代理与营业部服务项目发展计划
- 2025年雅安市委组织部雅安市卫生健康委员会遴选公务员(参公人员)的5人模拟试卷及参考答案详解1套
- 2025昆明市滇池管理局引进高层次人才(1人)模拟试卷有完整答案详解
- 读后续写+小狗Deedo被留下陪伴小主人+讲义 高三英语二轮复习
- 麦肯锡的《问题分析与解决技巧》课件
- 加油站新进员工培训计划方案
- CJJ-T 135-2009 (2023年版) 透水水泥混凝土路面技术规程
- 武汉天河机场招聘笔试题及答案
- 湿陷性黄土湿陷量计算表
- 在课堂教学中寻找发展学生科学思维的生长点课件
- 因离婚给孩子申请改姓协议书
- 大众蔚揽保养手册
- 中共一大会址
- 01第一章-稻谷的加工汇总课件
评论
0/150
提交评论