广告营销大数据的分析方法与应用分析研究 市场营销专业_第1页
广告营销大数据的分析方法与应用分析研究 市场营销专业_第2页
广告营销大数据的分析方法与应用分析研究 市场营销专业_第3页
广告营销大数据的分析方法与应用分析研究 市场营销专业_第4页
广告营销大数据的分析方法与应用分析研究 市场营销专业_第5页
已阅读5页,还剩34页未读 继续免费阅读

付费下载

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

摘要随着科技的发展,广告行业也随之变化。从广告的媒介购买上来说,从传统的购买方式逐渐转向程序化购买这样更加科学精准的购买方式,但在现在这样的过渡时期,广告媒介代理公司仍旧面临着耗费大量的人力与物力在这样如果使用计算机就会迎刃而解的问题上。目前绝大部分广告方面的研究都专注于未来的程序化购买方面,而可以解决现在媒介公司所遇到问题的研究却少之又少。本研究建立了一个广告媒介的推荐系统。该系统通过专业数据公司提供的数据,利用时间序列预测技术,较为精准地预测手机端app的数据,再结合多维度的权威数据进行广告媒介的推荐。并经过实验证明,该系统有着较好的准确性和可信性。本研究为广告行业的去人工化、方便化、提供了一定的贡献,同时可以作为决策支持工具,对于媒介从业人员的工作(广告媒介选择)提供了相应的辅助。关键词:广告;时间序列预测算法;协同过滤算法;数据挖掘AnalysisandApplicationofBigDatainAdvertisementMarketingAbstractWiththedevelopmentofscienceandtechnology,theadvertisingindustryhaschanged.Intheadvertisingmediabuying,itchangesfromthetraditionalwaygraduallytotheprogrammaticpurchaseofsuchamorescientificandaccuratewayofpurchase,butinthistransitionalperiod,advertisingmediaagenciesstillfaceahugeamountofmanpowerandmaterialresourcesinthiswayiftheuseofcomputerswillbesolved.Atpresent,mostoftheresearchonadvertisingisfocusedonthefutureofprogrammaticpurchase,andalmostnoresearchcansolvetheproblemofmediacompanies.Thisstudyestablishedarecommendationsystemforadvertisingmedia.Basedonthedataprovidedbyprofessionaldatacompanies,thesystemusestimeseriespredictiontechnologytopredictthedataofmobilephone-endappmoreaccurately,andthencombinetheauthoritativedataofmulti-dimensionaltocarryontherecommendationofadvertisementmedium.Theexperimentalresultsshowthatthesystemhasgoodaccuracyandcredibility.Thisresearchprovidesacertaincontributionfortheadvertisingindustrytobeartificial,convenient,andcanbeusedasadecisionsupporttoolfortheworkofmediapractitioners(advertisingmediaselection)toprovideacorrespondingassistance.KeyWords:Advertisement;TimeSeriesPredictionMethod;CollaborativeFiltering;DataMining目录摘要 IAbstract II文献综述 11数据获取及预处理 111.1 APP表现数据 111.2 移动端广告点位刊例 111.3 移动端广告历史投放数据 121.4 广告主数据 121.5 数据预处理 132时间序列预测分析方法的研究 142.1时间序列数据挖掘 142.1.1数据挖掘基本概念 142.1.2数据挖掘的分类 142.1.3数据挖掘技术方法 152.2序列的平稳性 172.2.1特征统计量 172.2.2严平稳和宽平稳 172.2.3平稳时间序列的统计性质 182.2.4纯随机序列 192.3延迟算子 192.3.1延迟算子的定义 192.3.2延迟算子的性质 192.3.3用延迟算子表示差分运算 202.4ARMA模型结构 202.5ARIMA模型结构 203.推荐系统的研究 223.1相似度计算 223.2 协同过滤推荐技术 233.2.1 基于用户的协同过滤 233.2.2 基于项目的协同过滤 254.2.3两种算法各自的适用场景 261.1 冷启动问题 274.推荐系统的设计与实现 284.1ARIMA模型预测app的每月日均独立设备数 284.2 推荐系统算法设计 294.2.1 广告主之间相似度计算 294.2.2 推荐参数的三种情况 29结论 30参考文献 31附录A:时间序列预测算法 32致谢 38文献综述广告,是从商品的起源就开始存在。最早的广告是在古希腊被发现的,当时的广告大都还是通过口头传播,“酒香也怕巷子深”就证明了这一点,即便商品优质但也需要广告的宣传才能被更多的消费者和潜在消费者所了解,进而产生消费行为。随着工业革命的到来,丰富了媒介的种类,15到16世纪的欧洲开始广泛运用印刷术,出版业日益发展,真正的现代广告终于出现,报纸成为广告的重要媒介之一。20世纪电视诞生,电视节目越来越成熟,广告也将眼光放到电视上投放,1941年7月1日晚2点29分就是历史的时刻,在那一刻,世界第一支电视广告诞生,它是由宝路华钟表公司投放在纽约市全国广播公司旗下的电视台,虽然广告内容简单,只有一句话“美国以宝路华时间运行!”而且时间也只有十秒钟,但却具有划时代的意义。从那时就可以看出,广告是随着媒介的变化而不断追赶时代进行变化的。互联网的出现更加速了时代的变化,广告不再只是存在于报纸、广播、电视以及户外广告牌(一般存在于公交站、机场、商场等人群聚集的地方)等传统媒介上面,而是逐渐将重心转移到PC端以及移动端。而根据行业数据报告显示,移动端势头更加迅猛,早在2014年时,数字广告市场份额超过电视占比35%[1]。2016年中国移动广告市场规模就已经突破千亿元。个中原因比较容易理解,一是由于现代人越发沉迷于手机,通过手机进行工作联络的人日益增加,各种各样令人眼花缭乱的app更是占据着现代人的生活时间。根据2017年德国数据统计显示,中国人每天在智能手机上花费的时间超过3小时,一跃成为全球第二,仅次于巴西。二是,移动端上的广告形式更加多种多样,容易与用户进行互动,让其易于接受,促进消费行为。除了app开屏广告、视频信息流等较常规的之外,出现了更多的广告媒介来传播软性广告。近年来,软性广告也是广告主更加喜爱的广告形式,较多广告主都会将大部分资金用于此。例如,微信公众号推文中的软性广告植入,哔哩哔哩视频网站中的UP主(此网站将原创内容产出者称为UP主)通过将品牌元素融入自己的舞蹈视频(但不限于此)赚取广告费用。广告的效果一直以来都是这个行业比较难以用经验来概括总结出必胜法的,一般依靠资深广告人多年的经验以及沉淀出来的“直觉”判定一个广告是否可以“火”,是否会成为爆款。现在由于互联网的崛起,广告人更喜欢用数据来证明他们的观点,支持他们智慧凝结成的推广方案,但依旧不一定会奏效。用一句形象的话来概括就是“以往的广告是大家闭着眼睛憋几个月靠直觉赌命,现在的广告则更适宜于睁着眼睛看着数字持续赌。”那么,是否这些广告的投放是没有意义的呢?答案必然是否定的。广告的作用机制是,告知、说服、提醒、强化。广告投放给非消费者或者非受众,旨在培养品牌或者产品的知名度。对于真正的受众,目的才在于培养美誉度和忠诚度。因此,即便仅仅只是增加曝光度让更多人看到,依旧可以起到很大的作用,对于成熟的品牌和产品来说,这是必不可少的资金投放项目。一支广告从产生到映入消费者的眼帘,一般分为三个环节:策略、创意和制作、媒介投放。由于我在广告媒介公司实习并于毕业后任职,对此有相对丰富的经验和更大的兴趣,因而此篇论文仅讨论广告的媒介投放方面。2017年是媒介公司遇到危机最大的一年,正在被咨询公司和广告主的市场部两头夹击。在苏铭天爵士的年度报告中就有提及此事。全球第一大的广告集团WPP集团,在去年一年中与战略咨询公司面对面抢夺业务多达80次,而广告公司获胜的概率却只有62.5%,可以明显感受到咨询公司的势头迅猛。广告主方面的市场部也想从中分一杯羹,很多市场部开始直接联系媒体进行广告投放。由此可见,广告媒介公司不得不不断提高其专业度才可能不在这场没有硝烟的战争中惜败。但广告媒介公司的劲敌远远不止这些,网易、爱奇艺等知名互联网公司坐在其所在行业的第一把交椅,但并没有满足于此,他们有着自己的广告团队,所做出的爆款刷屏广告不胜枚举。例如,“网易云音乐红色乐评列车”、“入职半个月,网易爸爸让我怀疑人生”、“寻找梦想的旅程”等等。除了已有很大规模的媒体之外,自媒体更是层出不穷,并且散布在各个社交平台上,微信公众号上有咪蒙、新世相这样千万粉丝的大号、新浪微博上有带货的明星和各有绝招的各路网红,更有连续下载排行第一名的抖音这样的短视频app上迅速蹿红的KOL们。正是散布在各个平台的意见领袖们形成了坚实的自媒体矩阵,其中蕴含的能量不能小视。因此,广告媒介公司腹背受敌,不仅需要提升专业度,更要提高在硬广告的媒介上的选择速度才能在不增加资金花费的情况下有更加充沛的精力投入到广告媒介的创新化以及软性广告的合作上来。根据我近半年来在一家国际知名的广告媒介公司实习的经历来看,app的硬广告投放占据其移动端广告投放经费的绝大部分,比如,新浪微博的开屏广告、腾讯新闻的视频信息流和微信的朋友圈广告等等。作为移动端媒介策划团队的一员,我认为,在媒介的选择上许多可以用分析大数据来实现的地方。互联网飞速发展,app数量也以指数式增长,如果仅凭借媒介策划人员日常的信息获取及之前媒介投放的经验做出判断,开始变得越来越不奏效了。互联网发展的另一个产物是,利用编程解决的问题也越来越多,不妨借鉴知名电商网站亚马逊成熟的推荐系统的思路,通过数据分析来推荐媒介给代理公司的媒介策划人员,解决存在的问题。从应用上来看,在广告行业目前的绝大多数与大数据相关的应用都是面对广告主的,针对代理公司的解决方案几乎是空白。许多学者关注的方向在于近年来十分热门的程序化购买。这是从2012年开始逐渐兴起的一种新型广告投放方法,以自动化系统和数据为基础来进行。程序化购买是一种解放人力的广告投放方式,传统的媒介购买业务通常是由人工完成,需要先做出媒介策略才能确认媒介购买的价格,在保证ROI的前提下,谈判进行交涉获得最好的价格。而在程序化购买中有多种交易模式,通常分RTB与non-RTB模式即通过实时竞价的方式来进行广告位购买,而non-RTB则可同时结合实时竞价与预留广告位的方式来进行媒介购买,同时具备了程序化购买与传统媒介购买方式的优势。[2]程序化购买具有很大价值,一为可以统一管理所有跨屏、跨渠道的媒体购买,二是能够综合分析并管理多方数据,以便在广告投放中控制频次、定向人群,获得更好的广告效果。三是不仅可以实时竞价、实时投放还可以实时监测,有助于广告主及时转变投放策略,减少损失。但从程序化购买的出现到今天,已经过去了六年,虽然这是非常有发展的一种广告投放方式,但在普及的路上会遇到很多阻碍。程序化购买目前所遇到的障碍是,对媒介代理公司专业价值、整合价值,总体的收费模式,组织架构,人员构成的挑战,并且百度、阿里巴巴、淘宝这样拥有大数据的公司还没有开始进行数据共享也给程序化购买的数据方面造成了一定的阻碍。就目前市场现状来看,大部分在BAT等大体量互联网公司进行程序化购买投放的广告主是中小型企业。大客户一般还没有将大量资金投入于此,而是选择继续在以往的媒介代理公司进行广告投放。因此即便目前程序化购买这个概念被炒得火热,但传统媒介投放方式还是具有很大的应用空间,具有不能小觑的市场份额。再看现在关于广告投放的研究,知网上几乎百分之九十九的内容都是与程序化购买有关,但关于传统媒介投放方式的优化方面还存在很大的空白,这样的研究可以在未来几年,传统媒介投放方式与程序化购买的过度时期来使用,依然具有很高价值。再说一下本文将会用到的时间序列分析预测方法和推荐系统目前的应用领域。在自然科学和社会科学各研究领域中,大量决策问题都离不开预测,预测是决策的基础。人们对事物的了解仅限于观测数据,即时间序列,因此只能利用现有的历史数据构造模型,进而预测未来。[3]除这两个领域以外,基于时间序列的分析预测方法还应用于经济金融领域,如基于灰色-ARIMA的金融时间序列智能混合预测研究[4],和医疗领域,如ARIMA模型在我国梅毒发病率预测中的应用[5]。而很少会应用于APP活跃度的预测方向,可以查到最近最相似的文献为发表于2015年的基于季节性ARIMA模型的移动APP用户活跃度分析[6]——以利市软件为例,这是以季节为主要的评估维度使用ARIMA模型进行的预测,而我将应用于日常的APP活跃度预测,再将预测结果作为媒介广告投放选择的其中一个参考依据,以获取更好的广告效果。急速发展的互联网使得人们享受到信息获取的便利,同时也带来了问题,信息过载即人们对信息的接受、处理和有效利用能力远远赶不上时代发展的速度和信息膨胀的速度。推荐系统应运而生,它是一种重要的信息过滤技术。通过对用户的兴趣与偏好的研究,利用一定的算法规则,发现用户的个性化需求并主动地为用户推荐信息和内容,从而有效地缓解信息过载的问题。[7]推荐系统的任务是将用户和信息巧妙地联系在一起,帮助用户寻找到对自己有用的信息的同时也能让信息展现在对它感兴趣的用户面前,这样实现信息消费者和信息产生者的双赢。它不仅可以在信息消费者有明确需求时更得心应手地应对信息过载,更可以在没有明确需求的时候让信息消费者避免手足无措的尴尬局面。一般推荐系统有三种,社会化推荐(socialrecommendation)、基于内容的推荐(content-basedfiltering)和基于协同过滤(collaborativefiltering)的推荐。说到个性化推荐的应用,浮现在脑海中有很多常用app和网站的不同种推荐方式。比如应用最为广泛的领域——电子商务,最开始进行个性化推荐也是经常被学者作为案例来进行分析学习的美国最大的网络电子商务公司亚马逊的推荐系统,被RWW(读写网)称为“推荐系统之王”。在各个类别产品中均有应用,但最主要的是个性化商品和相关商品的推荐列表。推荐方法一般有三种,第一种是基于用户的历史行为做出推荐,如若它给你推荐了一本安妮宝贝的小说,大都是因为你曾经在网站上留下过对文艺故事类的书正面的反馈。第二种是基于好友做出的推荐,按照脸书(Facebook)上好友在亚马逊上喜欢过的物品给你进行推荐。第三种是相关商品推荐,在所要购买的商品下方显示购买或者浏览过这件商品的其他用户经常购买的其他商品。这已经是电子商务平台很重要的组成部分,国内知名的电商平台淘宝网、京东商城等也纯熟地应用了这一技术。例如淘宝在首页最下方设置“猜你喜欢”板块,就是根据最近用户浏览或购买的物品种类或款式进行推荐,在付款结束购买之后,下方也会出现一些类似商品的推荐,在一定程度上方便了用户的消费行为,让找东西更加方便,也将商品推广给更多的人。图0.1淘宝“猜你喜欢”页面推荐系统在音乐、视频平台上应用也十分广泛,此类平台需要使用推荐系统的原因是,音乐和视频的种类实在是数不胜数而且一直以疯狂的速度进行增加,信息过载是用户无疑会面临的问题,并且有很大一部分用户只是把音乐当作背景音,只有很少一部分人有听某种特定歌曲的需求,对普通用户来说只要是符合自己心情的音乐便都可以。视频网站也是同理,观看视频作为一种消遣时间的娱乐活动,很多用户只是想放松心情随便看一些内容来消磨时光,并没有指定想要看的电视剧目或者综艺节目。在这中场景下,推荐系统就十分必要了。音乐推荐系统的出现能够为用户推荐可能喜欢的音乐,帮助用户快速的发现或者找到自己想要的歌曲。这种推荐服务能够为用户提供良好的使用体验,带来商业利益,因此音乐推荐领域也成为工业界和学者们重视的研究方向。[8]国内的主流音乐播放器,QQ音乐、网易云音乐、酷我音乐盒等均有应用这一技术,其中网易云音乐在每日推荐上经常被用户公开表扬其跳过率低以及被收藏率高,由此可见网易云音乐的推荐算法比其他会较复杂且了解用户心理。再说视频系统,最典型的例子就是美国视频网站Youtube,还有国内的几大视频网站巨头,例如腾讯视频、爱奇艺、优酷网、哔哩哔哩等。其推荐系统首先对采集到的用户数据进行一系列的预处理使其符合数据挖掘对于数据源的要求;然后使用改进后分类回归树将经过预处理后的数据源建立起用户的兴趣模型,从而挖掘出用户的个人偏好;最后将Item-based和User-based两种模型进行组合,两种模型的合理组合使两种模型在扬长避短的前提下实现了系统高效精准的推荐功能。[9]随着Web2.0的发展,不得不说社交网络完完全全融入人类生活的方方面面,人们把现实生活中的社交关系慢慢延伸到互联网,Facebook、Twitter类似这样的社交网站也因为这个原因而取得了相当大的成功。正如GiulianaCarullo[10]所叙述,例如,像Twitter这样的社交网络在线(OSN),他们越来越受到关注,因为无需任何先前的知识就可以用户之间建立了连接。这突出显示了许多OSN的主要功能之一:创建用户之间的关系。因此,找到提供有趣的友谊建议的新方法非常重要。然而,从计算资源的角度来看,挖掘和分析大型社交网络的数据可能变得至关重要。尤其在资源受限的移动设备用于访问社交网络服务的普遍访问环境中。为此,设计提供在移动云场景中运行的架构/解决方案至关重要。因此,我们提出了一种新的推荐系统方案,试图在利用已有的链接/关系和用户之间的兴趣亲和力之间寻找合适的权衡。正是因为社交网络中的用户的行为十分活跃,并且具有与其他互联网平台相比更丰富的用户行为(如评论好友、添加话题)等等,所以就包括了大量可供挖掘的信息。[11]因此个性化推荐也应用于各个社交网络之中,除刚提及的国外炙手可热的社交网络以外,国内的新浪微博和前些年红极一时的人人网都有类似的功能。通过新浪微博关注某位博主之后,系统会在该页面显示你可能会感兴趣的人。网络爬虫方式获得目标用户的二度好友的个人信息和微博信息,然后通过分析采集到的数据,并基于用户兴趣相似度、用户间的地理相似度和用户影响力这三种因素来综合地向目标用户进行好友推荐。[12]该系统的实现一般得益于爬虫技术、文本分析技术、以及协同过滤技术中的Top-N方法。在中国,算法已经成为国内资讯类app的“标配”。除了以上提及的推荐系统的应用方向之外,不得不说到基于个性化推荐的资讯类app,如今日头条、天天快报和一点咨询等。它们的出现引起了很大的争议,这一直是近年来新闻头条偏爱的话题,但必须承认它们划时代的重要作用。"今日头条"的个性化推荐机制是通过算法进行用户标签和内容标签之间的匹配,用户兴趣模型的建立主要依据用户在平台的阅读行为。[13]在《财经》的专访中,今日头条CEO张一鸣不断表示今日头条非媒体而是“平台”。技术时代,媒介不再仅仅充当人的工具和手段。与现代技术完美结合的媒介不仅摆脱了人,反过来以“座架”的方式规制人,塑造人,控制着人和人的生活方式。人成为媒介的延伸。[14]而与广告行业最为相关的莫过于个性化广告投放,即计算广告学。广告是绝大多数互联网公司的获利渠道和生存根本。广告推荐是帮助广告主或代理公司找到他们可能会感兴趣的用户。大体上分为三种,一是上下文广告,以谷歌Adsense为代表。在分析用户所浏览的网页内容后,在该网页上投放与之相关内容的广告。二是搜索广告,以百度为代表,通过分析用户搜索内容和目的来投放相应的广告。三是个性化展示广告,以雅虎为代表。现在我们所说到的推荐产品发展历程主要经历了如下的几个阶段。从较为简单的关联推荐过程过渡到个性化推荐、紧接着又逐步变为场景智能的推荐。从具有相关性、相似性的产品推荐变为多特征、多维度、用户实时行为、结合用户场景进行的全方位智能推荐。如下图所示,图0.2推荐产品发展历程图0.3推荐系统的业务架构推荐系统一般由三个部分构建组成,一是推荐系统算法,二是前台显示给用户的展示页面,三是存放在后台的日志。在推荐系统中最基本的算法就是基于邻域的算法,即协同过滤算法。它也是最古老的算法,1992年随着它的诞生,推荐系统随之诞生,最先被应用于邮件过滤。在2000年,推荐系统是被GroupLens推向另一个高度的,它是被应用于筛选新闻的系统,推荐用户最感兴趣的内容,而且具备开放性、规模性、隐秘性等等特性。图0.4推荐系统通用模型与基于内容的过滤算法不同,协同过滤算法是根据用户之前的行为产生的反馈,如浏览过的内容或者物品的喜欢与否,来获取到用户的兴趣爱好所在,再根据这些内容为用户提供其可能会需要的信息。协同过滤算法在当今非常流行,不论是商品还是视频音频,都能给用户进行准确有效的推荐。协同过滤算法[15]基于mahout的高校图书馆个性化图书推荐系统设计与实现主要分为两种,基于项目的协同过滤算法(itembased)和基于用户的协同过滤算法(userbased)。基于项目的协同过滤算法的原理是,一些用户对于项目的反馈上有相同的地方,而且在其他项目上的反馈也比较类似,那么一般就可以用靠近的思想来计算当前这位使用者对于还未反馈过的产品是否会做出正面的评价。协同过滤算法具有很多优点与存在的必然性,但虽然推荐系统自出现至今已经二十余年,其中还是有着许多需要改进和注意的地方。第一个是冷启动问题。[16]基于改进的个性化混合推荐算法的研究在项目和用户首次出现时,推荐系统的准确率会下降的问题。如果是基于内容的推荐算法,在用户没有评分的时候依旧可以根据内容来建立用户的兴趣偏好模型来进行推荐,但是协同过滤算法就存在这个问题了。在新的项目进入系统时,由于对这个新项目不甚了解以至于不能将这个项目准确推荐给用户。第二个是数据稀疏性问题。由于协同过滤算法主要是利用用户对项目的历史评价或者所做出的行为来进行计算,然后给用户做出推荐。理论是如此,但是在实际应用当中会遇见用户群庞大但是评分数据很少的情况,例如淘宝、京东等大型电商平台。由于这样的情况,就会产生用户-评分矩阵十分稀疏,在相似度计算上遇到困难而且耗时更长,准确率也会相应下降。第三个是可拓展性问题。推荐系统中的数据在随着时间流逝和业务发展而急速增长,那么如何让系统适应这样的需求进行快速更新模型就是目前面临的挑战。第四个是准确率与多样性。虽然现在的推荐系统可以一般程度上满足用户的需求,但推荐相似的项目有时候无法满足用户的个性化需求,也不能带给用户惊喜。因此还需要提升结果的多样性来改善这一问题。

1数据获取及预处理APP表现数据艾瑞资讯集团是于2002年成立、具有16年历史的有很高权威性的互联网公司。主营业务大概分为4部分,分别是iUserTracker(网民行为连续研究系统)、iAdTracker(网络广告监测分析系统)、iUserSurvey(网络用户调研分析服务)、iDataCenter(网络行业研究数据中心)等。在广告媒介公司,如WPP集团中的GroupM(即笔者目前所在的公司),通常使用艾瑞数据作为参考的数据来源,查看移动端APP排名、月独立设备数、单次使用时长等。因此,在本文中也使用艾瑞数据,具有权威性和可信性。图1.1艾瑞功能从实际状况来看,所需数据为所有app的平均日独立设备数,再由这些历史数据使用时间序列预测算法来得出下一个月的平均日独立设备数。进而使用这些数据,结合广告主之前的投放历史以及广告主的特点来进行推荐,这个推荐系统比仅仅看APP排名数据更加科学、精准。移动端广告点位刊例由于不同app的设计不同,硬广告点位的设置也不相同,除了比较软性的广告之外,一般分为以下几种:开机画面图(开屏):即在点击打开该app时出现的画面首页焦点图:在开机画面图之后,进入app时首页最上方最显眼的位置,但一般是该位置轮播的最后一个,并不是第一眼就可以看见的广告位。信息流:在位置上分为首页和其他频道,在同一页面上一般又分为第七条、第九条、第十四条等。根据内容的不同又可以分为静态图片、动态图片和视频信息流。再谈广告点位的购买方式,一般分为三种,CPD(CostPerDay)即广告再该点位展示一天所需收取的费用;CPM(CostPerMille)即展示的千人成本,每一千位用户看到该广告所需收取的费用;CPC(CostPerClick)即每一个广告点击媒体向广告主所收取的费用。一般按照CPM来购买的广告点位是首页焦点图和各式信息流广告,此类广告由于可以直接计算出一个广告被一位用户看到所需要的金额再结合此app的TA来进行选择,这相对来说是非常简单的。而一般按照CPD来售卖的开屏广告则不太一样,由于每个月每天的日独立设备数是不固定的,而贩卖的价格在一年之内或者一季度之内都是不变的,因此我们很难简单地计算出每一位用户看到该条广告所需的金额,就相对难以做出选择。所以,在本文中,我们主要讨论的就是该种情况。进而,我们所需要的数据是每个app开屏广告的刊例价格,这些数据是由我直接从媒体处获得的,具有很高的可信度。移动端广告历史投放数据广告媒介代理公司通常情况下,是负责多个广告主的媒介策划工作,并将方案予以执行。因此积累了各个行业各个规模的广告主媒介投放数据。在广告媒介投放时不仅仅要考虑价格,也要考虑之前广告主对投放的收益是否满意,由于现阶段还不能获取广告投放的效果数据,因此我们先通过广告投放的历史数据来间接了解投放效果,进而进行广告媒体的推荐。但是由于目前此类数据是公司机密还不能对外公布,因此,本文所使用的数据是根据真是数据进行模拟出来的数据,虽然不是真实数据,但也是具有很高的可信度的。广告主数据后续的推荐系统算法也需要对比广告主的相似度后进行广告点位的推荐,所以也需要收集广告主的相关数据,进行相似度的计算后再来进行精准的推荐。拟从以下十个维度来进行广告主的评价,所处行业、员工人数、注册时间、年销售额、产品种类、是否为外企、是否有分公司、业务覆盖地域、主要产品种类数量、是否上市。数据来源是由广告媒介公司获取的,拟取用其中20个公司的数据,并做脱敏处理,以免涉及到公司机密信息。除广告主本身性质以外,还取用其广告效果的数据。假定开屏广告均为可点击的,那么获取其点击率,即转化率,如果说曝光是为了提高广告主的知名度,那么转化率就可以表明由多少用户是对该产品感兴趣的,是该产品的潜在消费者。因此这也是一个非常有效的数据,从广告公司获取转化率的真实数据,进行模拟后脱敏处理,也是避免涉及到公司的机密信息,造成商业机密泄露。数据预处理本文所使用的app的月活数据和媒体公开的广告刊例价,均为真实数据。app广告投放历史数据是根据企业的真实投放数据进行模拟完成的。不论是数据的数量还是质量,都具有很高的可靠性。app的每月日平均独立设备数在艾瑞系统中运行出来之后,将完整Excel中的数据进行分割,分割成小的CSV格式进行运行。在获取到广告主的10个维度的基本资料之后,为了方便之后在推荐算法中使用,将每个维度的所表示的性质用二进制表示出来。App媒体给到的刊例价格是整体所有广告点位的集合,那么我们只需要将把按照CPD贩卖的广告点位价格提取出来,将186个app的价格都汇总在同一个Excel当中。

2时间序列预测分析方法的研究2.1时间序列数据挖掘2.1.1数据挖掘基本概念数据挖掘(DMDataMining),是从大量的数据中挖掘出隐含的、未知的、用户可能感兴趣或对决策有潜在价值的知识和规则。[16]正是这些规则,它包含了存在于数据库中的一组对象的关系,显示出一些潜在的有用信息,它可以为多方面提供相关依据,例如经营决策、市场规划、金融预测等方面。KDD(KnowledgeDiscoveryinDatabase)意为,在数据库中的知识发现,这也是数据挖掘的别称。这是近几年兴起的跨学科、从多门学科中吸取养分的随着人工智能发展而随之发展的新兴的数据库技术。多门学科中包括很多门类,例如人工智能、神经网络、数据库系统、数据可视化、知识获取、统计学、数据库技术和信息检索等。2.1.2数据挖掘的分类可以根据不同的角度进行分类:根据数据挖掘的类型进行分类:面向对象数据库、文本数据库、WEB数据挖掘、事物数据库、空间数据库、关系型数据库、文本数据库、对象-关系数据库和数据仓库,和多媒体数据库等。由于它们采用了不同的技术,而且都有着各自的特点,所以有助于我们了解研究对应数据类型的技术和算法。根据技术类型的实现方式进行分类:它们可以通过评测用户的互动行为的程度来进行描述。例如可以分为,查询驱动系统、自治系统、互动探索系统等。除此之外还可以按照采用了何种数据分析方式进行描述,例如面向数据仓库、模式识别、面向数据库、统计学、机器学习、神经网络、可视化等。通常来讲,复杂的用于数据挖掘的系统采用不止一种技术进行数据挖掘。按照数据挖掘的知识模型进行分类:概念描述、关联规则、分类/聚类及数据进化模型等。更进一步来讲,因为数据挖掘系统的知识层次不同,因此知识的表达方式也不尽相同。按照应用的特点进行分类:它应用的领域十分广泛,在金融、军事、商务等领域均有涉猎。当然了,在不同领域中,一般需要方法集成,按照不同领域来寻找不同的数据挖掘系统就更为实用。2.1.3数据挖掘技术方法数据挖掘中有许多常用的方法,其中包含以下几种:(1)关联分析这是一种从大量数据集中挖掘出有意义的关联性知识,它是非常实用的一种技术。若A是属性集,B是属性个体,那么它的基本思路是:A→B。在数据库列表里,A具有真值,而B作为个体有其可能值和趋势。其常用的形式有货蓝分析,度量的维度有两个,支持度和置信度。在现实生活中有许多应用的例子,零售行业里,可以分析客户在购买计算机之后有多少概率会进行打印机的购买?在制造业或者其他行业中,在发生事件A和B之后有多少概率发生事件C?关联规则能通过大量的数据中,(其中包括事件数据和关系数据),来挖掘出模式,尤其在零售、通讯等行业得到广泛应用。(2)决策树主要是通过数据的属性值来归纳进行分类,一般的方法是“if-then“规则。它最大的优点是便于理解,更为直观。而缺点是在进行复杂数据处理时,分支太多,不便于管理。除此之外还存在数据的缺值处理的问题。(3)遗传算法遗传算法是将生物学和计算机科学技术融合之后的产物,是基于生物进化的组合优化方法。在197年,美国密西根大学教授D.J.Holland和同事们第一次提出这个算法。根据生物界适者生存的原则,根据自然界生命进化的机制形成当前最适合的规则组成新群体及其后代。通过这一思想进行应用,获得合适的模型并对模型进行优化。遗传算法对问题信息要求较少,而且高效和灵活。此算法的优势在于数据聚类,在时间上和空间上的类比之后,将繁复的数据信息变得有条理和系统化,进而找出其内在联系,总结出概念与模型。其广泛应用于多种领域,如机器学习、模式识别等。(4)贝叶斯网络贝叶斯网络是在贝叶斯定理的基础上建立的,对数据进行统计处理方法。它通过网络把不确定时间连接在一起,对相关事件的结果进行预测,其网络变量可以隐藏也可以可见。它的优势在于便于理解,有很好的预测效果,而缺点在于如果事件发生的频率很低则预测效果不好。应用的领域大都在医学和制造业(5)粗燥集算法粗躁集方法作为一种新型数学工具,在1982年由波兰教授ZdziskewPawlak第一次提出,在数据挖掘中有着广泛的应用,经常用于在不确定性问题中发现不准确数据或噪声数据的内在数据模式。它的优点在于不需要数据的初始信息和附加信息。此方法的出现,提升了数据挖掘以及知识发现的效率。(6)神经网络这是起初由心理学家和精神生物学家提出的,将开发和测试神经的计算模拟作为主要目的,是常用的数据挖掘技术之一。它是类似于人类大脑的一种学习方法,先给出大量样本进行学习和训练,进而产生区分不同样品的各种特征和模式。神经网络最显著的特点在于,难以言述其具体运用的方法,也不能很容易地解释出使用了怎样的规则得出了怎样的结果。它的缺点在于需要长时间的训练才能得出想要的预测效果,然而优点在于预测地效果较好,对数据地噪声承受能力相对较高。该算法广泛应用在金融领域,用于股票预测等方面。(7)统计分析统计学和概率论是统计分析的主要理论基础,它是一种基于模型的较精确的挖掘技术。其中包括回归分析、因子分析和判别分析等。其优势在于描述结果较精确且易于理解。该方法在实际应用中比较广泛。

2.2序列的平稳性2.2.1特征统计量均值给定时间序列来说,当时其中为随机变量的概率分布,会有常数均值。(2.1)当t取遍所有的观察时刻时,我们就得到了一个均值函数序列方差当时,我们可以使用时间序列的方差函数来描述序列值围绕均值的随机波动程度。(2.2)当t取遍所有的观察时刻时,我们就得到了一个方差函数序列自协方差函数和自相关函数对于时间序列,任取,我们定义为序列的自协方差函数(2.3)定义为时间序列的自相关系数,简记为ACF。(2.4)同一时间序列在两个不同时期的相关程度可以使用自相关系数来度量,简单来说,就是度量序列的过去对现在的影响。2.2.2严平稳和宽平稳严平稳要求序列的所有统计性质相对于时间来说都是常量,这时才认为序列是平稳的。但是,这一条件在实际应用中很难得到满足。要求时间序列的统计性质,我们需要求得它的联合概率分布函数。对于时间序列,任取正整数,当QUOTEt1,t2,⋯,tm∈T时,对任意整数,其联合概率分布函数满足(2.5)时,我们才称时间序列为严平稳时间序列。然而,在解决实际问题的过程中,得到一个时间序列的联合概率分布函数难度很大,即使得到了联合概率分布函数,其计算和应用也存在着很多问题。也就是说,时间序列的严平稳并不具有实际意义,在实际问题中,我们通常使用宽平稳条件来代替判定时间序列的平稳性。宽平稳使用序列的低阶矩,来近似估计整体,采用时间序列的特征统计量来对其进行分析。如果一个时间序列满足: (1)任取QUOTEt∈T,有; (2)任取,有,为常数; (3)任取,且,有;我们就认为是宽平稳的。对于平稳序列,我们可以得到偏自相关系数的概念,我们去除中间k-1个随机变量,在没有这k-1个随机变量干扰的情况下,度量对的影响。用公式描述如下:(2.6)2.2.3平稳时间序列的统计性质平稳时间序列,一定具有两个重要的统计性质:常数均值(2.7)自协方差函数和自相关函数函数的值只依赖于时间间隔,与开始和结束的时刻无关(2.8)进而化简可得到(2.9)一般的,对于平稳时间序列,任取,我们称为时间序列的延迟k自协方差函数。(2.10)常数方差由公式(3.10),我们很容易就可以推导出平稳随机序列一定具有常数方差(2.11)由延迟k的自协方差函数的概念,我们可以等价地得到延迟k自相关系数的概念,(2.12)2.2.4纯随机序列如果时间序列具有如下性质:任取,有;任取,有(2.13)我们就说为纯随机序列,也称为白噪声序列。对于白噪声序列,有,也就是说,一个序列如果它的任意两点之间都不存在相关关系,序列在做完全无规律的随机波动。对于我们来说,如果我们能够判断一个时间序列是白噪声序列,就意味着它已经不包含任何有价值的信息了。2.3延迟算子2.3.1延迟算子的定义延迟算子是一种简化的运算表示,延迟算子的作用是将当前时间序列调整为滞后的观测时间序列。用来表示延迟算子,有2.3.2延迟算子的性质延迟算子有如下性质:若为任一常数,有对任意两个序列和,有,其中2.3.3用延迟算子表示差分运算(1)QUOTEp阶差分(2.14)(2)QUOTEp步差分(2.15)2.4ARMA模型结构我们将有如下结构的模型叫做自回归移动平均模型,简记为:(2.15)若,我们就可以得到中心化QUOTEARMAp,q模型,可以简写为:(2.16)2.5ARIMA模型结构虽然可解释性较低,但是差分是最简便、最好用的序列平稳化方法。差分可以提取出时间序列中的确定性信息,大部分非平稳序列经过适当阶数的差分运算后,就可以得到平稳时间序列,对于这样的时间序列,我们可以使用ARIMA模型进行分析建模。具有如下结构的模型称为求和自回归移动平均(AutoregressiveIntegratedMovingAverage)模型,简记为模型:(2.17)式中: ,为平稳可逆QUOTEARMAp,q模型的自回归系数多项式 ,为平稳可逆QUOTEARMAp,q模型的移动平滑系数多项式 可以简记为: (2.18)式中,为零均值白噪声序列。由ARIMA模型的定义可以看出,ARIMAQUOTEARIMA模型的实质就是结合了差分运算与ARMA模型拟合。对于一个非平稳序列,ARIMA模型的处理过程就是通过适当阶数的差分实现序列的平稳,然后对差分后的序列进行ARMA模型拟合。我们可以将阶差分后序列表示如下: (2.19)

3.推荐系统的研究3.1相似度计算推荐系统中最为广泛应用的技术是协同过滤技术。协同过滤推荐(CollaborativeFilteringrecommendation),是正在飞速发展的热门编程技术,处于数据过滤和信息推荐系统方面中。在推荐系统中最开始的步骤就是相似度的计算,通常有以下四种相似度计算方式。皮尔逊相关系数皮尔逊相关系数(Pearsoncorrelationcoefficient)的取值在-1和1之间,通常使用这一系数进行两个定距变量之间联系的紧密程度的计算。(3.1)欧几里得距离欧几里得距离(Euclideandistance),也被称为欧式距离。它是一种通常被采用的距离定义方式。它的意义是表示在m维空间中两个点之间的真实距离。在二维和三维空间中的欧氏距离标识的就是两点之间的距离。如公式4-2所示。(3.2)当用其表示相似度时,一般采用下面4-3公式。sim(x,y)=1/(1+d(x.y))(3.3)只有用户之间有一个及以上的共同评分才可以使用欧几里得距离进行相似度的计算,如果没有,那么意味着两者根本不相似,欧几里得距离便失去了作用。余弦相似度余弦相似度(CosineSimilarity),通过利用向量空间中两个向量夹角的余弦值作为衡量标准来比较两个个体之间差异大小。相比距离度量,余弦相似度更加注重两个向量在方向上的差异,而非距离或长度上。与欧几里德距离类似,基于余弦相似度的计算方法也是把用户的喜好作为n-维坐标系中的一个点,通过连接这个点与坐标系的原点构成一条直线(向量),两个用户之间的相似度值就是两条直线(向量)间夹角的余弦值。因为连接代表用户评分的点与原点的直线都会相交于原点,夹角越小代表两个用户越相似,夹角越大代表两个用户的相似度越小。同时在三角系数中,角的余弦值是在[-1,1]之间的,0度角的余弦值是1,180角的余弦值是-1。如下公式4-4所示,值越大表示夹角越大,那么两点的距离也就越远,就越不相似。通过计算余弦相似度,它对于绝对数值并不敏感,更多是从向量的方向上来进行区分。=(3.4)在这个原始公式的基础上,我们可以将其优化,来调整余弦相似度。比如说如下情况,用户A和B对某一物品的评分分别为(9,10)和(3,4),根据上述公式计算得出,两位用户的相似度很高,但实际上A更倾向于此物品,而B并没有很大的兴趣。因此我们应该想办法修正余弦相似度的不敏感性,来提升其性能,改进后的公式如下4.5:(3.5)Jaccard系数Jaccard系数(Jaccardsimilaritycoefficient),用于比较有限样本集之间的相似性与差异性。它的系数值越大,那么意味着样本相似度越高。这个系数是在数据集为二元变量时候引出的,只有0和1两种状态,这是一种可以表示两个数据集均为二元变量的相似度情况。具体如下公式4.6:J(A,B)=(|A∩B|)/(|A∪B|)=(|A∩B|)/(|A|+|B|-|A∩B|)(3.6)当两个集合都是空的时候,J(A,B)被定义为1。它的性质如下4.7:(3.7)以上四种相似度的计算方法各有优点也各有劣势,它们有着不同的使用范围,因此在选择相似度计算方法时应该根据具体的应用情况,所需的需求来进行选择。协同过滤推荐技术基于用户的协同过滤在基于用户的协同过滤算法当中,是通过研究用户的喜好,进而在用户群当中找出具有类似兴趣的用户,然后把这些用户的兴趣整合起来成为对某一类别物品的评判,再产生该系统对于这些物品的感兴趣程度的评判。跟传统的文本过滤方法相比,协同过滤有很多种优势,优势如下:(1) 能过滤那些类似于图书很难进行机器自主分析的数据。(2) 能根据具有繁杂数据结构的内容进行过滤(3) 有新颖性的特点。也是由于这个原因,协同过滤算法再商业的实践中取得了一定程度上的成就。例如很多的有名的大型电商网站都使用协同过滤算法来提高服务质量,增强用户体验。当然了,这个算法也具有一定的缺点 数据稀疏性问题 冷启动问题 由于用户和物品种类的增多,由于数据的剧烈增长会使系统运算能力减弱。基于用户(UserBased)的协同过滤算法是通过对用户的事物的不同打分,然后根据这些打分来进行用户之间相似程度的判断,再基于用户之间的相关性来判断他们之间的兴趣爱好后做出相应的推荐。它有一个特点是,对推荐对象没有要求,不仅可以适用于音乐、书籍这样非结构化的数据,同样可以对用户评分这样的结构化数据进行推荐。基于用户的协同推荐一般有三个步骤,主要包括,用户兴趣描述、近邻的选择和产生推荐。第一阶段,用户兴趣描述:一般可以用布尔值来表示用户对于物品的评价,例如可以用1表示用户对于该物品感兴趣,那么用0表示对该物品没有兴趣,几乎所有大型网站的用户都可以对自己观看过或者聆听过的电影、音乐进行评价,一个项目的得分越高则表示用户对其越感兴趣。第二阶段,近邻的选择:一般是指计算用户之间的相似度,计算相似的方法有很多种,例如在上一小节中提到的四种计算方法,例如皮尔逊相似度、欧几里得距离等方法。在根据具体的需求进行相似度计算方法选择之后,把相似度的大小进行排列,之后再选取N个相似的临近用户,抑或是用设定阈值的方法。举个例子,把相似度超过0.7的用户看成为近邻用户,然而设置阈值一般将会直接影响奥推荐项目的准确度。第三阶段,产生推荐:在计算之后得出目标用户的近邻用户,之后就可以用这些数据模型来进行目标用户还未进行评分的物品,然后进行推荐。在进行用户相似度的计算之后得出当前用户的N个近邻,通过近邻得出的相似值来对用户从来没有点评过的项目p来进行预测值的计算,具体如下公式4-8:p(u,i)=∑_(v∈S(u,K)∩N(i))▒〖w_uvr_vi〗(4-8)在这个公式中,S(u,K)表示,与u用户兴趣最为相近的K名用户的集合,而对物品i有过行为的用户集合用N(i)表示,使用w_uv表示u和v用户之间的相似度,表示v用户对物品i的评分则用r_vi表示。在以下示例中,我们假设,最终的目标用户与相邻用户在推荐的过程中几乎不产生变化,那么可以利用该算法根据之前的记录给用户推荐出他们可能会感兴趣的资料。如下图4-1所示,我们可根据用户A的行为判断出,如果用户C与其相似,那么根据用户C的行为推荐相应的项目给到用户A。图3.1基于用户的协同过滤算法基于项目的协同过滤基于项目(Item-based)的协同过滤是通过用户对于各种各样不同项目的评价来进行产品之间相似性的测评,这是根据项目的相似程度来进行推荐的。这种协同过滤算法是建立在一种猜想的基础上的,猜想如下:如若一些用户对某些产品的评价类似,那么通常情况下他们对于项目的评价都是类似的。因此基于这个猜想,我们可以筛选出重点项目来进行讨论,并且把这些项目与目标项目的近似度细化出来再选择相似度高的项目进行输出,这是与基于用户的协同过滤算法有所分别的部分。在进行基于项目的协同过滤算法时,一般可以分为两个阶段来进行,如下:第一阶段是,计算项目之间的相似度,项目特指的是已经被用户评分过和待检测项目。具体是找出项目i和j的用户评分情况,之后使用计算公式来进行相似度的计算。第二阶段是,在第一阶段之后可以得出都有哪些项目是与目标用户曾经有过评分的项目是相似的,在这个集合中进行一个排序,将排名在前面N个的项目给用户进行推荐。评分的计算公式如下4.9:p_uj=∑_(i∈N(u)∩S(j,k))▒〖w_jir_ui〗(3.9)其中,用户表示感兴趣的项目是由N(u)进行表示的,S(j,k)是与项目j相似度最高的k个项目的集合,w_ji表示的是项目j和项目i的相似度,r_ui表示的是用户根据感兴趣的程度进行对i项目的评分。图4-2基于项目的协同过滤推荐的原理如上图4-2所示,我们可以通过用户的兴趣记录发现,对项目A感兴趣的用户同样对项目C有很大的兴趣,那么我们可以得出结论,项目A和项目C的相似度很高,将用户C对A感兴趣来作为假设条件,那么可以把项目C推荐给用户C。4.2.3两种算法各自的适用场景通过上述两个小节内容的阐述,可以清楚地看出这两种算法的区别。基于用户的协同推荐算法是更加关注于生活化的理念,推荐给用户的兴趣所在关注点的项目。一般应用在新闻类的网站中,是因为新闻类网站的用户在兴趣爱好上的投入相对较大,感兴趣的内容涉猎一般比较广泛,再加上媒体不会经常性的报道大新闻。所以在新闻领域进行个性化推荐是十分有必要的了。个性化的新闻推荐不仅考虑到用户的兴趣所在,同时保障了新闻的热门程度和时效性。基于项目的协同推荐算法是根据用户的历史信息来进行相似事物的推荐的,关注点更多在于用户的个性化行为的分析方面。因此这个算法更多应用于其他网站中,例如类似于淘宝网的电商平台等非新闻类的网站。因为在这样的平台上,用户的兴趣一般是恒定不变的,而且相对于新闻网站来说,更好地凸显了个性化的特点。再从反面来看,由于存储上如果使用基于用户的协同过滤算法的话,则需要太多的空间复杂度,所以不适合。冷启动问题由于推荐系统都是需要用户和项目的过往数据来进行预测的,那么就会出现一个情况,就是在当新用户和新项目进入系统的时候,无法根据已有的数据来进行推荐的情况。冷启动问题(coldstart)一般有这么以下三种类型:用户冷启动,是指在新用户进入系统的时候,由于缺乏关于该用户的历史数据导致无法准确地预测他的兴趣所在,也就无法给他做出推荐。物品冷启动,是指在新的项目投入到推荐系统当中如何把它推荐给对它感兴趣的用户的。系统冷启动,主要是指在新开发的推荐系统中,还没有用户和用户行为,只包含了一些物品信息,在这样的情况下如何使得用户直接体验到个性化推荐的问题。那么一般基于以上几种问题的解决方案可以参考以下几种:提供非个性化的推荐,把人们推荐榜直接推给新用户,等到采集过用户数据之后再给出个性化的推荐。粗粒度个性化,在新用户注册的时候就要求用户提供性别年龄地域等数据。推荐好友感兴趣的内容,用户可以使用社交网络的账号进行该系统的登陆,那么可以推荐给用户他好友感兴趣的内容。反馈后推荐,在初次登陆的时候就要求用户进行对物品的兴趣程度进行反馈,之后系统就可以按照这样的信息来进行个性化推荐。

4.推荐系统的设计与实现根据第二章的数据介绍,如若是按照CPM或者CPC进行购买的广告,不论是广告媒介代理公司还是广告主都可以轻松地了解到获取到一个浏览量或者点击量的具体金额是多少,非常容易就可以辨别该广告点位的性价比高还是低。但如果是按照CPD购买,我们只能知道这一天的点位都归我们所有,但并不能清楚地了解到具体有多少用户看到我们所投放的广告或者是点击状况如何,那么这样的广告位就很难进行评估,我们无法用单一的数据来进行判断。正是由于这样的诉求才需要推荐系统的帮助。4.1ARIMA模型预测app的每月日均独立设备数搭建推荐系统的第一步就是判断具体有多少人可以看到这个广告,由于数据的局限性,我们只讨论手机端app的广告投放,并以月为单位,即假定广告都是至少要投放一个月,且按照整月计算。这样一来,我们从艾瑞获取得到的平均日独立设备数就是平均每天的广告浏览量,那么再结合刊例价格就可以得出每一浏览量所需的开销。那么我们目前的问题是,已知过去三年的每月平均日独立设备数,但要进行下一个月的广告投放,因此,我们可以先用在第三章提及的时间序列预测算法ARIMA进行预测。使用趋势图观察到app的每月日均独立设备数的趋势十分平稳,因此不需要进行差分,直接使用ARMA进行拟合。图5.1程序结果截图将每一个app过去三年的36个数据中,去除最近的三个数据作为对照,用过去的33个数据进行预测。186组app预测结束之后,平均准确率为88.09%,说明该算法可信度较高。推荐系统算法设计广告主之间相似度计算推荐系统建立的第一步是计算项目之间的相似度,已知广告主的10个维度,那么根据第三章中的欧几里得距离公式3.2,可以求得任意广告主A与B之间的相似度,如下:(4.1)推荐参数的三种情况结合前两小节中求得的结果,我们将预测出的媒体a下一个月的日平均独立设备数Sa和广告主A的广告转化率Ta的乘积RAa作为推荐参数,那么则可能会出现如下三种情况:广告主A在过去36个月中曾经投放过媒体a,且仅投放过一次,那么:RAa=SaTa(4.2)广告主A在过去36个月中曾经多次投放过媒体a,那么:我们采用广告主A在媒体a上最近的转化率Tar作为投放指标RAa=SaTar(4.3)广告主A从未投放过媒体a,但其他广告主曾有过投放经历,那么:我们通过之前其他广告主的投放历史数据作为广告主A的参考,这样可以解决该推荐系统的冷启动问题:RAa=Sa(D(A,B)T`)(4.4)

结论本文主要的研究内容为基于时间序列分析方法进行所投放移动端平台数据预测,以及根据预测结果、移动端媒体刊例价格、以往投放数据等进行的移动端媒体广告投放推荐系统。第一章着重于说明了目前广告行业的发展现状,以及互联网技术在广告行业中的应用情况,并根据现阶段广告媒介代理公司的状况提出了问题,如何帮助媒介人员更加准确快速地选择需要投放的app;第二章主要介绍数据的选择与获取过程以及数据的预处理部分,通过公众较为认可的渠道进行数据的采集;第三章主要介绍经典的时间序列分析方法,首先对时间序列模型的描述属性进行定义,然后分别对ARMA和ARIMA的模型结构进行介绍,并给出平稳时间序列建模的方法。第四章主要介绍经典的协同过滤算法,基于用户的协同过滤算法以及基于项目的协同过滤算法,并详述了相似度的计算方法以及如何应对推荐系统地冷启动问题;第五章主要介绍基于广告大数据的推荐系统平台的设计与实现。首先介绍系统的需求分析及各个功能模块的设计,最后给出系统的功能实现。首先通过多组数据的验证,说明了在app的平均日独立设备数上可以使用ARIMA算法进行未来数据的预测,并且偏差在可允许的范围内。然后构建了基于这个时间序列预测算法的面向广告媒介代理公司的推荐系统,并融合使用了广告主的多维度信息、媒介公司之前的投放数据、广告点击率和广告的媒体刊例价格等。构建系统之后,并使用两组数据进行验证,偏差程度亦在可接受的范围之内。通过建立该推荐系统,可以帮助广告媒介公司的媒介相关人员大大减少工作量,从现实生活的问题入手,协助其解决问题。除此之外,将会考虑到更多维度的数据,有助于帮助广告主做出更加明智的媒介选择。对于广告行业的工作有着意义,虽然只是在真正的广告程序化购买的广泛推广之前的阶段性胜利,但仍做出了微薄的贡献。

参考文献[1]TigerYang.程序化购买构建营销新生态[J].中国广告,2016,05:39-40.[2]龚恋雯.程序化购买对广告公司的影响研究[J].广告大观(理论版),2017,03:67-76.[3]张利.基于时间序列ARIMA模型的分析预测算法研究及系统实现[D].镇江:江苏大学计算机应用技术学院,2008.[4]罗洪奔.基于灰色-ARIMA的金融时间序列智能混合预测研究[J].财经理论与实践2014,(35):02,27-34.[5]王永斌,李时向文,柴峰等.ARIMA模型在我国梅毒发病率预测中的应用[J].现代预防医学,2015,(42):03,385-388+417.[6]佘宏俊,胡梦缘.基于季节性ARIMA模型的移动APP用户活跃度分析——以利市软件为例[J].中国经贸导刊,2015,05:51-54.[7]洪亮,任秋圜,梁树贤.国内电子商务网站推荐系统信息服务质量比较研究——以淘宝、京东、亚马逊为例[J].图书情报工作,2016,(60)23:97-110.[8]金蕾.个性化音乐推荐算法的研究与实现[D].济南:山东大学信息科学与工程学院,2017.[9]李姗姗.基于协同过滤的视频推荐系统设计[D].南京:南京邮电大学电子与通信工程学院,2017.[10]GiulianaCarullo,AnielloCastiglione,AlfredoDeSantis.Atriadicclosureandhomophily-basedrecommendationsystemforonlinesocialnetworks[J].WorldWideWeb,2015,Vol.18(6):1579-1601.[11]蔡孟松,李学明,尹衍腾.基于社交用户标签的混合top-N推荐方法[J].计算机应用研究,2013,(05):1309-1311+1344.[12]陈冲.基于新浪微博的好友推荐系统设计与实现[D].成都:西南交通大学软件工程,2017.[13]曹青青.以个性化推荐服务为特色的手机新闻客户端“今日头条”案例研究[D].北京:北京外国语大学国际新闻与传播学院,2017.[14]姜红,鲁曼.重塑“媒介”:行动者网络中的新闻“算法”[J].新闻记者,2017,04:26-32.[15]朱丽君.基于mahout的高校图书馆个性化图书推荐系统设计与实现[D].南昌:南昌大学信息工程学院,2017.[16]毛国君.数据挖掘原理与算法[M].北京:清华大学出版社,2007.

附录A:时间序列预测算法#-*-coding:utf-8-*-importpandasaspdfromstatsmodels.tsa.stattoolsimportadfullerimportstatsmodels.tsa.stattoolsasstimportnumpyasnpimportpyfluxaspfimportmatplotlib.pyplotaspltdaily_payment=pd.read_csv('C:\\Users\\Administrator\\Desktop\\1.csv',parse_dates=[0],index_col=0)classARIMA(object):def__init__(self,daily_payment,predict_size):self._data=daily_payment[daily_payment.columns[0]].replace(0,1)self._df=pd.DataFrame({'#Passengers':self._data})self._originalLength=len(self._df)#self._testPredictLength=self._originalLength*0.1self._testPredictLength=3self._predict_size=predict_sizedeftest_stationarity(self,timeseries):dftest=adfuller(timeseries,autolag='AIC')returndftest[1]defbest_diff(self,df,maxdiff=8):p_set={}foriinrange(0,maxdiff):temp=df.copy()#每次循环前,重置ifi==0:temp['diff']=temp[temp.columns[1]]else:temp['diff']=temp[temp.columns[1]].diff(i)temp=temp.drop(temp.iloc[:i].index)#差分后,前几行的数据会变成nan,所以删掉pvalue=self.test_stationarity(temp['diff'])p_set[i]=pvaluep_df=pd.DataFrame.from_dict(p_set,orient="index")p_df.columns=['p_value']i=0bestdiff=0whilei<len(p_df):ifp_df['p_value'][i]<0.05:bestdiff=ibreaki+=1returnbestdiffdefproduce_diffed_timeseries(self,df,diffn):ifdiffn!=0:df['diff']=df[df.columns[1]].apply(lambdax:float(x)).diff(diffn)else:df['diff']=df[df.columns[1]].apply(lambdax:float(x))df.dropna(inplace=True)#差分之后的nan去掉returndfdefchoose_order(self,ts,maxar,maxma):order=st.arma_order_select_ic(ts,maxar,maxma,ic=['aic','bic','hqic'])returnorder.bic_min_orderdefpredict_recover(self,ts,df,diffn):ifdiffn!=0:ts.iloc[0]=ts.iloc[0]+df['log'][-diffn]ts=ts.cumsum()#ts=np.exp(ts)#ts.dropna(inplace=True)print('还原完成')returntsdefvisual_data(self,train,test,test_predict):train_range=len(train)predict_range=len(test_predict)x=np.arange(0,predict_range,10)plt.figure(1)plt.subplot(211)plt.title("DATA-VISUALIZATION")plt.plot(train,label="$train_data$",color='b',linewidth=1)plt.subplot(212)plt.plot(test_predict,label="$PredictData$",color='r',marker='*',linewidth=1)plt.plot(test,label="$test$",color="lime",marker='+',linewidth=1)plt.legend()plt.show()defaccuracyRate_Func(self,test,test_predict,type_id=0):test_data=np.array(test)temp_data=np.array(test_predict)

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

最新文档

评论

0/150

提交评论