基于线性回归的网络节目收视率预测模型_第1页
基于线性回归的网络节目收视率预测模型_第2页
已阅读5页,还剩4页未读 继续免费阅读

付费下载

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、河北大学工商学院基于线性回归的网络节目收视率预测模型学部:管理学部学科门类:统计软件应用专业:电子商务学号:2013487021姓名:臧晨阳2015.12.20基于线性回归的网络节目收视率预测模型目录基于线性回归的网络节目收视率预测模型1前言2方法31. 假设32. 数据33. 相关性分析4表12014年河北地区各频道市场份额(Shr%)4表2时段5表3节目类型5表4变量之间的关系5表5回归分析结果16表6Modelsummary64. 回归6表7回归分析结果27表8新节目的收视预测及真实数据7结果7前言近年来,网络节目行业在中国发展迅猛。随着无线视频的延生与扩展,我国的观众目前可以收看到由芒

2、果视频、腾讯视频和其他媒体制作的很多个频道,数之不尽的节目。节目收视率,一般由第三方数据调研公司,通过电话、问卷调查、数据流量或其他方式抽样调查获得。收视率对于视频制作机构及广告商而言,是一个非常重要的数据。它是衡量受众群体规模的重要指南,是广告评估的基础参考数据之一,也是视频制作机构衡量节目取舍和调整的重要参数之一。视频收视率的竞争犹如一个巨大的竞技场,一方获利则意味着必有一方失利。机构的广告收入与观众规模的多少有直接的关联。视频机构的执行者将广告时间出售给广告客户,其价格大小的参考往往来自于对视频节目收视率的预测。由于大部分视频机构的广告推介往往提前于视频节目的播出,因此,对于视频机构而言

3、,获得一个预测收视率的方法是很必要的。需要说明的是:视频收视率与观众的地域性格有着非常重要的关系。不同地区的观众往往有着不同的收视习惯。因此,不同的视频节目往往在不同地区有着不同的收视率。本文收视率样本来自河北地区观众,因此建立的线性回归模型也仅适用于河北地区观众。文献回顾线性回归是利用数理统计中的回归分析,来确定两种或两种以上变量间相互依赖的定量关系的一种统立基于以下几个变量:广播网、时间段、一周播出次数、较前一段时间的收视率。Shachar和Emerson则合并了节目虚拟变量,演员资料和节目制作费用等。一些学者认为,线性回归模型可能过于简单,因此,从一定意义上说,线性回归不能代表那些变量间

4、的非线性关系”。也有一些文章认为“神经网络模型、决策树和回归模型”可能更适用于视频节目预测。但从笔者查阅的大部分文献来看,人们普遍认为,线性回归是预测视频节目收视率简单易行的方法之一。方法1. 假设在本文中,视频收视率作为一个因变量。基于上述参考文献和个人工作经验,一些自变量被挑选出来,调查其与视频收视率之间的关系。图1表明了下列假设的模型测试:H1(假设1):播出频道的市场份额。假设这一变量与收视率呈正相关。H2(假设2):时间段。假设这一变量与收视率与关联,与其播出于黄金时段与非黄金时段有关。H3(假设3):每周播出次数。假设这一变量与收视率呈正相关。H4(假设4):节目类型。假设这一变量

5、与收视率呈正相关。2. 数据(1)收视率(因变量)笔者从河北地区所能收看到的几套节目中,随机抽出了42个节目作为收视率数据样本他们分别来自腾讯视频、搜狐视频、优酷视频、爱奇艺视频、河北视频。根据网上某网站数据对这些视频的平均收视率做了全年跟踪。由于视频节目往往被列入视频机构的年度计划,因此我们设定一年为研究的时间周期。视频节目收视率指在某个时段收看某个视频节目的目标观众人数占总目标人群的比重,以百分比表示。本文中,我们将百分比的数据直接转化为数字表示。(2)频道的市场份额自变量之一第一个假设,测试频道市场份额对因变量的影响力。频道市场份额数据是由网络不完全统计出具,市场份额是根据去年这一频道的

6、整体观众规模大小决定的。市场份额(Shr%)是指特定时段内收看某一频道或某一节目的人数占同一时段所有收看视频的人数的百分比,也即是特定时段内某一频道的收视率占所有频道总收视率的百分比。该指标考察的是收看某一频道(节目)的人数占当时所有收看视频的人数,数值越大,表明该频道(节目)在该时段的市场竞争力就越强。2014年各样本相关频道的市场份额如表1所示,百分比数据转换为数字记录,如跑男节目在2014年在河北地区的市场份额为8.2%,被记录为8.2。(3)时间段(自变量之二)第二个假设,即假设节目播出的时间段将影响节目收视率。根据河北观众的收视习惯和时间段的重要性程度,将全天分为5个时间段如表2所示

7、。(4)每周播出次数(自变量之三)每周播出次数指节目样本每周在该频道中播出的次数。如河北新闻节目在每天播出,因此被登记为“7”。我们假设每周荧屏播出次数越高,收视率就越高。(5)节目类型(自变量之四)最后,节目类型也作为我们特殊关注的自变量之一。根据央视索福瑞提供的数据,最受河北地区观众欢迎的前九名节目类型分别为:视频剧、新闻、综艺节目、生活服务、专题片、电影、体育、法律财经。正如表3所示,我们将这九种类型的节目确定值定为3(最高)至1(最低)之间。3. 相关性分析首先,第一步,我们假设以上4个自变量对相关节目收视率产生影响,经过SPSS软件运算,相关性分析结果如表4。表4反映了因变量与自变量

8、之间的相关性程度。结果显示:因变量“收视率”与3个自变量:即“频道市场份额、每周播出次数、时间段”相关性显著。鉴于自变量“节目类型”和因变量收视率”之间的线性关系不明显,所以在回归模型中将其剔除。表12014年河北地区各频道市场份额(Shr%)节目名称市场份额值域宫锁连城8.2%8.2古剑奇谭2.4%2.4中国好声音14.7%14.7爸爸去哪4.3%4.3杉杉来了4.9%4.9奔跑吧兄弟5.1%5.1表2时段名称时间段值域描述黄金时段19:00-22:005这一时段拥有最广泛的观众群体,一般被视频网络和地方视频台视作广告收入的最主要来源时段次黄金时段18:00-19:0022:00-0:004

9、重要性次于黄金时段普通时段12:00-13:007:00-9:003重要性次于次黄金时段次普通时段9:00-12:0013:00-18:002重要性次于普通时段其余时段Theleft1全天剩下的各个时段表3节目类型节目类型值域视频剧、新闻、综艺节目3生活服务、专题片、电影2体育、法律财经1表4变量之间的关系相关性分析收视率频道市场份额每周播放节目类次数型时间段收视率相关分析1.627*.443*.117.318*频道市场份额相关分析1.349*-.055-.214每周播放次数相关分析1.199-.027节目类型相关分析1.024时间段相关分析1*.Correlationissignifican

10、tatthe0.01level(2-tailed).*.Correlationissignificantatthe0.05level(2-tailed)表5回归分析结果1回归系数表模型UnstandardizedCoefficientsStandardizedCoefficientstSig.BStd.ErrorBeta1(Constant)-3.331.667-4.995.000市场份额.231.037.6456.17.000每周播出次数.122.054.2302.246.031时间段.638.135.4624.712.000因变量:视频节目收视率表6ModelsummaryModelSum

11、maryModelRRSquare(拟合优度)AdjustedRSquare(调整后的R2)Std.ErroroftheEstimate(标准误差预测)1.779a.606.586.89053a.预测变量:(Constant),时间段,市场份额4. 回归(1) 回归结果1如表5回归分析结果1所示:在第一步中,相关性显著的3个自变量通过SPSS软件进行线性回归运算。在这次回归计算中,“频道市场份额与时间段”这两个变量表现出了良好适应性,而“每周播出次数”则适应性稍逊。因此,在随后的分析中我们去除了“每周播出次数”这一变量。(2) 回归分析结果2从以上SPSS运行获得的数据,我们得出标准误差(St

12、d.Error)为0.694,拟合优度(RSquare)为60.6%。以上变量展示了一个很好的线性回归。根据线性回归结果,得到以下方程式:Y=a+b1X1+b2X2Y代表视频节目收视率,XI为频道市场份额,X2为时间段,“a”为截距,bl和b2为系数。表6和表7提供了回归模型结果。回归程序导出了以下方程式:Y=-3.123+0.26X1+0.654X2AdjustedR(调整后的R平方)2值表明了以下模型可以适用于58.6%的视频收视率计算。收视率=-3.123+(0.26X频道市场份额)+(0.654X时间段)表7回归分析结果2回归系数表a模型UnstandardizedCoefficien

13、tsStandardizedCoefficientstSigBStd.Error(标准误差)Beta1(Constant)-3.123.694-4.501.000市场份额.260.037.7287.077.000时间段.654.142.4734.603.000a.因变量:视频节目收视率表8新节目的收视预测及真实数据节目名称频道市场份额时间段预测收视率真实收视率数据中国好声音14.7(19:04-19:15)53.9693.39奔跑吧兄弟14.7(12:54-13:39)22.0070.57爸爸去哪了4.3(22:3022:55)40.6110.23偶像来了4.3(20:00-20:15)51.

14、2651.43超能金星秀2.0(18:27-18:57)40.0130.07数据来自网络,不保证真实性。结果现在,我们使用已建立的线性回归模型计算预测出2011年新节目的收视率。表8展示了预测结果和事实收视率情况。通过真实的2011年收视率数据检测,该模型预测的准确性尚可。但是,所得结果并没有显示出完全意义上的精确度和有效性。一些学者认为,多元线性回归可能是一个受欢迎的的预测方法,但是,如果出现更多或更少的两个概念以上的运算,比起其他方法来说,不够精确"(Nikolopoulos,Goodwin,PatelisandAssimakopoulos,2004)。视频节目收视率受到多方面因素的影响,是一个复杂过程导致的结果,甚至专业机构(如CGM)尚不能做出非常精准的预测。其原因是多样的。首先,由于其复杂性,一个简单的模型也许并不能精确反映其真实状况。其次,央视索福瑞所提供的收视率数据亦有可能存在固有缺陷。基于观察时间较短,我们尚不清楚其样本的获得方式。此外,分类变量模型不能确定是否存在多元共线性。根据研究结果,提出如下建议:一、要想吸引观众的眼球,需要合理安排时间段以及提升节目质量。黄金时间加上

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论