【毕业学位论文】(Word原稿)网络视频点播系统中的用户行为分析与建模-计算机软件与理论_第1页
【毕业学位论文】(Word原稿)网络视频点播系统中的用户行为分析与建模-计算机软件与理论_第2页
【毕业学位论文】(Word原稿)网络视频点播系统中的用户行为分析与建模-计算机软件与理论_第3页
【毕业学位论文】(Word原稿)网络视频点播系统中的用户行为分析与建模-计算机软件与理论_第4页
【毕业学位论文】(Word原稿)网络视频点播系统中的用户行为分析与建模-计算机软件与理论_第5页
已阅读5页,还剩43页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

网络视频点播系统中 的用户 行为 分析与建模 作者:陈磊 张西文 张强 学校: 中国科学技术大学 网络视频点播系统中的用户 行为分析与建模 摘 要 第 I 页 摘 要 随着网络带宽、计算能力和存储能力的提高,互联网中基于流媒体技术传输视频音频的系统大幅增长。现有流媒体系统与用于对系统性能进行评估的用户行为发生器的设计均基于对流媒体系统 中 用户行为的测量、分析与建模,所以我们有必要对用户行为 进行 准确深入的了解。 本文选取两个视频点播系统作为研究对象:教 育网内的 中国科学技术大学 视频点播系统 (中 科大 和 上海嘉定区 高性能 视频点播系统 (上海嘉定 。通过记录的日志文件 来对用户访问行为进行测量、分析与建模。在对用户行为进行分析时,根据日志文件 的内容, 提出能反映其特征的几个统计指标:视频流行度,视频播放时间,用户交互操作数 , 然后 对以上几个指标进行建模分析。 在对视频播放时间和用户操作数进行建模分析时,通过统计分析, 证明在不同时间尺度内 中国科学技术大学 视频点播 系统的用户交互式请求数分布均表现出重尾现象,常用的幂律分布不适合对其建模 , 提出采用广延指数 模型描述交互式请求数分布 。 在对视频流行度 建模分析时 : 通过统计分析,证明常用的 提出采用广延指数模型描述视频流行度分布 。通过 对 上述建立的模型进行卡方检验验证 了 模型的正确性 , 并在理论和模型分析的基础上提出 了 优化 关键词 : 视频点播 模型 交互式 流行度 重尾 广延指数分布 型目 录 第 目 录 第一 章 问题的提出 . 1 第二章 研究对象描述 . 3 中国科学技术大学 . 3 视频点播系统介绍 . 3 数据采集系统介绍 . 4 上海嘉定地区 . 4 第三章 数据描述 . 7 中国科学技术大学 . 7 上海嘉定地区 . 8 第四章 模型建立前的准备 . 10 数据预处理 . 10 指标的选取 . 11 视频流行度 . 11 用户交互请求数 . 11 视频播放时间 . 12 第五章 模型的构建和检验 . 13 视频流行度模型 . 13 估计模型的选择 . 13 . 13 延指数( 型 . 14 估计模型的建立 . 16 上海嘉定地区 . 16 中国科学技术大学 . 18 用户交互请求数模型 . 22 交互式请求数的重尾现象 . 23 交互请求数的幂律模型 . 25 交互请求数的广延指数( 型 . 30 视频播放时间模型 . 34 目 录 第 视频播放时间的重尾现象 . 34 视频播放时间的幂律模型 . 36 视频播放时间的广延指数( 型 . 37 第六章 总结 . 40 附录 广延指数与 . 41 参考文献 . 43 第一章 问题的提出 第 1 页 第一章 问题的提出 应用普及和计算机技术的迅猛发展使人们的工作、生活发生了巨大变化,个人计算机、计算机网络已经逐渐成为人们生活的一部分。人们对于信息和娱乐的需求快速增长,形式趋于多样化:从静态的文本、图片形式,逐渐向动态的语音、视频方向发展。随着多媒体技术的发展,各种视音频格式层出不穷,视音频信息的传输、处理技术的应用越来越广泛;而宽带网络的逐步成熟,又使得应用流媒体技术在互联网上传输高质量的视音频成为可能,在宽带的基础上,流媒体可以提供更丰富的视频内容 (包括课堂教学直播、视频会议 )。 同时,处在二十一世纪这样一个信息“爆炸”的时代,越来越多的 人们更愿意及时、主动地获取信息。这种趋势冲击着传统的广播电视 的收看模式。传统的电视为被动的接收模式,不能定制节目,无互动性。其消费特点为分频道,定时单向广播,用户为了看感兴趣的节目必须参照电视台预先确定的节目表,按时打开电视,而且还要忍受广告的折磨。 而数字电视 通过数字信号承载电视节目, 为用户 带来 了 更好的视听效果。这种趋势迫使广播电视系统向交互式方向发展,实现互动点播。视频点播技术为这一问题提供了很好的解决方案。 视频 点播 (n 1,即按需要的视音频流播放,是近年来新兴的传媒方式。 以“用户自主”的崭新概念为基础的双向视音频信息系统,实现了按用户需要播放视音频节目的理想,其最大特点在于主动性和选择性。而且 以在观看视频时采取一系列的 2(跳进,跳退,暂停,停止等)来对视频实现交互。 未来信息服务中宽带业务的灵魂。 在 杂、包含许多应用服务的系统中,构建 大规模、高 性能、面向 首先, 流 媒体内容的传送对网络带宽要求高,对传送有低延迟率以及低丢包率 要求 。然而, 保证,并且对实时的媒体流也无法进 行管理和控制; 其次, 流 媒体业务量是由 用户驱动的 , 用户的请求具有突发性,在顶峰时刻,媒体 服务器需向有着不同网络连接的有线和无线用户提供成千上万条并发流; 再者,用户期望获得高质量媒体内容,而媒体编码,数据压缩以及数据第一章 问题的提出 第 2 页 通信技术的性能增长却较为缓慢。 由于网络条件以及用户行为的动态性, 对用户访问行为的 测量、分析和建模对系统性能的评估、视频点播系统的设计和管理都能起到关键性的指导作用。 本文根据已有的真实数据,对用户访问行为、视频流行度进行了测量、建模和分析。 第二章 研究对象描述 第 3 页 第二章 研究对象描述 本文所研究的 流媒体 系统为 教育网内的中国科 学技术大学视频点播系统和上海嘉定区 高性能 视频点播系统 。在对它们的用户的行为进行分析时,主要是根据系统记录的日志信息来获取相关的 统计指标 。下面分别对这两个系统进行介绍: 中国科学技术大学 中国科学技术大学视频点播系统( 教育网( 的典型流媒体服务系统,该系统面向安徽省教育网内所有用户,是中国科学技术大学建立的三套视频点播系统之一,其他两套点播系统分别为图书馆视频点播系统和教学视频点播系统。在这三套视频点播系统中, 也是最受欢迎的系统,其访问量较大,提供较多的娱乐类视频。下面对该系统及其用户数据采集系统做简单介绍。 视频点播系统介绍 001 年,目前由三台服务器组成,分别是两台务器和一台 2 服务器,它们负责对视频进行流化。这三台服务器位于中国科学技术大学网络信息中心的服务器集群中,通过网络信息中心的核心节点向 中国科学技术大学 四个校区、合肥市其他高校以及其他 16个地市的高校传送视频数据 . 户,主要以安徽省各高校学生为主。其中 本科院校 31 所,包括中国科学技术大学和合肥工业大学这两所 著名 高校;高职院校 61 所,独立学院 10 所;分校办学点 1所。 全省各类高等学历教育在校生人数已经突破 90 万人,达 907048 人。 整个 统采用单播方式传送视频文件,采用组播方式传送电视节目。用户通过 这三台流化服务器中,其中一台 务器同时负责对 户访问页面如图 示 第二章 研究对象描述 第 4 页 图 数据采集系统 介绍 由于要 针对 此需获取用户对 台服务器中安装的服务器软件为 003,该软件配备了用户访问数据采集系统,即用户访问日志记录系统。该数据采集系统在服务器向用户流化数据时,以及用户对播放器进行系列操作时,均记录相应信息。另外,该数据采集系统还采集诸如计算机性能、网络带宽等方面的信息。数据采 集系统提供 6 种日志记录周期:每小时记录一次、每天记录一次、每周记录一次、每月记录一次、当达到一定文件大小时记录一次以及从不记录。数据采集系统采用默认设置:每天记录一次日志,记录起点为每天的零点,记录终点为第二天零点。所采集的数据存放在服务器所配置的本地目录中,由中国科学技术大学网络中心定期放在开放的 研究者下载。 上海嘉定 地区 上海市嘉定区嘉定有线电视台于 2007 年 10 月建立了 互动电视综合服务系统 ,面向嘉定区 20 万用户提供时移电视服务和高性能视频点播服务( 到 2009 年 9 月止, 万户居民,有近 4 千户居民第二章 研究对象描述 第 5 页 购买了此项服务。在此,我们主要针对 图 其基础配置如下: 服务器配置 1, 流媒体服务器:用于发布各种网页信息,视频资源等,同时可做为升级服务器使用。 服务器采用 有较高的稳定性。 管理员可以根据业务的需要,只要在服务器上进行配置,就可以对所有机顶盒进行系统在线升级。 2, 局域网设备: 主干网采用千兆网 络交换设备,用户端采用百兆网卡接入高速局域网。用户通过一个遥控器 对机顶盒进行点播、快进快退、暂停等操作,也能对电视机进行一些基本操作,例如开关机、视频转换、音量大小、 后台管理系统 管理员可以通过 后台 管理系统对流媒体服务器发布内容进行管理。系统具有第二章 研究对象描述 第 6 页 以下主要功能: 服务器管理:可以添加或删除服务器地址,是否开启防盗链等功能; 电影增加:添加电影电视资源,影片简介等,如果有分集,支持批量增加(需要在同一路径下,且文件名递增); 电影管理:修改或删除电影电视资源, 修改分类,是否在首页显示,自动生成 分类及地区管理:设置电影类别便于分类管理,例如根据地区可分为大陆、港台、日韩、欧美等,根据内容又可分为动作、爱情、喜剧、科幻等,支持多级分类; 用户管理:可根据 可以设置用户点播时段等。 上海嘉定区的嘉定有线 与教育网内的免费流媒体系统的运行模式不同,因此系统中用户的访问行为也与校园环境的网络用户行为不同,有必要对其进行认真分析。 第三章 数据描述 第 7 页 第三章 数据描述 中国科学技术大学 中国科学技术大学 3C 4(式记录用户访问日志 。 当用户停止对视频播放时,即当播放器从任何播放状态(播 放,快进,或回放)转向任何非播放状态(停止,暂停,视频结束以及视频的起始)时,用户播放器便发送相应的日志信息给服务器。 每条日志包括 52 项,详细的记录了各种信息,例如用户的 户访问的视频名称,用户连接的状态,用户访问的日期与时间,用户访问的视频总长度和大小,用户访问的视频的起始时间点,用户所访问视频的播放时间等。图 出了某天日志文本中的开始部分。 图 日志文件的起始部分 图 #于其详细的意义可参见文 5 实验数据基本统计分析:本文对 200712段时间跨度的日志进行分析( 200806 后学校关闭了校外的访问权限,因此数据不具有典 型性 ),基本统计信息如 表 示 第三章 数据描述 第 8 页 名称 数值 日志长度 6 个月( 2007 2008 视频文件总大小 文件数 12748 总会话数 1200841 总请求数 9254072 不同的主题数 28 表 实验数据的基本统计信息 上海嘉定地区 嘉定 互数据来自此系统中计费模块,数据格式为 可扩展标记语言 )文档 。主要记录了与计费相关的视频点播信息,一个简单的示例文档如下所示: 图 简单的示例文档 名称 数值 日志长度 6个月( 2007008 日志文件总大小 602文件数 1946 总请求数 2547453 不同的 1752 表 交互式数据的基本统计信息 此 系统日志 文档中字段较多,我们主要选取其中与用户行为相 关的字段,包第三章 数据描述 第 9 页 括用户标识、影片标、播放开始时间和播放停止时间等。对所有交互式数据的基本统计信息如表 示 第四章 模型建立前的准备 第 10 页 第四章 模型建立前的准备 数据预处理 这里主要是针对中 科大的 对于 上海嘉定的于日志记录的信息并不全面,对我们 的研究而言,没有多少冗余信息,所以没有必要对其进行预处理。在中 科大的 多数情况下,用户可以很顺畅地访问视频,但也有不少情况,用户访问视频时会出现意外,如由于网络原因视频播放突然终止,用户访问的视频已经被移除,这些情况使得日志文 本中记录的信息对用户真实访问行为的分析并无用处,因此,对用户访问数据进行分析前,需对所有日志文件进行预处理,从而获得可用以分析的“干净”的数据。 由于日志记录项中的 此,可通过该项对数据进行预处理,该项可取如下数值: 200, 401, 404, 408, 210, 500, 420。其中 200表示用户成功的获取了流化数据并发送了日志; 210 则表示用户失去了连接并重新连接上,重新连接上后,用户端将发送连接丢失之前所进行的会话日志信息;401 表示访问被拒绝; 404 表示访问的 资源不存在; 408 表示用户端异常,导致连接丢失,并且无法向服务器发送日志,这时日志由服务器根据流化时记录的内容发送日志; 420 表示用户重新连接失败; 500 表示服务器内部错误,使得服务器与用户断开连接。 我们所搜集的日志中,以代码 200 与 408 居多,另外有少数 210, 404 与 420。00 的日志条目即为需要分析的日志条目,由于 10的日志条目也代表了用户的真实行为,但这部分非常少,因此忽略掉这部分日志条目。 04 与 420 的日志条目则因其无用也忽 略。 08 的日志条目表示用户访问出现异常,而这样的日志条目并非代表所包含访问信息无用,例如,当用户使用 有产生日志条目中的 08。而又由于 08的日志条目非常多,因此简单的忽略这些日志条目并不合理,经过分析发现,由于用户对系统中资源进行下载,使得系统产生很多 08 日志条目,第四章 模型建立前的准备 第 11 页 真正代表用户点播的且 08 的日志条目非常少,因此可将 08 的日 志条目忽略,相对于 00 日志条目数目来说,忽略掉这些 408 条目是合理的。 因此,本文分析 00 的日志条目。处理数据前先将日志录入到便共享使用 。处理数据的工具分别为 微软公司的免费软件数据统计分析的工具则采用 开源的统计分析软件 R6。 指标的选取 视频流行度 流媒体 服务的特点是:媒体传输有实时性要求,对网络带宽要求高。然而,由于媒体内容的多样性,用户对流媒体的访问有交互式操作以及大量并发的用户请求,使得构建高性能且低成本的多媒体系统面临巨大的挑战。 为提供高性能的服务,有必要对流媒体服务特性进行深入的研究,而其中一个重要研究方面是媒体流行度。流行度的分布对内容分发网络( 和流媒体系统的设计与实现起着重要的指导作用,同时在用户行为发生器的设计中也起着重要的指导作用。 现有的研究工作中,流行度一般被定义为媒 体文件的访问次数,流行度的分析主要是关于访问次数的分析。 用户交互请求数 用户行为分析可用于构建用户行为发生器,用户行为发生器对系统性能的评估起着重要作用,交互式请求数是用户交互式行为的重要 特征 ,因此需考虑用户会话中交互式请求数的分布情况。 现有的交互式行为研究工作仅考察了交互式请求数在用户会话中的分布情况,并从这个角度对交互式请求数的分布进行建模分析,忽略了从媒体对象的角度考 察交互式请求数的分布,使得交互式行为的建模与分析工作不完善。本文 从媒体对象的角度出发,考察不同类型交互式请求数与总交互式 请求数(各种类型交互式请求数之和)在视频对象中的分布情况。 第四章 模型建立前的准备 第 12 页 视频播放时间 用户在通过 往会根据对当前视频的兴趣度伴随着一些 放,暂停 ,跳进,回退,停止)。这就导致了用户实际观看的视频的时间长度小于 视频本身所具有的长度。视频播放时间从侧面反映了用户实际访问的数据量, 其建模对系统的设计有一定的参考意义。 第五章 模型的构建和检验 第 13 页 第五章 模型的构建和检验 在本文分析中,对 上海嘉定的 于其日志信息记录的项目不是太全面只能对其视频的流行度进行建模。对中科大的 出的三个指标都可以进行建模。 视频流行度 模型 估计模型的选择 在对传统的 户对 用户对这些内容的访问模式均可由 对于流媒体内容,由于流媒体系统的不同以及媒体内容本身的多样性,使得关于流媒体流行度的模型也彼此不同。例如,在 和 分别对基于组播技术的媒体点播系统和企 业服务器进行的分析发现,媒体流行度不服从 与 H10对美国一所大学内的的 媒体流行度的分布可以用 对直播系统的分析中, E11发现用户对媒体的兴趣程度服从 K12对宿主于 媒体流行度可以用双 外,对于众所皆知的 P13进行的分析 发现 ,视频片段的分布服从本文对所研究的两个系统的视频流行度进行建模,通过 对实际用户访问数据的分析表明,常用 从而提出采用广延指数分布对流行度分布进行刻画,数据分析表明, 广延指数模型能较好的刻画流行度的分布。 下面先对两个模型进行介绍,之后再对我们的两个系统的视频流行度进行分析。 现有的研究工作中, 多自然现象以及人造现象可用 称一个数据集 个元素服从参第五章 模型的构建和检验 第 14 页 数为 的 果对于出现次数 降序排列,排序 第 i,其出现次数满足: (其中 S 为所有元素出现次数之和, 参数 c 的表达如方程 ( 11i (将满足 序排列,其位序与对应的次数在双对数坐标下的关系为直线。 为分析视频流行度分布是否服从 所有视频按流行度大小降序排列,并在双对数坐标下考察视频位序与视频流行度之间的关系,当流行度由视频访问次数刻画时,视频位序与流行度在双对数坐标下的关系应该服从一条直线。 延指数( 型 广延指数模型最早由德国物理学家 847 年 研究,当时该模型被用作对玻璃纤维结构驰豫现象的经验描述。 至今,该模型描述了不同复杂系统内的动态衰减现象,也描述了许多自然、经济和人造现象。 该模型适用于描述幂律模型无法准确刻画的现象。最近,在流媒体系统的研究中, 4对不同流媒体系统中媒体对象访问次数的分布进行分析,发现通常的类 广延指数模型能对其进行很好的刻画 。 广延指数分布的概率密度函数为: 100( ) e x p ( ) c x c (累积分布函数为: 0( ) e x p ( ) cc x (第五章 模型的构建和检验 第 15 页 其中 c 与0对于按流行度大小降序排列的 N 部视频,令 ,有 : () (其中 n 表示流行度大于或等于据方程 (有 0()()p e (两边取自然对数,则有0l n ( ) ( ) x , 因此,流行度的分布可表示为: a n b (其中,01广延指数分布在 于 b 是归一化参数,因此分布的形状由 c 决定, c 称为广延参数(或形状参数) 15,在 0 到 1 之间取值, a 为 于视频访 问次数的最小值为 1, 因此当流行度由访问次数所刻画时,可假定 1 ,参数 b 则表示为:b a N。 方程 ( 化 为: (据此,可以在建模过程中采用非线性最小二乘法对模型的参数进行辨识,获得参数后再通过判定系数 2R 评估模型的拟合优度。 第五章 模型的构建和检验 第 16 页 估计模型的建立 上海嘉定 地区 对所有的视频按流行度大小降序排列,在笛卡尔坐标下 , 下图所示: 图 笛卡尔坐标下流行度排序 可以发现,其分布呈现明显的重拖尾现象。 下面在双对数坐标下用 最小二乘法进行拟合,结果如下图所示: 第五章 模型的构建和检验 第 17 页 图 发现访问次数在双对数坐标系下的分布呈现较大的弯曲与拟合直线有较大的 区别,模型的判定系数为: 2R = 从上面看出,用 不合适。特别是在热播视频上,实际的热播视频的流行度与模型中的热播视频的流行度相差约 310 的数量级倍数。所以需要用其他的分布模型对流行度分布 进行建模。通过实验发现,当流行度由访问次数刻画时,视频位序的自然对数与视频流行度 c(为常量参数)次幂的关系为一条直线(将视频按流行度大小降序排列), 号的自然对数, c 次幂。我们可以称这样的坐标系为广延指数( E)坐标系,称这样建立的模型为广延指数模型( 。 用最小二乘法拟合的结果如下图所示: 第五章 模型的构建和检验 第 18 页 图 广延指数 模型 刻画的视频流行度 模型的判定系数: 2R =数 。虽然在有些点模型与实际点有些差异,但是考虑到实际的差异只是这里的 以实际的差异比之 上所述,用 中国科学技术大学 考察 两个时间尺度下的流行度的分析:单月份和累计月份(半年) 。 具体的分析方法与上述相同。 原始的分布如下图: 单月份 分析 ( 200712) : 第五章 模型的构建和检验 第 19 页 图 单月份视频流行度分布 累积月份 分析 ( 200712: 图 累积月份视频流行度分布 第五章 模型的构建和检验 第 20 页 单月份 分析 (200712): 图 单月份下用 累计月份 分析 (200712 图 累积月份下用 第五章 模型的构建和检验 第 21 页 在保证模型的结果与实际的点的差异的平方和最小(最小二乘法)的情况下,两种时间尺度下 模型的判定系数 分别为 为 2 , 2 。 而且两种情况下对直线的拟合也被 2 检 验拒绝(参见附录)。 实际 热播视频的流行度与模型中的热播视频的流行度相差 2310 的数量级,这么大的差异对我们用以研究用户行为发生器是没有任何指导意义的,所以这种模型不可取。 我 们同样用 单月份 (200712): 图 单月份下采用 累积月份 (20012 第五章 模型的构建和检验 第 22 页 图 累积月份下采用 从上面的图 可以看出, 在两个时间尺度下, 用 判定系数 分别 为 2 , 2 , 且两种情况下对直线的拟合也被 2 检验接受(参见附录)。 虽然在最热点模型与实际有些差异,但是考虑到实际的差异只是这里的 以实际的差异比之 所以在刻画中科大 用户交互请求数 模型 由于上海嘉定 有我们只对 中科大的 交互请求数是用户交互式行为的重要特征,本文从媒体对象的角度出发,考察不同类型交互式请求数与总交互请求数在视频对象中的分布情况。在两种时间尺度下(单月份和累积月份) 对 中科大 用户访问数据进行分析,发现交互式 请求数的分布表现出重尾现象,常用的描述重尾现象的幂律模型不适合第五章 模型的构建和检验 第 23 页 刻画交互式请求数的分布,而在上文中提出广延指数模型对交互式请求的分布能进行较 好的刻画。根据日志的分析,我们能够观察到三种交互式请求:前跳请求,后跳请求,暂停请求。 交互式请求的总体信息如下表所示 (时间: 200712: 交互式请求类型 交互式请求数 前跳请求 6232460 后跳请求 1270838 暂停请求 549933 表 交互式请求的总体信息 交互式请求数的重尾现象 本文考察的视频对象的三种交互式请求以及总交互式请求数的分布,总交互请求数为三种交互请求数之和。对所有的视频按照交互式请求数降序排列,在笛卡尔坐标系下观察其分布。如下图所 示。图给出了系统在 2007 年 12 月份的视频总交互请求数与三种交互式请求数的分布。 图 笛卡尔坐标下对总交互请求数的描述 第五章 模型的构建和检验 第 24 页 图 笛卡尔坐标下对前跳请求数的描述 图 笛卡尔坐标下对暂停请求数的描述 第五章 模型的构建和检验 第 25 页 图 笛卡尔坐标下对后跳请求数的描述 由上面的图可以看出,交互式请求数表现出重尾现象。 对累积月份的情况下交互式请求数同样表现出类似的重尾现象。 在统计里常用于描述重尾现象是幂律模型,下面用幂律模型对此进行刻画。 交互请求数的幂律模型 幂律模型的概率密度函 数为: (1 )0()P x P x (其中,0m 为参数 。 在双对数坐标下,幂律分布表现为一条斜率为幂指数的负数的直线,这一线性关系是判断给定的实例中随机变量是否满足 幂律的依据。下面我们 在两种时间尺度下 对系统日志进行分析,将视频的交互式请求数按降序绘制于双对数坐标系下,如下图所示: 单月 分析 (200712): 第五章 模型的构建和检验 第 26 页 图 单月份下 幂律分布检验总交互请求数 图 单月份下幂律分布检验前跳请求数 第五章 模型的构建和检验 第 27 页 图 单月份下 幂律分布检验暂停 请求数 图 单月份下 幂律分布检验后跳 请求数 累积月份 分析 (200712 第五章 模型的构建和检验 第 28 页 图 累积 月份下 幂律分布检验总交互请求数 图 累积 月份下 幂律分布检验前跳请求数 第五章 模型的构建和检验 第 29 页 图 累积 月份下 幂律分布检验暂停请求数 图 累积 月份下 幂律分布检验后跳请求数 从上面的图可以看出, 在考察的两种时间尺度下, 交互式请求数分布 都 呈现第五章 模型的构建和检验 第 30 页 明显的弯曲, 对应的拟合优度 2R 也不高, 对直线的拟合也被 2 检验拒绝(参见附录)。 所以幂律模型用来 刻画交互式请求数分布 并不合适。 交互请求数的广延指数 ( 模型 参考上面对流行度的分析,这里我们也用 单月 分析 (200712): 图 单 月份下 第五章 模型的构建和检验 第 31 页 图 单 月份下 图 单 月份 下 第五章 模型的构建和检验 第 32 页 图 单 月份下 累积月份分析 (200712 图 累积 月份下 第五章 模型的构建和检验 第 33 页 图 累积 月份下 图 累积 月份下 第五章 模型的构建和检验 第 34 页 图 累积 月份下 由上面的图可以看出, 在考察的两种时间尺度下,交互式请求数的分布 在 定系数都在 右 ,且对直线的拟合也被 2 检 验接受(参见附录) 。这说明交互式请求数服从广延指数分布。 视频播放时间 模型 由于上海嘉定 有我们只对中科大考察两种时间尺度下的视频播放时间模型。 我们在处理时可以把视频的播放时间的长度按降序排列。类似于视频流行度中的处理。 视频播放时间的重尾现象 单月份 (200712): 第五章 模型的构建和检验 第 35 页 图 单月份下视频播放时间的重尾现象 累积月份分析 (200712 第五章 模型的构建和检验 第 36 页 图 累积月份下视频播放时间的重尾现象 可见在两种时间尺度下,视频播放时间都呈现出重尾现象,根据上面对交互式请求数的分析,这里可以采用幂律模型进行建模 视频播放时间的幂律模型 单月份 分析 (200712): 图 单月份下用幂律分布检验视频播放时间 累积月份分析 (200712 第五章 模型的构建和检验 第 37 页 图 累积月份下用幂律分布检验视频播放时间 由上面的图可以看出,在两种时间尺度下,用幂律模型来刻画视频播放时间,各种的拟合度都只有 右, 而且对直线的拟合 也被 2 检 验拒绝 (参见附录) 。在实际应用模型来建立用户行为发生器时,是不合适的。 根据上面对交互式请求数模型的讨论,对重尾现象进行建模,当常用的幂律模型无法准确刻画现象时,可以采用 面对此进行分析。 视频播放时间的广延指数( 模型 单月份分析 (200712): 第五章 模型的构建和检验 第 38 页 图 单 月份下 用 累积月份分析 (200712 图 累积月份下用 由上面的图可以看出,在两种时间尺度下,用 五章 模型的构建和检验 第 39 页 各种 的拟合度都在 右,且对直线的拟合也被 2 检验接受(参见附录)。 相对于幂律模型而言, 实际应用时,也是合理的。 第六章 总结 第 40 页 第六章 总结 测量、分析和建模对在 互联网 环境下 流媒体系统的 设计和管理、 流媒体 系统性能的评估 、流 媒体系统用户访问行为的深入理解 均具有 关键作用。 本文对两种类型的流媒体系统进行分析 。 一个是教育网内的流媒体系统: 中国科学技术大学视频点播系统 (中科大 ; 另一个是上海嘉定区部署的视频点播系统 (上海嘉定 在 处理中,我们根据各自的服务器端收集到的日志 来进行被动的测量研究。 对中科大的 进行观测时间从 2007年 12 月 01 日开始,至 2008 年 5 月 31 日结束,采集了超过 5测到 1200841 次用户会话 。 通过统计分析 ,对视频流行度 , 用户交互式行为 ,视频播放时间三个指标 进行建模分析 。 对上海嘉定 通过分析2007008 本文从视频访问次数的角度对视频流行度进行刻画。 对两个系统通过 统计分析, 发现 在笛卡尔坐标系下视频流行 度呈现明显的重尾现象,接着 证明常用

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论