版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
1、网络侧估计终端用户视频体验建模摘要 现代社会, 使用手机 APP观看视频已经成为当代社会的一种普遍形式, 本文依据 统计回归方法, 对网络侧变量和用户体验变量之间的函数关系进行拟合, 令其余 无关变量均近似地服从正态分布。 采用多重拟合方式拟合出不同的评价函数, 并 进行误差检验。 选择误差最小的评价函数。 并基于评价函数, 两个用户体验变量 进行预测。同时对用户观看视频体验进行综合评价, 采用多级指标,运用 AHP及模糊综 合评价法评价用户观看视频的满意度。 求出权重,建立评价矩阵。 得到用户观看 视频满意度处在较满意和一般满意之间。最后,由于多种原因, 本文建立的用户体验变量评价函数具有一
2、定程度的误 差,因此基于原有数据,建立灰色系统模型,再次进行预测,比较结果。建立 GM(1,1 )模型对相关指标进行预测,取预测区间长度为 100,得出预测值,并 绘制残差图对预测值进行检验。 并与评价函数预测结果进行对比。 验证评价函数 的正确性。同时得到结论, 基于原始数据直接建立灰色系统, 预测相对更加准确。 关键词: 统计回归;综合评价;灰色预测;残差检验一. 问题重述随着科技的日益进步, 无线宽带网络也随之无限升级。 智能终端在大众生活中普 及,越来越多的用户选择在智能终端上 (以手机为主) 应用客户端 APP来观看网 络视频,这是一种基于 TCP(是一种面向连接的、可靠的、基于字节
3、流的传输层 通信协议) 的视频传输以及播放。 在观看网络视频时, 有很多因素指标会影响用 户对于视频的观看体验, 而其中两个关键指标是初始缓冲等待时间和卡顿缓冲时 间,我们可以用初始缓冲时延和卡顿时长占比 (卡顿时长占比 =卡顿时长 / 视频播 放时长)来定量评价用户体验。 研究表明影响初始缓冲时延和卡顿时长占比的主 要因素有初始缓冲峰值速率、 播放阶段平均下载速率、 端到端环回时间 (E2ERTT) 以及视频参数。然而这些因素和初始缓冲时延以及卡顿时长占比之间的关系并不 明确。本文拟通过数学建模的方式对网络端视频用户体验做综合评价和预测, 以 采取针对性的措施提高网络端视频用户体验的满意程度
4、。本文尝试解决以下问 题:1、根据实验数据建立起用户体验评价变量和网络侧变量之间的函数关系。2、对网络侧终端用户体验进行定量的综合评价。3、针对网络侧用户体验进行预测。二 . 问题分析与思考本题目附件中提供试验数据共 89266 组,由于希望提高问题分析的准确性, 首先 要对数据进行考察, 并将不合理数据予以剔除, 因此,进行数据的信度与效度检 验就必不可少。2.1 数据信度检验信度检验为判断分析数据结果准确性, 即数据结果的可靠性检验。 常用的方法有: 拉以达准则, Dixon 准则以及 Crubbs 准则法等,然这三种方法都是基于样本大 致服从正态分布而给出的, 因此,我们采取最常见也是最
5、可信的拉以达准则 进行 数据的信度检验。拉以达准则又称 3 原则,是先假设一组检测数据只含有随机误差,对其进行计 算处理得到标准偏差,按一定概率确定一个区间,认为凡超过这个区间的误差, 就不属于随机误差而是粗大误差, 含有该误差的数据应予以剔除。 这种判别处理 原理及方法仅局限于对正态或近似正态分布的样本数据处理, 它是以测量次数充 分大为前提的,由于本模型中测量次数较多,因此拉以达原则在合理范围之内。图 1 :统计数据分析结构图本文利用 Matlab 软件,将附件中的各指标数据利用程序进行分析以及剔除(详 见附录 1)。共剔除数据 7713 组,剩余 81553组数据。剔除数据总数小于,在合
6、理范围之内。图 2 :剔除异常数据后的数据分布结构图 在此后的建模过程中,只针对这 81553 组数据进行分析。 拉依达准则判断粗大误差的基本思想是以给定的置信概率 99.73%为标准, 以三 倍测量列的标准偏差限为依据 , 凡超过此界限的误差 ,就认为它不属于随机误差 的范畴, 而是粗大误差。含有粗大误差的测量值称为异常值 ,异常值是不可取的 , 应该从测量数据中剔除。用拉依达准则判断和剔除含有粗大误差的异常值时 , 应先算出等精度独立测量列Xi(i=1,2, ,n) 的平均值 ,残余误差 , 并按贝塞尔公式算出该测 量列的标准偏差 S, 如果某测量值 的残余误差 ,满足 下式 ,则认为 是
7、含有误差的异常值 , 须剔除不要。该判别式即为拉依 达准则2.2 相关方法评价是基于研究对象的某些属性 (指标) ,将之变为客观客观定量计值或者主观 效度的行为。本文介绍几种本文涉及的方法:( 1)统计回归分析法由于客观事物内部规律的复杂性以及人们认识程度的限制, 无法准确的分析实际 对象内在的因果关系, 因此需要建立合乎机理规律的数学模型。 动态测量数据的 数学处理问题大多可以转化为回归分析问题。 确定变量之间的数学关系式并对其 进行可信度检验。 根据所求的关系式, 根据一个或几个变量的取值来预测或控制 另一个特定变量的取值。并给出这种预测却控制的精确程度。( 2)层次分析法( AHP) 层
8、次分析法指的是将决策问题的有关元素分解成目标、 准则、方案等层次, 在此 基础上进行定性分析和定量分析的一种决策方法。 它的特点是对复杂决策问题的 本质、影响因素及内在关系等进行深入分析后, 构建层次结构模型, 把决策的思 维过程数学化,进而提供一种简单的决策方法。层次分析法的结果合理性较大, 在本文中也会有涉及,用以权重的求解。(3)模糊综合评价法客观世界中, 存在着许多不确定的现象, 这种不确定性主要表现在两个方面: 一 是随机性,二是模糊性。在概率论研究中,通常以在 上的取值的分布函数来描述这种随机性。同样,在 上取值的隶属函数就描述了事件的模糊性。 模糊数学是描述模糊问题的不可或缺的工
9、具。 模糊综合评价同时可以实现模糊识 别,模糊分析,模糊聚类以及预测的功能,是一种非常优越的分析方式。由于本 题中各指标之间的关系并不明确, 其具有模糊性, 因此本文主要采用模糊分析来 对该问题进行综合评价。(4)灰色预测法 灰色预测是通过鉴别系统因素之间发展趋势的相异程度, 即进行关联分析, 并对 原始数据生成处理来寻找系统变动的规律, 生成有较强规律性的数据序列, 然后 建立相应的微分方程模型从而预测事物未来发展趋势的状况。 预测某一特征量或 达到此特征量的经历时间。三 . 模型基本假设1,假设用户观看视频时,在网络传输速率基本一致的情况下,视频卡顿的出现 是随机的;2,假设卡顿时长与在同
10、一网络环境下,使用客户端观看视频的人数基本成线性 的正比关系;3,经过剔除后的统计数据真实可信且抽样样本能够完全反应总体的特征; 4,假设除网络侧变量和用户体验变量外的其余变量均近似地服从正态分布。四. 基本符号说明:自变量与因变量间的回归模型系数,;:子变量与子变量间的回归模型系数,;模糊综合评价因素集, , 各因素, ;模糊综合评价评语论域(评价集), ;判断矩阵;模糊关系矩阵;权重向量;综合评价矩阵。五. 模型的建立与求解5.1 统计回归模型统计回归是基于数据的统计分析, 对于内部规律具有复杂性的客观事物, 建 立合乎机理的数学模型,其基本思路结构如下:由于采样数据的随机性, 在上步利用
11、拉以达原则剔除后, 以现有的数据进行 分析。首先进行标准化处理。数据的标准化( normalization )是将数据按照一定规则缩放,使之落入一 个小的特定区间。 这样去除数据的单位限制, 将其转化为无量纲的纯数值, 便于 不同单位或量级的指标能够进行比较和加权。 其中最典型的就是 0-1 标准化和 Z 标准化,当然,也有一些其他的标准化方法,用在不同场景。本文采用 Z-score标准化(标准差标准化)。转化函数为: 。其中 为所有样本 数据的均值, 为样本数据的标准差。经过 Z-score 标准化后,变量的平均值为 0,标准差为 1。为了数据处理的简便性,将均值迁移到 1。5.1.2 模型
12、建立与求解1、针对初始缓冲时延的回归模型(1)模型的建立记用户体验变量分别为 ( 初始缓冲时延 ), (卡顿时长占比);网络侧变 量分别为 (初始缓冲峰值速率) , (播放阶段平均下载速率) , (E2ERTT)。 首先,为了能大致的分析 与 , , 之间的关系,利用剔除后的数据分别作 出 对 , , 的散点图。图 4 : 对 的散点图图 5: 对 的散点图图 6: 对 的散点图从图 4 中可以发现, 对 有比较明显的反比关系, 对 虽然较为模糊,但大 体上则类似于一次或二次函数关系, 对 关系比较模糊, 但大体上呈现一种线 性关系。综合以上分析,建立如下的回归模型:经过多次利用 MATLAB
13、软件多次拟合实验,最终选择如下的回归模型:其中, , , 即为回归变量,而影响 的其他因素均包含在随机误差 中, 应大致的服从均值为零的正态分布。(2)模型的求解 直接利用 MATLAB统计工具箱中的命令 regress 求解:b,bint,rint,stats=regress(y,x,alpha)输入回归模型中 的数据( n 维向量形式), 为对应于回归系数的数据矩阵, alpha 为置信水平 (缺省时 ),输 出 是 的估计值,常记作 , bint 是 的置信区间, 为残差向量,rint 为r 的置信区间, stats 为回归模型的检验统计量,有三个值,第一个是回归方程 的决定系数 ( 是
14、相关系数 ) ,第二个是 的统计量值,第三个是与 统计量对应 的概率值 。针对以上回归模型的回归系数估计值及其置信区间(取置信水平 ),检 验统计量 , , 的结果如下:表 1 :统计模型( 1)的求解结果参数参数估计值参数置信区间-596.7539-601.1,-592.25718.6450712.9,724.3-115.8773-139.2,-92.61215.3119.16,123.9=0.8641 =54467 0.00000013)结果分析与预测表 1 显示, =0.8641 指的是因变量 的 86.41%可由模型确定, 值远远超过 检 验的临界值, 远小于 ,因此以上模型整体来看是
15、可用的。表 1 中的回归系数给出了以上模型的估计值,即 =-596.7539 ,=718.6450 , =-115.8773 , =1215.3 ,检查置信区间后发现,没有参数的置 信区间内包含零点,表明回归变量对估计值都是显着的。将回归系数的估计值代入上述模型,即可预测用户体验变量 (初始缓冲时延)的预测值 ,得到预测方程:因此,依据以上方程, 就可以预测用户体验变量 (初始缓冲时延) 的预测值 , 使用 MATLAB软件,预测出 100 组数据,由于数据过于庞大,只节选几组放在这 里。表 2 :统计模型的预测结果(节选)初始缓 冲峰值 速率(kbps)E2ERTT( ms)播放阶 段平均
16、速率(kbps)初始缓 冲时延 (ms)预测4945054371911081085.9363685051752590210951029.70971479884758061051948.43340835645755597810991111.9628525669054593111331101.8521937400058621211321280.1159245817854614610201109.3959136676258615410291225.8079544844557612711331073.506341经过统计,预测合理的数据为 86%,与结果分析中 的取值基本一致。以下是预 测结果残差图图
17、 7 :模型( 1 )预测结果残差图由残差图可知, 预测值基本符合相应指标的置信区间, 因此,预测方程基本合理。2、针对卡顿时长占比的回归模型按照上部的原有步骤,记用户体验变量分别为(初始缓冲时延 ) , (卡顿时长占比);网络侧变量分别为 (初始缓冲峰值速率), (播放阶段平均下载速 率), ( E2ERTT)。首先,为了能大致的分析 与 , , 之间的关系,利用剔除后的数据分别作出 对 , , 的散点图。图 8 , 对 的散点图图 9 : 对 的散点图从图 7,图 8 可以明显的看出来, 对 的函数关系并不明确,而 对 之间的 关系几乎是杂乱无章的, 根本无法选择合适的拟合函数, 经多次试
18、验, 最高拟合 度仅有 34%。因此, , , 与 之间无法拟合出一个合适的函数。 (1)模型的建立基于模型(1)中的方程, 可取播放阶段平均速率为 ,初始缓冲时延为 ,VMOS 为 ,视频全程感知速率为 ,视频码率 。经过多次试验,得到 与 之间近似 的服从一种正比关系。于是得到回归模型如下:其中, , , , , 即为回归变量,而影响 的其他因素均包含在随机误 差 中, 应大致的服从均值为零的正态分布。(2)模型的求解直接利用 MATLAB统计工具箱中的命令 regress 求解: b,bint,rint,stats=regress(y,x,alpha)输入回归模型中 的数据( n 维向量
19、形式), 为对应于回归系数的数据矩阵, alpha 为置信水平 (缺省时),输出 是 的估计值,常记作 ,bint 是 的置信区间, 为残差向量,rint 为 r 的置信区间, stats 为回归模型的检验统计量,有三个值,第 一个是回归方程的决定系数 ( 是相关系数 ) ,第二个是 的统计量值,第三个 是与 统计量对应的概率值 。表 3 :统计模型( 2 )的求解结果参数参数估计值参数置信区间-0.0015-0.0016,-0.0013-0.0361-0.0361,-0.0361-0.3897-0.3900,-0.38940.00150.0013,0.00160.02410.0236,0.0
20、2450.40230.4017,0.4028=0.9901 =163730 0.000000001(3)结果分析表 3 显示, =0.9901 指的是因变量 的 99.01%可由模型确定 , 拟合度非常高。值 远远超过 检验的临界值, 远小于 ,因此以上模型是合理的表 3 中的回归系数给出了以上模型的估计值,即 =-0.0015 ,=-0.0361 , =-0.3897 , =0.0015 , =0.0241 , =0.4023 。检查置信区间后 发现,没有参数的置信区间内包含零点,表明回归变量对估计值都是显着的。 (4)自变量间的拟合分析 由于我们选择的回归变量并不完全是题目中给定的回归变量
21、, 于是,我们需要对 回归变量进行分析。 由于播放阶段平均速率是题目中给出的网络侧变量,同时,根据模型(1),初始缓冲时延能够和三个网络侧变量建立函数关系。因此,我们只需要给出VMO,S视频全程感知速率与网络侧变量间的关系。 VMOS表示视频流的传输,它与初始 缓冲时延近似的成反比关系,我们利用 MATLAB软件,尽量通过多元函数建立拟 合关系。为节约篇幅,具体步骤的分析过程略。经过多次拟合尝试,以VOMS为因变量,视频全程感知速率与播放阶段平均速率分别为自变量,利用多项式函数进行拟 合,拟合结果如下表:表 4:变量间的拟合结果参数参数估计值参数置信区间1.523e+041.436e+04,1
22、.61e+04-1.027e+04-1.099e+04,-9562-2.107-2.322,-1.89327962796,27960.77890.7789,0.7789-329.17.112e-10,2.919e-09=0.95 0.950.80.70.7C0.350.50.65(1)初始缓冲时延 (ms) 预测检验 后验差比 ( 均方差比值 ):C=0.30966 由于 C=0.95,则此模型精度等级为 1 级(好)发展系数 :a=0.015906灰作用量 :u=2555.5951 由于-a0.3 ,则此模型适合用于中长期预测。图 16 :灰色预测残差图( 1 )(2)卡顿占比预测检验 后验
23、差比 ( 均方差比值 ):C=0.39917 由于 0.35C=0.95,则此模型精度等级为 1 级(好)。发展系数 :a=0.058428灰作用量 :u=3103.5906 由于-a0.3 ,则此模型适合用于中长期预测。图 17 :灰色预测残差图( 2 )由残差图我们发现, 灰色系统的预测值相比于 5.1 中的预测方程来说, 精度要提 高很多,含有误差的预测值很少。因此,灰色系统预测更为准确。我们预测 100 组数据,产生如下结果:表 14 :灰色系统预测结果初始缓冲 时延 (ms) 预测值卡顿占 比预测 值初始缓 冲时延 (ms) 预 测值卡顿占 比预测 值初始缓 冲时延 (ms)预 测值
24、卡顿占 比预测 值初始缓 冲时延 (ms) 预 测值卡顿占 比预测 值1416.640.0341141419.2220.0340881421.810.0340611424.4020.0340351416.8380.0341121419.4210.0340851422.0090.0340591424.6020.0340331417.0370.034111419.620.0340831422.2080.0340571424.8010.0340311417.2350.0341081419.8190.0340811422.4080.0340551425.0010.0340291417.4340.034
25、1061420.0180.0340791422.6070.0340531425.2010.0340271417.6320.0341041420.2170.0340771422.8060.0340511425.40.0340251417.8310.0341021420.4160.0340751423.0060.0340491425.60.0340231418.030.03411420.6150.0340731423.2050.0340471425.80.0340211418.2280.0340981420.8140.0340711423.4050.03404514260.0340191418.4
26、270.0340961421.0130.0340691423.6040.0340431426.20.0340171418.6260.0340941421.2120.0340671423.8030.0340411426.3990.0340151418.8250.0340921421.4110.0340651424.0030.0340391426.5990.0340131419.0240.034091421.6110.0340631424.2030.0340371426.7990.0340111427.9990.0339991432.6090.0339521430.0010.0339781434.
27、6170.0339321428.1990.0339971432.8090.033951430.2020.0339761434.8180.033931428.3990.0339951433.010.0339481430.4020.0339741435.0190.0339281428.60.0339931433.2110.0339461430.6030.0339721435.2210.0339261428.80.033991433.4120.0339441430.8030.033971435.4220.03392414290.0339881433.6130.0339421431.0040.0339
28、681435.6230.0339221429.20.0339861433.8140.033941431.2040.0339661435.8240.033921429.40.0339841434.0140.0339381431.4050.0339641436.0250.0339181429.6010.0339821434.2150.0339361431.6050.0339621436.2260.0339161429.8010.033981434.4160.0339341431.8060.033961436.4280.0339141432.2070.0339561432.4080.03395414
29、33.2110.0339461432.0070.033958由此可再次发现,基于原始数据建立的灰色系统预测模型预测精度相对更高六. 模型的评价6.1 、模型的优点6.1.1 本模型 通过通过统计手段来刻画各变量间的函数关系, 同时能充分利用多 变量同时拟合。使得拟合结果具有更强的拟合度。6.1.2 拟合过程中成功避开无法拟合的变量,并引入新变量达到较高的拟合精 度。6.1.3 本模型采用分层指标来进行综合评价, 定性方法与定量方法有机地结合起 来,使复杂的系统分解,使得评价结果更具有代表性。6.1.4 利用灰色预测预测比较准确,预测方便,且预测时间较长。6.1.5 指标集个数较大时,在权矢量和
30、为 1 的条件约束下,相对隶属度权系数往 往偏小,权矢量与模糊矩阵 R 不匹配,结果会出现超模糊现象,分辨率很差,无 法区分谁的隶属度更高, 甚至造成评判失败, 在本文中利用 AHP分层综合评价加 以改进。6.2 、模型的缺点 计算较为复杂,对指标权重矢量的确定主观性较强。七. 模型的优化7.1 、统计模型的优化 多元线性回归模型为 : Y XB E ( 1) 其中 Y是由 m个目标变量 n个样本构成的 n m矩阵, n l 矩阵X由二次变量的 n 个对应样本及其若干滞后观测组成 ; l m 矩阵 B 为模型参数 ; E 为误差或残差矩 阵.假设有k个二次变量,回归因子中包含二次变量 30个滞
31、后采样值 (注:二次变 量的观测周期与样本周期不同 ), 那么, l 30k ,FIR 模型参数 B 是30k m矩阵.由于一般情况下回归建模的样本来自于正常生产过程 , 因此模型的辨识问题 往往表现出“病态的”特征 . 目前可用于解决这类病态模型参数估计问题的方法 主要有:主元回归 (PCR)、部分最小二乘 (PLS)、典型分析回归 (CCR)和降秩回归 (RRR)等.上述这些统计回归方法的一个共同特点是统计投影 ,即:将矩阵 X 和Y分别 投影到由隐变量定义的低维子空间中 ; 然后通过建立隐变量间的低维回归关系 , 获得 Y 关于 X 的“节俭 (Parsimonious) ”模型 . 一般说来 , 降维投影能够“成立” 的一个主要原因是 : X 和Y的组成变量通常是高度互相关的 . 在此,我们选择 PCR 主元分析对模型进行优化PCR是主元分析 (PCA)的扩展8. 它包括如下两个步骤 . 首先是对样本矩阵 进行 PCA投影或分解 , 得到分值矩阵 T:X TPT E ( 2) 一般地,d l .然后建立 Y关于T的线性回归模型Y TQT F ( 3)其中Q为m d回归矩阵, F为回归误差.将(2)式代入(3)式可得:Y XPQT F X B F (4) 其中 B PQT 就是主元回归的系数矩阵 .部分最小
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 植树节活动主题方案
- 法人代表安全产承诺制度工作方案5篇
- 宏工科技深耕物料自动化处理领军固态干法新时代
- 第11章订单确认与生成
- 试论现代注册会计师审计的四大局限
- 短视频传播中的“新黄色新闻”现象及其对策探究
- 2026年吉林省白城中小学教师招聘考试试卷含答案
- 2026年吉林白山市中小学教师招聘考试真题及答案
- 2025年内蒙古呼和浩特中小学教师招聘考试卷附答案
- 2025年辽宁省朝阳以中小学教师招聘考试卷附答案
- 2025年空调维修公司岗前安全生产试题及答案
- 精神科叙事护理案例分享
- 2025版幼儿园章程幼儿园办园章程
- 基于STM32单片机的智能宠物项圈
- 汽车检测站安全操作规程
- 2025年事业单位招聘考试职业能力倾向测验试卷(造价工程师类)
- 医院保洁毛巾分区分色管理
- 12S522混凝土模块式排水检查井图集
- 民航安全培训课件
- 二级短元音(课件)牛津英语自然拼读
- 控制方案变更管理制度
评论
0/150
提交评论