(基础数学专业论文)日照市大学生手机使用情况的调查与统计分析.pdf_第1页
(基础数学专业论文)日照市大学生手机使用情况的调查与统计分析.pdf_第2页
(基础数学专业论文)日照市大学生手机使用情况的调查与统计分析.pdf_第3页
(基础数学专业论文)日照市大学生手机使用情况的调查与统计分析.pdf_第4页
(基础数学专业论文)日照市大学生手机使用情况的调查与统计分析.pdf_第5页
已阅读5页,还剩35页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

山东大学硕士学位论文 摘要 随着我国经济持续稳定的增长和移动通信服务的发展,我国的移动通信市场 增长迅速,手机日渐普及。目前,我国学生总数约有3 2 亿人,学生已经成为手机 消费市场中一支不容忽视的生力军。手机厂商应该好好发掘这个潜在的巨大市场。 那么手机厂商到底该采取什么样的策略才能在学生手机市场上叱咤风云呢? 这无 疑是手机厂商所关心的一个重要问题我们在日照市的几所高校进行了抽样调查, 并对调查结果进行了统计分析,得到了一些有用的结论 由于抽样调查的数据是多变量大样本数据,人们常用多元统计分析方法对其 进行数据分析主成分分析与因子分析是两种多元统计分析方法,两者都是从变 量的方差一协方差矩阵入手的,都是把多个变量成少数几个综合变量来研究总体各 方面信息的统计方法 主成分分析将高维数据以尽可能少的信息损失投影到低维空间,以达到简化 数据的目的它也是在尽可能减少信息损失的原则下将多个相关变量综合化为少 数几个不相关变量的方法 因子分析不同于主成分分析,它的目的在于研究原始变量的内部关系,通过寻 找变量的共同因子来简化和分析变量中存在的复杂关系它把每个变量分解为两 部分因子,一部分是公共因子部分,另一部分是独特因子部分 本文在第二章和第三章分别对主成分分析和因子分析方法进行了介绍,在第 四章对调查数据进行了描述性统计分析和主成分分析 关键词:主成分分析:因子分析:抽样调查 山东大学硕士学位论文 a b s t r a c t w i t ht h ec o n t i n u i n ga n ds t e a d yd e v e l o p m e n to ft h ee c o n o m yo fo u rc o u n t r ya n d t h es e r v i c eo fm o b i l ec o l l n l u n i c a t i o n , t h em a r k e to ft h em o b i l ec o m m u n i c a t i o no fo u r c o u n t r yg r o w sr a p i d l y , a n dt h em o b i l et e l e p h o n ei sp o p u l a r i z e dd a yb yd a y t h e r ea r e a b o u t3 2 0m i l l i o ns t u d e n t si no u rc o u n t r ya tt h ep r e s e n tt i m e h a v i n gb e e nav i t a ln e w f o r c eo f c o n s u m i n gi nt h em o b i l et e l e p h o n em a r k e t ,t h es t u d e n t sc a n n o tb ei g n o r e d t h e m a n u f a c t u r e r so fm o b i l et e l e p h o n es h o u l dd i gt h i sl a t e n tl a r g em a r k e te n o u g h jt h e n w h a ts t r a t e g yt h em a n u f a c t u r e r ss h o u l da d o p ts u c ht h a tt h e yr i d et h ew h i r l w i n di nt h e s t u d e n tm a r k e to fm o b i l et e l e p h o n e ? t h i si sw i t h o n td o u b ta ni m p o r t a n ti s s u et h a tt h e m a n u f a c t u r e r sc o n c e r n w em a k es p o tc h e c ka m o n gs e v e r a lc o l l e g e so fr i z h a oe i t y , a n d a n a l y z et h ed a t ab ys t a t i s t i c a lm e t h o d sa n do b t a i ns o m eu s e f u lr e s u l t s s i n c et h ed a t ao ft h es p o tc h e c ki sl a r g es a m p l e 晰t l lm u l t i v a r i a b l e ,p e o p l eu s u a l l y a n a l y z ei tb yt h em e t h o d so fm u l t i v a r i a t es t a t i s t i c a la n a l y s i s p r i n c i p a lc o m p o n e n t a n a l y s i sa n df a c t o ra n a l y s i sa r et w om e t h o d so fm u l t i v a r i a t es t a t i s t i c a la n a l y s i s t h et w o m e t h o d sb o t hs t a r tf r o mt h ev a r i a n c e a n dc o v a r i a n t e - m a t r i xo ft h ev a i l a b l e s ,a n d s u m m a r i z em o r ev a r i a b l e si n t of e w e ro n e st os t u d yt h ei n f o r m a t i o no ft h ep o p u l a t i o n a i m i n ga ts i m p l i f y i n gt h ed a t a , t h ep r i n c i p a lc o m p o n e n ta n a l y s i sp r o je c t st h e h i g h e r - d i m e n s i o n a ld a t at oal o w e r - d i m e n s i o n a ls p a c e 、丽t ha sl e s sa sp o s s i b l el o s so f i n f o r m a t i o n i ti sa l s oam e t h o do fs u m m a r i z i n gm o r ed e p e n d e n tv a r i a b l e si n t of e w e r i n d e p e n d e n tv a r i a b l e su n d e r t h ep r i n c i p l eo fm i n i m i z i n gt h el o s so fi n f o r m a t i o na sm u c h a sp o s s i b l e t h ef a c t o ra n a l y s i si sd i f f e r e n tf r o mt h ep r i n c i p a lc o m p o n e n ta n a l y s i s t h ef o r m e r a i m sa ts t u d y i n g ,s i m p l i f y i n ga n da n a l y z i n gt h ei n n e rc o m p l e xr e l a t i o no ft h eo r i g i n a l v a r i a b l e st h r o u g hf m d i n gt h ec o m m o nf a c t o r s i td e c o m p o u n d se a c hv a r i a b l ei n t ot w o p a r t s o n ei st h ec o m m o n f a c t o r t h eo t h e ri st h eu n i q u ef a c t o r t h i sp a p e ri n t r o d u c e st h em e t h o d so fp r i n c i p a lc o m p o n e n ta n a l y s i sa n df a c t o r a n a l y s i si nc h a p t e r s2a n d3 ,r e s p e c t i v e l y , a n dg i v e st h ed e s c r i p t i v es t a t i s t i c a la n a l y s i s 2 山东大学硕士学位论文 a n dt h ep r i n c i p a lc o m p o n e n ta n a l y s i so f t h es u r v e yd a t ai nc h a p t e r4 k e yw o r d s :p r i n c i p a lc o m p o n e n ta n a l y s i s ;f a c t o ra n a l y s i s ;s p o tc h e c k 3 原创性声明 本人郑重声明:所呈交的学位论文,是本人在导师的指导下,独 立进行研究所取得的成果。除文中已经注明引用的内容外,本论文不 包含任何其他个人或集体已经发表或撰写过的科研成果。对本文的研 究作出重要贡献的个人和集体,均已在文中以明确方式标明。本声明 的法律责任由本人承担。 论文作者签名: 丝:益! 至一 日期:2 竺:垒:! 关于学位论文使用授权的声明 本人完全了解山东大学有关保留、使用学位论文的规定,同意学 校保留或向国家有关部门或机构送交论文的复印件和电子版,允许论 文被查阅和借阅;本人授权山东大学可以将本学位论文的全部或部分 内容编入有关数据库进行检索,可以采用影印、缩印或其他复制手段 保存论文和汇编本学位论文。 ( 保密论文在解密后应遵守此规定) 论文作者签名:l 姓导师签名:辑日 期:业 山东大学硕士学位论文 第一章引言 随着我国经济持续稳定的增长和移动通信服务的发展,我国的移动通信市场 增长迅速,手机日渐普及低年龄层手机普及率的增长要明显高于中年层的居民, 而且,手机潜在消费群有低龄化的趋势现在在校园里,手持手机边走边通话的大 学生、高中生已是屡见不鲜了,甚至在沿海及东部发达地区某些初中生中也出现了 许多“吃螃蟹 者,且这股手机潮仍有愈演愈烈之势 校园的学生群体当中,大学生、准大学生群体是目前学生消费群体的主力军 目前学生手机年消费量约在5 0 万部左右,约占市场总消费量的8 2 ,虽然还不能说 是对市场起举足轻重的影响,但这一特殊的消费群体具有其它群体所不具备的优 点和潜力,抓住这块市场,对于厂商来说大有裨益首先是因为群体的规模较大和 增长速度较快随着近几年来各地高校的不断扩招,目前全国每年新增大学生超过 了2 5 0 万,高校在校生人数得到了快速的发展,今年在校生人数将接近9 0 0 万,而这 些年龄段在1 8 2 5 岁的年轻人正是手机消费的主要群体此外,大学生基本以集体 生活为主,相互间影响大信息交流很快,这就非常利于进行集中式的促销活动,与 在市场上相比,同样的促销投入能得到更好的效果,尤其是对一些进入市场不久、 知名度不高的手机品牌来说,往往能起到事半功倍的作用i 根据国家教育部( 2 0 0 2 年教育事业统计主要结果及分析显示,2 0 0 2 年全国 学生数共有3 1 8 7 9 万人,其中全国普通、成人高等学校本科、高职( 专科) 在校生 达1 4 6 2 5 2 万人;整个高中阶段教育共有学生11 7 6 9 2 万人;全国普通高中共有 学生6 7 6 7 0 万人目前,学生的基数是很大的,手机厂商应该好好发掘这个潜在的 巨大市场 随着手机市场首次购机比重的逐渐萎缩,每年近2 5 0 万的入校新生和近2 0 0 万 毕业生的大学生市场就显得尤为重要,他们将是以后首次购机人群稳定的主要组 成部分此外,大学生群居性、集中性购买的特点非常利于商家们进行季节性的重 点促销,能得到更高的投入产出比;年轻人勇于尝试的个性化特点也给了一些手机 中小品牌与大品牌竞争的机会目前的大学生用户就是将来的中高端用户,抢占大 学生市场,不但能提升现在的市场占有率,也是在抢占未来中高端用户的心理市 4 山东大学硕士学位论文 场 作为全球市场容量最大、最有潜力的中国市场,国产品牌手机与外资品牌手机 的争夺战也愈演愈烈在这种大背景下,无收入、无职业却拥有无穷消费潜力的特 殊消费群体一学生手机族,已经成为手机消费市场中一支不容忽视的生力军学 生手机市场逐步成为一块新的大蛋糕,越来越多的厂商开始关注学生消费群体并 觊觎这块大蛋糕那么手机厂商到底该采取什么样的策略才能在学生手机市场上 叱咤风云呢? 这无疑是手机厂商所关心的一个重要问题我们在日照市的几所高 校进行了抽样调查,并对调查结果进行了统计分析,得到了一些有用的结论 由于抽样调查结果属于多变量大样本资料,这些资料无疑能提供很多有价值 的信息,但在分析处理多变量问题时,由于众多变量之间往往存在一定的相关性, 使得观测数据所反映的信息存在重叠现象因此为了尽量避免信息重叠和减轻工 作量,人们就往往希望能找出少数几个互不相关的综合变量来尽可能地反映原来 数据所含有的绝大部分信息,而主成分分析和因子分析正是为解决此类问题而产 生的多元统计方法 主成分分析与因子分析都是从变量的方差一协方差矩阵入手的,都是把多个变 量综合成少数几个综合变量来研究总体各方面信息的统计方法,且这少数几个综 合变量所代表的信息不能完全重叠,即变量问不相关从两种方法的表达的含义上 看,二者都是寻求少数的几个变量( 或因子) 来综合反映全部变量( 因子) 的大部分 信息,变量虽然较原始变量少很多,但所包含的信息量却占原始信息的8 5 以上,用 这些新变量分析问题,其可信度仍然很高,而且这些新变量彼此间互不相关,消除 了多重共线性因为主成分分析变量或因子分析变量比原始变量少了许多,所以用 新产生的主成分或因子变量代替原始变量进行下一步的分析可以起到降维的作用, 为处理数据降低难度 主成分分析通过投影的方法,将高维数据以尽可能少的信息损失投影到低维 空间,使数据降维以达到简化数据结构的目的它也是在尽可能减少信息损失的原 则下将多个相关变量综合化为少数几个不相关变量的方法 因子分析不同于主成分分析,它的目的在于研究原始变量的内部关系,通过寻 找变量的共同因子来简化和分析变量中存在的复杂关系它把每个变量分解为两 部分因子,一部分是由这些变量内含的公共因子所构成的,即所谓公共因子部分, 山东大学硕士学位论文 另一部分是每个变量各自独有的因子,即所谓独特因子部分因子分析主要注意的 是变量分解的具体结构形式,而不是按分解的变差大小,这一点是与主成分分析不 同的随着计算机的应用与发展,主成分分析和因子分析在经济、社会等各方面得 到了广泛的应用 s p s s 软件是常用的统计分析软件之一,它窗1 :3 式的操作界面应用起来非常方 便本文用s p s s 软件对调查数据进行统计分析 6 山东大学硕士学位论文 第二章主成分分析 多元统计分析是数理统计近几十年来发展起来的重要分支之一它在社会经 济、工农业、生物、医药、环保、气象等各个领域都有广泛的应用,尤其在信息和 计算机技术高速发展的今天,更显示这一分支的重要作用关于多元统计分析的文 献有很大,如参考文献 卜1 6 主成分分析是多元统计中常用的方法本章主要介 绍主成分分析的思想和性质 2 1 主成分分析 设x = ( ) 为一个玎p 的数据阵,列表示变量或指标,行表示样本或个体,并记 x = ( 五,屯,吒) = ( 气。) ,气:) ,气,) ) , 其中薯为x 的第f 行,气,) 为x 的第歹列,即x 可视为刀个p 维点的集合,又可视为p 个以维点的集合考虑x 为玎个p 维点的集合,希望在r p 空间的一个低维空间,设为 g ( p ) 维,使得这些点到这g 维子空间的投影点与原始点最接近,从而用这些投影 点描述刀个原始点而信息损失最小 令q = l ,要在r p 空间中挑一个方向( 作为坐标方向) ,使得这疗个点与它们在过 原点此方向的直线上的投影点最接近,利用几何思想表示就是:记直线厶的方向单 位向量为确,则薯到厶的投影为铂,所谓接近的准则是误差平方和 达到最小利用勾股定理。有 期五一( 铂) 坼0 2 窆肛,一g ;- 。1 1 2 :窆6 k i l 2 一g 。) 2 ) :主肛,1 1 2 一ng :材。) 2 j = lj = ll = li = l 由于n 0 2 固定,故上式的最小化问题等价于最大化兰( 嘲) 2 利用矩阵表示,最大 t = l l f f i l 7 山东大学硕士学位论文 化喜( 幽) 2 就等价于求甜使材x 达到最大,或求搿堑孚由二次型极值性质, 显然这个最大值就是x x 的最大特征值五,而达到这个最大值的u 就是a 所对应的 特征向量z 1 1 这样得到的厶就是对数据具有最优拟和的一维子空间 下面考虑用二维子空间对数据进行拟和,就是再求一个与正交的单位向量吻, 由u 1 ,u 2 产生二维子空间,使得r 个数据点向这个二维子空间的投影点与原始点最接 近,即求满足z ,u 1 = 0 的单位向量“:,使得 自薯一( 砒) 一( 咖) 甜1 1 2 l = 1 达到最小同样由勾股定理可得 n 忙一g 。- 。一g ;“囊1 1 2 t = i :n 蚓1 2 一羔g ;”。) 2 一ng _ ) 2 i = 1i = 1i = 1 :自玎一五一窆g ) 2 t = ll = l 上式达到最小等价于使兰( 珈) 2 达蓟最大,由极值二次型性质有 m a x u x x u2 厶 h e r 9 u 1 u t u u 其中五为x x 的第二大特征值,达到如的甜为其对应的特征向量“: 一般的,假设x x 的特征值为丑五以o ,对应的标准正交特征向量为 u i “:,“,则对任何q ,最优的拟和子空间为m ( ,材:,) ,即由,”:,“p 张成 的子空间这些结果总结在下面的定理中 定理2 1 对任何g ,0 q p ,在所有可能的g 维子空间中,以x x 的前g 个特征 向量所张成的子空间m ( ,屹,u q ) ,使而,恐,毛与它们在m ( 地,屹,u q ) 中的 投影有最小误差平方和 8 证明:设为任一g 维子空间,啊,红,为只的标准正交基,则每个薯到峨 中的投影为羔( 锅) ,_ ,恐,毛与嚣个投影点的误差平方和为 j = i e 2 = 喜6 薯一芸( 以) 吩f 1 2 = 喜。薯1 1 2 一善n 丢q ( 1 乃) 2 , f h $ x x 的标准特征向量“,“:,“p 构成r ,中的标准正交基,故每个吩可表示为 嘭2 乃1 + 乃2 u 2 + + 厶u p = , 其中u = ( ,屹,u p ) ,乃= ( 乃。,乃:,厶) 由于 j 蚧嚣 故也有 掰j = 。 嚣 注意到舯r 的谱分解腑= 删u 7 ,其中人= 诫昭 ,五,以 ,故 芝芝( 巩) 2 :圭窆( 巩) 2 :杰勺朋哆:妻嘭u 人u t = lj = 1 j = ll = l ,= l,;l = q 鹏= p 五厶2 口 = 五厶2 + 五厶2 i = l j = ll = 叮1 = 1 4 一l口口口 五芝厶2 + 艺乃宅厶2 , 其中”= ”成立= l 厶2 = o ( f = g + l ,p ) 厶2 0 ( i 2 9 + l ,p ) 从而 上式= 呈丑羔厶2 + 乃q 厶2 :圭丑羔厶z 兰乃, l - - 1 = 1= li = lf = ll ;l 其中“= 成立善q 厶2 = l i f = 1 ,g ,。 g p ) 乃= e s ( j = 1 ,吼。 g 力, 9 山东大学硕士学位论文 e j = ( o ,o ,1 ,0 ,0 ) ( 第j f 个分量为1 ) ,即只有取以= u j ,j = l , - - , q 时,使得 q = 1 ,p 依次达到最小定理得证 定义2 1 设 五以o 为x x 的特征值,u i ,“2 ,甜,为其对应的标准 正交特征向量,则: ( a ) 称为x 在r p 中的第f 个主轴向量( 简称主轴) ,i = 1 ,p ; ( b ) 称如,g u ,为的主坐标,i = 1 ,p ; ( c ) 称疗个样本点的第_ ,个主坐标形成的向量 以) = x u j = ( 爿叶,吩) 为x 的第个主成分,i = 1 ,p ; ( d ) 对样本点x ,称值x 吩为该样本关于第个主成分的得分 用以j ) = x u ,j = l ,p 记变量) ,气p ) 的p 个主成分,用矩阵表示即为 】,= ( 政1 ) ,以p ) ) = x u , 其e eu = ( u l ,吲p ) ,由于 y t = u x x u = u ( 删u ) u = a i 即 概= 协葚 也即主成分之间相互正交,且第个主成分的模为, - g 由于矩阵u 的正交性,又有 p x = 彤,即气o = 欺胪i = l ,p , ( 2 1 ) = l 从而用主成分向量可恢复原始数据,且线形组合的元素就是u 的元素如果选部分 主成分对原始数据进行逼近,就有最优近似 1 0 f ,f = 1 ,p p 气1 ) 乙乩) ,归l , j = l 山东大学硕士学位论文 对任意的f ,l l p ,由投,) 的正交性,误差平方和为 西= 到= x ( o - y = i ,障慨,隧i = l 圭j = i 协,) 2 :t r x x 一圭l f ,兰“z 。、1 :羔丑一圭五:圭乃 = 一l i 艺“2 “卜艺丑一五= 艺乃 j = li = l i = i j = lj = l + l 因此,从恢复数据的损失信息最小角度看,用主成分逼近是最优的 , 我们称护( z x ) 为数据阵x 的总变差,以为主成分苁) 对x 的变差贡献,乃 j = l 是前,个主成分对x 的总变差贡献乃:圭乃圭乃为前,个主成分对x 的变差贡 j = l j = l 献率 2 2 在r p 空间的拟合以及与在r ,空间中拟和的关系 一个数据阵x c 。p ) 也可以视为p5 y i j 向量组成,即x = ( 气。) ,气p ) ) ,其中 x ( o , i = l ,2 ,p 为肛维空间肜中的点或向量与在r p 空间中的拟和问题完全类似, 也有一个在r ”空间的拟合问题,即对于给定的正整数g ,l o 因为x x 与( 肋) ( 肋) 一 般具有不同的特征值和特征向量,因此对x 进行主成分分析与对x d 进行主成分分 析结果是不同的于是对x 进行主成分分析需要考虑对其元素标度的选取,使之合 理 2 3 2 主成的计算分析步骤 设置唧) 为给定的数据阵,下面在r p 空间以相关阵作为主成分分析为例说明实 际应用中进行的计算步骤 ( 1 ) 首先将x 中心标准化,即 x 专h x d 一, 其中日= ,一丢1 1 ,d = 讲昭钏龟。) l l 一,0 乜p ) 0 ) ,变换后的数据阵仍记为x ( 2 ) 求腑的特征值 五以o 和对应的标准正交特征向量嘶,u p , 这由对麟的谱分析完成,即x x = 人u ,其中u = ( l ,“,) ( 3 ) 求主成分对总变差的累积贡献率,即对 g p ,计算 ;圭丑兰丑, 对事先选定的贡献率,确定使c o 的最小的g ,通常取c o = 8 5 ( 4 ) 计算主成分扳) = 弛,j = l ,2 ,g ,即 欺,= ( 投,) l ,牧咖) ,j = l ,9 , 其中) f = x u j 即为第f 个个体( 样本) 在第个主成分上的得分 ( 5 ) 根据实际问题对主成分以及个体特性作出解释作图和其它分析 1 4 山东大学硕士学位论文 2 4 对多元总体的主成分分析 2 4 1 对多元总体的主成分分析 设x = ( 西,) ( ,) 为一个p 元总体,为简单起见不妨设= o ,为x 的 协差阵,妒反映总体x 的总变差与数据阵情形类似,要对给定的g ,o g p ,求一个 g 维子空间致,使得x 在q 中的投影的协差阵具有最大的变差,从而认为这投影是 对石的最好的拟合,即损失信息最少从数学上讲,就是求q 个相互正交的标准的坐标 向量,口g ,使得 仃m 咿,吃) x ) h 觋) 达到最大,其中= ( ,) ,特别的,当g = 1 时,使 t r c o v ( 口x ) = 口芑口 达到最大的值为的最大特征值允。,而且在口- - - - u i ,即的对应于名。的特征向量上 达到,其中设 五乃2 0 为的特征值,甜p 为对应的标准正交特征向量 由二次型极值的性质,容易证明对任何o g p ,使得仃( u ) 达到的最大值为 羔五,而且在:( ,) 上达到 i ;i 类似的,定义关于总体x 上的主轴、主成分、样本主成分得分: 定义2 2 称为x 的第f 个主轴,只= 咖为x 的第f 个主成分,如果工为来自x 的一个样本,则称x 钆为样本x 在第_ 个主成分上的得分 关于总体主成分有如f 性质: ( 1 ) c 。v ( 以,乃) 2 孑:;三二,l ,= 1 ,p ,即不同的主成分相互正交,主成分 y j 的方差为乃,且称乃为主成分乃对总体变差护的贡献,还有驴= 盯2 ,= 乃 山东大学硕士学位论文 删姊搠棚揪酬) = 铷 ( 3 ) 圭仃z ( ,乃) :乃,即第,个主成分y j 对x 各分量总贡献为 七= l 以,= l ,p ( 4 ) 圭p :( t ,乃) :城:1 ,p j = l 证明:( 1 ) 注意到y ;= “名,由协方差的性质, - - f p g 得到 c o v ( 咒,乃) = c o v ( 咖,杉x ) = 彬c o v ( x ,x ) 吩 = 甜互吩= 孑:歹;兰 令协= 咖( 五,乃) ,u = ( ,豁p ) ,则u 可= 歹,由的谱分析可得 :兰丑吩彬:( 甜。,“p ) 么( 嘶,) :u d i u , ( 2 4 ) p t r z = t r ( u d a u ) = 护( 幺u 可) = 护( b ) = 乃 ( 2 ) 由相关系数定义 ,(冀l,i,)=黼,t,=:,。,j, 将其写成矩阵: = ( p ( ,乃) ) p x p = 见1 门c 。v ( x ,j ,) 幺。1 佗, 其中见= 抛( 吼2 ,2 ) 由于y = u k ,则由协方差性质及( 2 4 ) 式,有 o = 见- 1 佗z u d a _ 1 坨= 见1 坨吗吖2 , 由此即可得( 2 ) ( 3 ) 由( 2 ) 即可得 1 6 山东大学硕士学位论文 艺吒2 p 2 ( ,乃) = 艺乃材茸2 = 乃艺甜材2 黾 k = lk = li ;l ( 4 ) 由( 2 ) 及( 2 4 ) 式可得 姜p 2 ( 黾,乃) = 匀7 吒a j 。u 簟2 吒1 。;p 乃“鼙2 = t 2 4 2 带协变量的主成分分析( 偏主成分) 设两组变量y 7 = ( m ,以) 和x t = ( 而,) ,( y ,r ) 有联合分布并且有联合均 值( 肜,从) 和协方差阵: = ( 至:至二) 。 则矩阵 y 广,一f 。- 1 矽= ( 岫。) 为j ,关于x ( 称为协变量) 的回归后的偏方差和协方差矩阵,只和乃关于x 的偏相 关为 彳2 瓦务, 因为拶是y 的协方差矩阵,而矩阵 芦。- 1 掣 是j ,由x 所解释的协方差( 或散度( d i s p e r s i o n ) ) 。即为y 消除了x 的影响( 即 回归) 后的剩余协方差,显然有,0 许多实际问题常常需要考虑提取残差变量组 z = y - i :。二:x 的主要信息,这就可以通过对这组变量作主成分分析来完成,即从提 取变差信息的意义上,找最佳的低维空f s - j 使得拟合这组残差变量达到最优于是,和 2 4 1 节类似,对于给定的g ( o 口 p ) ,求g 个相互正交的标准坐标向量a ,岛,使 得 1 7 山东大学硕士学位论文 仃 c o v i ( 矗,岛) ,z ) 卜( 簪以) 达到最大,其中乞= ( a ,岛) 当q = s 时,乞记为尸特别的,当g = l 时,即是 t r c o v ( 此) = p y 。p 达到最大值研,即y ,的最大特征值,而且在其对应于q 的特征向量p = a 达到其它 分析是类似的对这类l b - 题y 的协方差的分解有一定特殊意义,下面给出它的解释 考虑y ,的谱分解: y | = p p , 其中o = 诫昭 q ,巳 ,研q 则y 的总变差可写成 t r ( x 抄) = t r ( 声- 。1 夥+ t r ( p o p ) 即 圭:圭+ 圭包= + 包 其中q ,为y 的第f 个分量由x 所解释的方差可以用比值 + 只 芝吒 来选取适当的七,一般使成 7 0 8 0 之问 它的第,个偏主成分为 _ = ( z 一& ) = ( y 一以) 一f = :( x 一从) , 并称考为它的第j f 个标准主成分记嵫如,和q = ( g l ,溉) ,其中 吼= 只虿,即q = 最o 。1 位,o 。= 讲口g 岛,皖 如果选取k 个偏主成分来近似原变量组y ,则有如下的最优拟合表示: 1 8 山东大学硕士学位论文 夕2 以+ f 二:【x 一以) + 最 亏以+ f 二:( x 一以) + q 一坨, 并对每个变量咒的吒方差有如下近似: o | i a i + p 嚏, 其中肛嘉g 2 ,而且比值警可以用来评价部分偏主成分拟合变量咒的程度 对于两组变量的样本或数据阵】 唧) 和五。) 的情形,只要将换成联合的离差 阵 ( y ,咖( y ,耻( 茹篡) 。 或者样本协差阵 s = 眨乏) 将y ,= ,一二:砂换成偏离差阵y 哪一】,嗽( x 嗽) 1x t - y 或者样本偏 协差阵s ,= 一s 圾,其中日= ,一丢1 1 为中心化矩阵,再进行类似于2 1 中 对数据阵情形的分析即可 1 9 山东大学硕士学位论文 第三章因子分析 因子分析也是多元统计分析的常用方法之一因子分析不同于主成分分析,它 的目的在于研究原始变量的内部关系,通过寻找变量的共同因子来简化和分析变 量中存在的复杂关系它把每个变量分解为两部分因子,一部分是由这些变量内含 的公共因子所构成的,即所谓公共因子部分,另一部分是每个变量各自独有的因子, 即所谓独特因子部分因子分析主要注意的是变量分解的具体结构形式,而不是按 分解的变差大小,这一点是与主成分分析不同的本章主要介绍因子分析的原理和 性质 3 1 基本因子分析模型 同第二章,设工为一个黝p 的数据阵,列表示变量或指标,行表示样本或个体, 并记x = g l ,一,吒) ,= g ( 1 ) ,x ( p ) ) 定义3 1如果数据阵x 具有下列的结构形式,则称x 具有k 因子模型: x = l a + f a + u ( 3 1 ) 其中f = ) = 。) ,凡) ) 为一个疗七阶矩阵,u = - ( 。) ,“( p ) ) 为一个,z p 阶矩 阵,为p x1 向量,并且满足条件: 嚣品禁i :u u :d i a g 1 一州,f ,u :0 2 , i 品= f f = ,甲= = ,沙p , 7= 。 则称兀) ,兀) 为公共因子,) ,甜( 尹) 为独特因子,人= k ) 为因子载荷阵因子模 型要求k o ,于是 ( 3 3 ) 式变为 y = 尉c + u c 得 s = y y = c x x c = ( 人c ) ( a c ) + c w c 由定理3 2 ,x 也有七因子嵌型,其因子载荷阵为a c ,个性变差阵为 c 甲c = 西口g ( 彳,c ;) 这表明因子模型在变量的标度变换下是不变的 山东大学硕士学位论文 ( 3 ) 因子载荷阵的不唯一性 设x 有k 因子模型( 3 3 ) ,又设q 为k x k 正交阵,则有 x = ( f q x e 人) + u 显然叼,矿满足条件( 3 2 ) ,即x 对新因子阵固和新因子载荷阵q a 仍满足k 因 子模型,并且 s = x x = 八,人+ 甲:人人+ 甲。 其中人= q a ,q 为任意k x k 正交阵这说明对k 因子模型的因子载荷阵不唯一 事实上,如果k 因子模型是确定的,即公关因子空间和各自独特因子空间是确定的, 并且甲是确定的,则因子载荷阵的唯一不确定性只是相差一个正交阵因子,即如果 人,人+ 甲= 人人+ 甲,则存在k 阶正交阵q 使得”= q 人 克服这种不确定性的方法,通常是对a 和甲加一些约束条件,使得人趋于确定 当然,这种约束应该具有实际意义 因子模型的求解方法有多种,其中常用的有主因子法、主成分分析法、重心法 和方差最大正交旋转法等,这些方法在文献 2 中有详细的介绍 3 3 主成分分析与因子分析的联系与区别 主成分分析与因子分析是两种多元统计分析方法,两者都是从变量的方差一协 方差矩阵入手的,都是把多个变量综合成少数几个综合变量来研究总体各方面信 息的统计方法,且这少数几个综合变量所代表的信息不能完全重叠,即变量间不相 关从两种方法的表达的含义上看,二者都是寻求少数的几个变量( 或因子) 来综合 反映全部变量( 因子) 的大部分信息,变量虽然较原始变量少,但所包含的信息量却 占原始信息的8 5 以上,用这些新变量分析问题,其可信度仍然很高,而且这些新变 量彼此间互不相关,消除了多重共线性因为主成分分析变量或因子分析变量比原 始变量少了许多,所以用新产生的主成分或因子变量代替原始变量进行下一步的 分析可以起到降维的作用,为处理数据降低难度 主成分分析是研究如何通过少数几个主成分来解释多变量的方差一协方差结 构的分析方法,也就是求出少数几个主成分,使它们尽可能多的保留原始变量的信 山东大学硕士学位论文 息,且彼此互不相关因子分析是研究如何以最少的信息丢失,将众多原始变量浓 缩成少数几个因子变量,以及如何使因子变量具有较强的可解释性的一种多元统 计分析方法这两种方法是处理多变量、大样本时经常采用的方法,二者的最终目 的都是降维,而且在处理方法上,许多参考文献上都强调因子分析法是主成分分析 方法的扩展,也就是因子分析的基础是主成分分析法 主成分分析是将原来多个具有一定相关性的指标变量合成一组相互无关的综 合指标来代替原指标因子分析也是将原来多个具有相关性的指标分解成一组数 量较少的不相关的因子,再现原变量依赖于因子的关系。两种方法都是寻求彼此不 相关的简化的指标结构,消除原指标的相关性,降低指标维数的方法 从数学表达式看,主成分的个数虽然和原变量的个数一样多,但主成分是按其 方差由大到小的顺序进行排序的,所含信息量依次减少,前几个主成分就可以反映 原指标变量的大部分信息,所以可用前几个主成分替代指标变量,信息损失量很少 一般情况下,因子个数少于原指标变量的个数,且因子也可以以其方差大小降次排 序的,所含信息量依次减少,所以两种方法都起到抓住事物的主要方面简化模型结 构的作用另外,指标间的相关会使指标反映的信息严重重复,从而加大统计分析 工作的复杂性用主成分分析和因子分析法都可将相关指标化成无关指标,有助于 消除由于原指标变量相关而产生的信息重叠,使复杂问题简单化 总之,主成分分析和因子分析是两种既有区别又有连续的处理数据的多元统 计分析方法,在处理实际问题时使用哪种方法要根据实际情况而定 山东大学硕士学位论文 第四章日照市大学生手机使用情况的 调查与统计分析 本章介绍我们对日照市几所高校学生的手机用户情况的抽样调查设计以及对 抽样调查结果的统计分析 4 1 日照市大学生手机使用情况的问卷调查 调查是现代社会进程的一个重要组成部分,其中大量进行的是抽样调查抽样 调查也是一门应用性很强的学科,目前的文献也有不少,如本文参考文献 1 7 2 0 一、调查目的 正如本文第一章所述,手机已成为大学生群体中最普遍的通讯工具,学生手 机市场是个很广阔的具有巨大发展潜力的市场手机厂商要想在学生手机市场上 占有一定份额,必须对学生手机市场进行充分的调研,了解市场行情我们的目的 是对日照市几所高校学生的手机用户情况进行抽样调查,以了解日照市高校学生 的手机市场行情 二、调查的准备阶段 ( 1 ) 调查的总体 调查的总体即为要想达到调查的目的所关注的集合由于我们的目的是了解 日照市高校学生的手机市场行情,因此,我们调查的总体就是日照市高校的在校学 生 ( 2 ) 抽样框 抽样框是制定抽样调查方案时的一项重要内容制定抽样方案时,总体必须划 分成一些抽样单位,这些单位是相互不重叠的,而且能完全覆盖总体我们在此次 抽样中以学校为单位进行抽样 ( 3 ) 收集数据的方法 由于此次抽样是在高校内进行,我们采用面访的方式,直接到学生教室发放调 查表,请学生填写后收回 ( 4 ) 抽样设计 山东大学硕士学位论文 此次抽样的抽样调查方案采取简单随机抽样方法 ( 5 ) 调查问卷 下面是此次抽样调查的调查问卷 一:您的个人信息: 年级:a 2 0 0 7 级b 2 0 0 6 级c 2 0 0 5 级d 2 0 0 4 级 性别:a 男b 女 二:基本问题: 1 您的家庭所在地:a 城市b 城镇c 农村 2 您的家庭经济状况:a 富裕b 一般c 困难d 此较困难 3 您购买手机的价位:a 5 0 0 元以下b 5 0 0 元至1 0 0 0 元c 1 0 0 0 元至1 5 0 0 元 d 1 5 0 0 元以上 4 您使用的网络:a 移动b 联通 5 您使用手机的主要目的:a 追求时尚b 方便联系c 业余工作需要d 其他 6 您的手机每月消费数额是:a 低于2 0 元b 2 0 元至4 0 元c 高于4 0 元 7 您的手机的消费在您一月总消费中所占的比例( 除去饮食开销) 是: a 1 0 至2 0 b 2 0 至3 0 c 大于3 0 8 您购买手机的品牌:a 诺基亚b 摩托罗拉c 三星d 其他 9 您喜欢的联系方式:a 短信b 电话c 上网d 其他 1 0 您每天发短信的数量:a 小于5 条b 5 到1 0 条c 大于1 0 条 1 1 您对于手机广告的态度:a 反感b 喜爱c 无所谓 1 2 您对手机辐射在意吗? a 很在意b 不太在意c 不在意 1 3 您认为手机会影响自己正常上课吗? a 影响很大b 影响不大c 不影响 1 4 您的消费来源:a 。父母b 奖学金c 勤工俭学d 其他 此次问卷调查共发放问卷5 0 0 份,收回有效问卷4 8 5 份,因此问卷调查是有效 的 山东大学硕士学位论文 4 2 日照市大学生手机使用情况的统计分析 常用统计分析软件有很多,s p s s 是其中之一,介绍s p s s 的文献有很多,参考文 献中的 2 1 和 2 2 是其中的两本本文用s p s s 软件对调查数据进行统计分析 4 2 1 频率分析 本小节主要对调查数据进行频率分析频率表亦称频率分布表,是由变量值的 分组和各组段的例数及频率构成,由频率表可看出频率分布的两个重要特征:集中 趋势和离散程度 表1 年级频率表 变量值 频数百分比累计百分比 a 9 82 0 22 0 2 b1 1 22 3 14 3 3 c 1 2 52 5 86 9 1 d1 5 03 0 91 0 0 0 0 0 0 0 总计 4 8 51 0 0 0 0 0 0 0 由表l 可知,调查对象的年级构成为大一占2 0 2 0 6 1 9 ,大二占2 3 0 9 2 7 8 ,大 三占2 5 7 7 3 2 0 ,大四占3 0 9 2 7 8 4 ,呈逐年递增的趋势,这是因为每年都有一部分 同学购买手机,从而学生拥有手机的比例随着年级的增长而增长 表2 性别频率表 变量值频数百分比累计百分比 a2 3 04 7 44 7 4 b2 5 55 2 61 0 0 0 总计 4 8 51 0 0 0 由表2 知,被调查学生中男生2 3 0 个,女生2 5 5 个,分别占被调查学生的4 7 4 和5 2 6 ,男女生比例基本一致,因此,手机厂商对手机的开发,特别是手机款式的 开发应该男女生并重 山东大学硕士学

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论