




已阅读5页,还剩13页未读, 继续免费阅读
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
第十二章 简介定性资料的统计分析本章不是全面的介绍这方面的理论、方法和应用,而是初步反映一下这方面的主要内容,目的是展示进一步可学的知识,以便更好地解决实际问题。12.1 定性变量数量化前面几章所介绍的各种统计方法,主要是研究与定量变量(或称间隔尺度变量)有关的问题,但在实际应用中,往往不可避免地要涉及到定性变量(或称名义尺度变量),例如人的性别、职业、天气状态,经济工作中选择的政策以及地层的构成类型等等,这些变量都只有各种状态的区别,而没有数量之区别。若定性变量不进入数学关系式,则会丢失信息,若要进入,又难于直接参加运算,于是从20世纪五十年代起开始发展了数量化理论,首先应用于“计量社会学”,六十年代后,逐步应用于各种学科,随着电子计算机的普及和发展,数量化理论将会在自然科学和社会科学的许多方面发挥出更大的作用。如何对定性变量给以相应的数值描述,从而进行有关的统计分析,这就是数量化理论所研究的主要内容。数量化理论已有专著出版,本节为了应用上的需要,仅介绍常用的0-1赋值法。例如定性变量是性别,记为X,如此赋值:如此赋值的理由是简单,并没有任何数量大小的意义,它仅仅用来说明观察单位的特征或属性,因此不同特性或属性的观察单位应取不同的值。例如:天气可取晴、阴、雨三类,则用两个变量(X1,X2)表示天气,如此赋值:例如:有多种有害物污染了大气,由于有害物的结构不同,将污染物分为五类地区;甲、乙、丙、丁、成戊将地区用4个变量(X1, X2, X3, X4)来表示,如此赋值:综上所述,推广为一般的赋值法如下:若某定性变量可取K类,则用K-1个变量表示,如此赋值:以上K个类的次序可以交换。对于取K个类的定性变量,为什么用K-1个变量而不用K个变量表现?例如某定性变量可取甲、乙、丙、西四个类,可否如下赋值:易知,如此赋值将使X1+X2+X3+X4=1,不论是第几次观测,也不论定性变量取哪一类,皆使上式成立,即4个变量之和有稳定的线性关系式,知道其中任意三个就可推知另一个。定性变量数量化后,就可以全部作为定量变量来统一处理进行预测或分类等研究。12.2 列联表主要介绍二维列联表,对于三维以上的列联表只要在形式上稍加改变就能适用于高维表,原则上是一样的,只不过高维列联表符号更复杂一些,也增加些分析的难度。1 列联表的概念列联表讨论的主要是定性资料,此处介绍二维列联表的目的,不是将其数量化,而是直接进行分析并给出两个定性变量之间是否独立性检验。先看一个简单例子:研讨吸烟与患肺癌的关系,这里用A表示一个人是否患肺癌,用B表示一个人是否吸烟,从一批被调查的对象中得到的统计表如下: BA吸烟不吸烟患肺癌603未患肺癌3211研讨患肺癌是否与吸烟有关?这张统计表称为22列联表,表中考察两个定性变量A和B,每个变量有两类,即A分为患肺癌与未患肺癌两类,B分为吸烟与不吸烟两类,表中间的数值是频数,每一个被抽到的人,都可确定他的()取值,比如表中数值60,表示被抽人群中吸烟又患肺癌的人数,数值32表示吸烟示患肺癌的人数。一般22列联表形式如下:BAB1B2A1n11n12n1.A2n21n22n2.n.1n.2n其中表示第i行Ai和第j列Bj的样品出现的频数,一般可取任意非负整数。这是一个最简单的列联表,如果两个定性变量分别考察r和c类,则相应的列联表为表(r和c可以不等)有如下形式: BAB1B2BcA1n11n12n1cn1.A2n21n22n2cn2.Arnr1nr2nrcnr.n.1n.2n.c如果一个问题涉及到很多的定性变量,相应的频数表就是一个高维列联表。在概率统计中描述两个随机变量的相关程度是用线性相关系数,为了避免术语上的混淆,描述两个一性随机变量之间的相关性是指广义的相关性,称为关联性,两个定性随机变量之间的关联程度在某种意义上就是指的“不独立性”,它与独立的情形差距越大,就表明彼此的关系越密切,这种关系不一定是线性关系,然而在实际问题中,重要的是判断变量之间是否独立,因为不独立就意味着是关联的。如何判断是否独立有很多方法,这里仅介绍一种常用的皮尔逊拟合优度x2检验。22列联表,对应一个多项分布,检验A与B是否独立,等价于检验:其中表示A为i、B为j的样品概率,和是相应的边缘概率,当独立性成立时,理论频数为:实际频数为:nij运用x2检验作判定,需要知道列联表中实际频数与相应的理论频数。用估计量代替。基实际频数与理论频数有差异,这时可用其差值的大小来度量两个变量相关程度。相差愈大,表明为真的可能性愈小,即A与B无关的可能性愈小。相反差值愈小,即二愈接近,为真的可能性愈大,A与B之间相关的可能性愈小。为避免实际频数与理论频数的差值出现正负抵消,可采用差值的加权平方和来检验,于是给出皮尔逊的拟合优度x2统计量为:它的极限分布是自由度为1的分布,根据给定的显著性水平a,查x2分布表得到临界值。若则拒绝H0,表示A与B之间不独立,存在相关,若则不能拒绝H0,表明A与B之间独立,不存在相关。将前面的例子作x2检验: BA吸烟不吸烟患肺癌60363未患肺癌3211439214106计算取显著性水平a=0.05,自由度为1,查x2分布表,临界值。显然,表明在5%的显著性水平上,拒绝H0即说明吸烟与肺癌不独立,而是存在相关的。如果列联表中变量间存在相关,那么如何度量变量间的相关程度?又如何从一个变量去预测另一变量呢?解决这类总是还有很多方法,已超出本书范围,不再详述,有兴趣的读者可查阅这方面的参考书。12.3 对数线性模型如前所述,列联表能够反映定性变量之间的关系,但能否像定量变量那样建立起数学模型如方差分析模型、回归分析模型等以便进一步描述定性变量之间的复杂关系呢?对数线性模型和Logistic回归模型就是解决这一问题的极为有效的方法,它们从不同角度出发导出不同的处理方法。对数线性模型,近十年来是国外实际工作者常用的方法,它的主要优点是可以把方差分析和线性模型的一些方法系数地移植过来,在概念和理解上均可进行对比,对数线性模型能够估计模型中各个参数,而这些参数值使各个变量的效应和变量间的交互作用效应得以数量化。下面即将看到这些结论。1 模型对数线性模型又分为很多种类型,常用的模型有:饱和模型(当变量间相互不独立时),非饱和型(变量间相互独立),谱系模型(包含高阶效应)等。下面从22的频数表与概率表出发,推导对数线性模型:(频数表)(概率表) BA有B 无B BA有B 无B有A无An11 n12n21 n22n1.n2.有A无Ap11 p12p21 p22p1.p2.n.1 n.2np.1 p.21将概率取对数后进行分解处理,使处理后的变量有较好的数学、统计的性质。记由上式可写成显然上式的结构类似于两因子有交互作用,各因子均为二水平的方差分析模型,于是令然后再进行平均,对i, j=1,2记则有关系式:可见通过上边分解处理,可以完全化成与方差分析模型有同样的结构,因此借助于方差分析的术语,上式中表示“总平均效益”,表示A属性的“主效应”,表示B属性的“主效应”,表示,A, B的 “交互作用效应”,直观可以理解当交互作用效应为0,即等价于A、B独立。上式模型称为对数线性模型的饱和模型,当=0时,称为非饱和模型。在实际应用时概率可用其估计量代替,即,这时就可以看到对数线性模型是将列联表上每个单元的频数作为因变量,表上所有变量作为自变量,建立各个自变量的效应与每个单元频数的对应之间的函数关系。因而可以用它分析列联表上的各个变量的关系。主效应或若大于0,表明效应为正;若小于0,表明效应为负。是第一个变量的第i个水平对总平均效应的增减量;是第二个变量的第j个水平对总平均效应的增减量,代表变量1和变量2在各自的第i个水平和第j个水平之间交互作用效应,是其交互作用对总平均效应的增减量。若,表明效应为负。实际计算时, 第i行频数对数的平均 第j列频数对数的平均 各个观测值对数的总平均即总平均效应对本章前面的例子,按上述模型估计各效应参数。各单元的频数表:吸烟不吸烟患肺癌60363未患肺癌3211439214106各单元的频数对数表:吸烟不吸烟均值患肺癌4.09431.09862.5964未患肺癌2.46572.39792.4318均值3.28001.74822.5141计算: 9主效应估计值: 变量水平变量1(是否患肺癌)变量2(是否吸烟)12计算:+2.5141=3.6127-4.3426=-0.7319+2.5141=4.9798-5.7188=-0.7320+2.5141=6.6083-0.8319=0.8319变量间交互作用效应估计值:主效应大于0,表明效应为正,如是因为患肺癌比未患肺癌的人多;主效应小于0,表明效应为负,如,是因为不吸烟的比吸烟的人少。交互作用大于0,表明交互作用效应为正,如,表明患肺癌与吸烟之间存在着相关;并互作用小于0,表明交互作用效应为负,如,表明患肺癌与不吸烟之间存在负相关。12.4 Logistic回归对数线性模型是将列联表中每格的概率(或理论频数)取对数后分解参数获得的,Logistic回归模型是将概率比取对数后,再时行参数化而获得的。研究概率比这样的量在不少问题中是常常遇到的,当列联表中因变量是一个多级分类的变量时,就需要考虑两两比较的情况。Logistic回归要解决的问题,类似于普通回归所要解决的很大一类问题。比如在医药行业中,因变量y取0, 1, , g这g+1个不同的值,y=0表示正常情况类型,y=1.,g表示不同用药后的反应,显然它与药的剂量x1 ,性别x2,年龄x3,体重x4,血压x5,等等自然变量有关,这里因变量是定性的,自变量有定性的也有定量的,问这些自变量对一个定性变量的关系是否独立?不独立又会具有什么形式的联系?是线性的还是非线性的等等。1 Logit变换为了给出Logistic回归模型,先介绍Logit变换。在现实问题中,人们常常要研究某一事件A发生的概率p以及p值的大小与某些因素的关系,但由于p对x的变化在p=0或p=1的的附近是很敏感的,或说是缓慢的比如像可靠系统,可靠度p已经是0.988了,即使再改善条件和系统结构,它的可靠度增长只能在小数点后面的第三位或第四位,于是自然希望寻找一个p的函数,使它在p=0或p=1附近变化幅度较大,而且函数的形式也不要太复杂,根据数学上导数的意义,提出用来反映在p附近的变化是很合适的,同时希望p=0或p=1,有较大的值,因此取即称上式为Logit变换。由于,因此p也可用表示:如果是某些自变量x1, , xk,的线性函数,则p就x1, , xk的下述函数:显然,如果如果p对x不是线性关系,则对x就可以是线性关系了,这就是Logit变换带来的方便。2 Logistic回归模型设因变量y为二值定性变量,用0,1表示取两个不同的状态,y=1的概率p=P(y=1)是我们要研究的对象。如果有很多因素影响y的取值,这些因素就是自变量,记为x1, xk,这其中既有定性变量也有定量变量,最重要的一个条件是适合于上式线性函数称为Logistic线性回归。如果有已知函数,其中含有若干待定的参数,且称上式为非线性Logistic回归。Logistic线性模型相当于广义线性模型,因此可以系统地应用线性模型的方法,在处理时就比较方便。如果某一事件A发生的概率p依赖于一些自变量(定性定量均可),对观测了m组结果,在第a组中,共试验了na次,A发生了ra次,于是A发生的概率pa可用来估计。假定适合于Logistic线性回归关系式,即其中表示xi在第a组所取的值。用代入上式中就有关系式:其中是随机误差项。记,假定相互独立,于是就有这就是典型的线性模型,因此的最小二乘估计(因V不是单位阵,应该相应地加权)有公式:这样就求得了的估计值。要讨论某些xi是否对A发生的概率有无影响,也即要检验xi相应的回归系数这一假设是否成立,这时要搬用线性模型中已知的结论时,必须知道y是否服从正态分布以及V的估计,数学上可以证明:的渐近分布为正态的,即V是的va的估计值为如果在m组试验结果中,有的或,此时会取或的值,ya就不是一个有限的值,上述方法就会行不通,于是要进行修正,修正的目的是使尽可能接近,可以证明下面的修正是合理的。上式Za称为经验的Logistic变换,相应的线性模型也称为经验的Logistic回归模型:其中为修正后的表达式,的估计值如下:用加权最小二乘估计回归系数时,第a组的权系数是。引入经验Logistic变换后,Logistic回归就和普通的回归一样了,而且用的是加权最小二乘,在普通回归中遇到的一些检验的问题,如回归系数的显著性检验、共线性问题、等等,在这里都有同样的意义,而且处理方法也相似,经验的Logistic回归是Logistic回归中最常用的方法。3 实例对本章所例举的实例,讨论吸烟与肺癌的关系,作经验的Logistic变换并再次检验吸烟与肺癌是否相关。将吸烟人作为一类,不吸烟人作为一类,此时m=2, n1=92, n2=14, r1=60, r2=3。作经验Logistic变换:为了作假设检验,设吸烟人患肺癌的概率是p1,未患肺癌的概率就是1-p1,不吸烟的人患肺癌的概率是p2,未患肺癌的概率就是1-p2,作Logit变换:设,则因此患肺癌是否与吸烟有关,就归结为检验是否成立。由于可以看成是相互独立的正态变量。因此,H0成立时,即计算取,查N(0,1)表得临界值。2.84830.834,应拒绝H0,即认为吸烟与不吸烟对于患肺癌是有影响的。综上所述,对于列联表,既可以用对数线性模型也可以用Logistic模型,要根据实际问题的需要来选择模型。定性资料统计分析的内容是很丰富的,这里不再详述,有兴趣的读者可查有关资料。附录:矩阵代数矩阵和行列式是研究多元统计分析的重要工具,这里针对本书的需要,对有关矩阵的知识作复习,同时再简单的补充矩阵的分块和矩阵的微商。(因为在部分章节中要用到)。1 矩阵及基本运算1 矩阵的定义将np个实数,a11, a12, , a1p, a21, a22, , a2p, , an1, an2, , anp排成如下形式的矩形表,记为A则称A为阶矩阵,一般记为,其中是A中元素,它也可以是复数,但本书的均为实数。当n=p时,称A为n阶方阵;若p=1,A只有一列,称A为列向量,记为当n=1时,A只有一行,称A为行向量,记为当A为n阶方阵,称为A的对角线元素,其它元素称为非对角元素,若方阵A的非对角元素全为0,称A为对角阵,记为进一步若a11=a22=ann=1,称为n阶单位阵,记为In或A=I(I的阶数从上下文可明确)。若A为np阶矩阵,它的转置A是阶pn阶矩阵,即若A是方阵,且A=A,则称A为对称阵;若方阵A=(aij)的元素aij=0,对一切ij成立,则称为下三角阵;若A为下三角阵,则称A为上三角阵。2 矩阵的运算若A与B是nm阶阵,则A与B的和定义为:若a为一常数,它与A的积定义为若,则A与B的积定义为: AB=在一般情况下ABBA。容易验证上述运算符合下面运算规律:A+(-1)A=0(AB)=BA(A)=A(A+B)=A+BA(BC)=(AB)CA(B+C)=AB+AC(A+B)C=AC+BCAI=IA=Aa(A+B)=aA+aBa(AB)=(aA)B=A(aB)若A为方阵,满足AA=AA=I,则称A为正交阵。2 行列式、逆矩阵和矩阵的秩1 行列式一个p阶方阵对应一个数,记为|A| 称|A|为A的行列式或记为detA。这里表示对所有p元排列求和。表示的逆序数(在一个排列),若,则称这两个数组成一个逆序。一个排列中逆序的总数称为此排列的逆序数)。 不难证明:其中Mij是在A中去掉第i行、第j列而形成的p-1阶方阵。称为的代数余子式,通常记为Aij。直接由行列式的定义来计算行列式是很麻烦的,通常利用行列式的如下一些性质可以简化行列式的计算:(1)若A的某行(或列)为零,则|A|=0;(2)|A|=|A|;(3)将A的某行(或列)乘以数a所得矩阵的行列式等于a|A|;(4)若A的两行(或列)相同,则|A|=0;(5)若将A的两行(两列)互换所得矩阵的行列式等于-|A|;(6)若将A的某一行(或列)乘上一个常数后加到另一行相应的元素上,所得矩阵的行列式不变,仍等于|A|。2 逆矩阵设A为p阶方阵,若|A|0,则称A是非退化阵或称非奇异阵,若|A|=0,则称A是退化阵或称奇异阵。若A是p阶非退化阵,则存在唯一的矩阵B,使得AB=Ip,B称为A的逆矩阵,记为B=A-1,不难证明:其中是的代数余子式。一般情况,这个求逆公式只有理论的价值,在多元分析中求逆矩阵是通过消去变换来实现的,并且同时可求得该矩阵的行列式。消去变换在后面介绍。逆矩阵的基本性质如下:(1)(2)(3)若A和C均为p阶非退化阵,则(4)设A为p阶非退化阵,b和a为p维列向量,则方程:Ab=a的解为 (5)(6)若A是正交阵,由于推知;若A是对角阵,A=diag(a11,a22,app)且,则。3 矩阵的秩设A为pq阶阵,若存在它的一个r阶子方阵的行列式不为零,而A的一切(r+1)阶子方阵的行列式均为零,则称A的秩为r,记作。它有如下基本性质:(1)rk(A)=0,当且仅当A=0;(2)若A为pq阶阵,则;(3);(4);(5);(6)若A和C为非退化阵,则。3 特征根、特征向量和矩阵的迹1 特征根和特征向量设A为p阶方阵,则方程是的p次多项式,由多项式理论知道必有p个根(可以有重根),记为,称为A的特征根或称特征值。若存在一个p维向量li,使得,则称li为对应于的A的特征向量。今后总假设。特征根有如下性质:(1)若A为实对称阵,则A的特征根全为实数,故可按大小次序排列成,若,则相应的特征向量与必正交。(2)A和A有相同的特征根。(3)若A与B分别是pq与qp阶阵,则AB与BA有相同的非零特征根。(4)若A为三角阵(上三角或下三角),则A的特征根为其对角元素。(5)若是A的特征根,A可逆,则A-1的特征根为。2 矩阵的迹若A是p阶方阵,它的对角元素之和称为A的迹,记为;若A是p阶方阵,它的特征根为,则。特征根和迹有如下关系:(1)tr(AB)=tr(BA)(2)tr(A)=tr(A)(3)tr(A+B)=tr(A)+tr(B)(4)tr(aA)=atr(A)4 二次型与正定阵称表达式为二次型,其中是实常数;是p个实变量。若为对称阵,则若方阵A对一切,都有,则称A与其相应的二次型是正定的,记为;若对一切,都有,则称A与二次型是非负定的,记为。记,表示;记,表示。正定阵和非负定阵有如下性质:(1)一个对称阵是正(非负)定的当且仅当它的特征根为正(非负);(2)若,则;(3)若,则,其中C为正数;(4)若,因它是对称阵,则必存在一个正交阵,使其中为A的特征根,的列向量为相应的特征向量,于是 (5)由性质1,均非负,即。记特别 称为A的平方根;(6)若则存在,使得。5 消去变换在多元分析中经常要解线性方程组,求矩阵的逆和行列式,或进行某种逆推运算,通过消去变换可以达到目的。设是np阶阵,若,将A变换为,使得即阵为如下形式:其中*部分第()位置的元素是。这个变换称为以(i, j)为枢轴的消去变换,记作。消去交换具有如下性质:(1),即对A连续施行两次(i,j)消去交换,其结果仍是A不变。(2)若,则,它表明Tij在某种意义下的可交换性。6 矩阵的分块和矩阵的微商1 矩阵的分块对于任意一个pq阶矩阵A,可以用纵线和横线按某种需要将它们划分成若干块低阶的矩阵,也可以看作是以所分成的子块为元素的矩阵,称为分块矩阵,即:写成其中矩阵的分块是相当任意的,同一个矩阵可以根据不同的需要,划分成不同的子块,构成不同的分块矩阵。值得注意的是,在分块矩阵中,每行(列)上各元素(指原矩阵的子块)具有相同的行(列)数(指在原矩阵中的行(列)数)。分块矩阵也满足平常矩阵的加法、乘法等运算规律。不难证明:若。若A11, A22是 方阵且是非退化阵,则2 矩阵的微商设为实向量,为x的实函数。则关于x的微商定义为:若 则定义由上述定义不难推出以下公式:(1)若则(2)若(3)若对称阵则(4)若,式中X为np阶阵,A为nn阶阵,则则
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 2025年特岗教师招聘考试初中地理题库及答题技巧
- 高三化学实验操作步骤试卷及答案
- 2025年特岗教师招聘面试高中语文模拟题及答题技巧
- 2023年度江西省共青城市中考数学考试彩蛋押题含答案详解(黄金题型)
- 综合英语3知到智慧树答案
- 2025全国保密知识竞赛题库(含答案)
- 2024-2025学年京改版数学8年级上册期末试卷参考答案详解
- 新护理核心制度试题(附答案)
- 2025职业教育知识竞赛题库(含答案)
- 2024湖南省洪江市中考数学通关题库新版附答案详解
- T-CSPSTC 90-2022 盾构法隧道监测设计规范
- 继续教育公共课考试题必修及答案
- 2023 植入式静脉给药装置护理技术中华护理学会团体标准解读
- DG-T 028-2024 单粒(精密)播种机
- 2025-2030中国高端葡萄酒行业市场发展分析及前景趋势与投资研究报告
- 非标设备项目管理制度
- 2025年临床执业医师考试的院前急救知识试题及答案
- DB5132∕T 76-2022 熊猫级民宿的划分与评定
- 湛江市语文新初一分班试卷含答案
- 2025年度医院医德医风考评表格
- 2025年慢病管理项目商业计划书及运营管理方案
评论
0/150
提交评论