版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
1、CDA数据分析师-数据分析理论基础数据分析理论基础课程小结Join Learn关键知识点概率分布分布函数P值检验自由度Join Learn概率分布-数据分析的依据要全面了解一个随量(随机试验),不但要知道它取哪些值,而且要知道它取这些值的规律,即要掌握它的概率分布。量值xi及这些值对应概率P(X=xi)的表格、公式概率分布:描述随或图形。样本点1随量的值x1样本点2P(X=x1)随量的值x2P(X=x2)样本点i随量的值xiP(X=xi)Join Learn分布函数分布函数F(x)=P(X<x)表示随量X的值小于x的概率,给定一个x0,则有一个F(x0)和其对应。X< x0 即为随
2、机X为随x0为随量量的值Join Learn概率密度概率密度f(x)是F(x)在x处的关于x的一阶导数,即变化率。它对应直方图中的密度尺度如果在某一x附近取非常小的一个邻域x,那么,随即P(量X落在(x, x+x)内的概率约为f(x)x,+x)f(x)x。换句话说,概率密度f(x)是X落在x处“宽度”内的概率。“密度”一词可以由此理解。Join Learn分布函数与直方图连续性随量的随机对应一个区间a,b,只有区间才有意义,就如画直方图时,需要先分区一样。随机的概率,就是阴影部分的面积,在数学上为,对应直方图中的面积Join Learn分布函数的作用个随量的分布函数,则它取任何值和它落入某个数
3、值区间内的概率都可以求出。即任何一个(或多个)随机试验的结果的可能性都是确定的Join LearnP值检验P值表示对原假设的支持程度,越小越有统计意义Join Learn自由度有两种解释统计推断上的自由度是指当以样本的统计量来估计总体的参数时, 样本中或能自由变化的自由度。的个数,称为该统计量的数据挖掘模型中的自由度等于可自由取值的自变量的个数。如在回归方程中,如果共有p个参数需要估计,则其中包括了p-1个自变量(与截距对应的自变量是常量1)。因此该回归方程的自由度为p-1。Join Learn抽样推断中的自由度首先,在估计总体的平均数时,由于样本中的n 个数都是相互的,从其中抽出任何一个数都
4、不影响其他数据,所以其自由度为n。在估计总体的方差时,使用的是离差平方和。只要n-1个数的离差平方和确定了,方差也就 确定了;因为在均值确定后,如果知道了其中n-1个数的值,第n个数的值也就确定了。这里, 均值就相当于一个限制条件,由于加了这个限制条件,估计总体方差的自由度为n-1。Join Learn例有一个有4个数据(n4)的样本, 其平均值m等于5,即受到m5的条件限制, 在自由确定4、2、5三个数据后, 第四个数据只能是9, 否则m5。因而这里的自由度n-14-13。推而广之,任何统计量的自由度n-限制条件的个数。Join Learn根据数据分布选择统计方法(1)实验设计很关键,尽量保
5、持体的同质性数据的相互性和个(2) 一般来说,如果是大样本,比如各组例数大于50,可以不作正态性检验,直接采用t检验或方差分析。因为统计学上有中心极限定理,假定大样本是服从正态分布的。(3) 多组资料数据最好采用方差分析法,绝对不能采用两两T检验法Join Learn典型偏正态的数据处理对于明显偏离正态性和方差齐性条件的资料,通常有两种处理方式:一是通过某种形式的数据变换以其假定条,转化后能用参数检验的还用参数检验,如果转化后还不行,则改用方案二。二是改用秩变换的非参数统计方法,如秩和检验等。数据变换虽然改变了资料分布的形式,但未改变各组资料间的关系,常用的数据变换方式有对数变换、平方根变换及
6、平方根反正弦变换。Join Learn两组样本比较1. 资料符合正态分布,且两组方差齐性,直接采用t检验。2. 资料不符合正态分布 (1)可进行数据转换,如对数转换等,使之服从正态分布,然后对转换后的数据采用t检验; (2)采用非参数检验,如Wilcoxon检验。3. 资料方差不齐 (1)采用Satterthwate 的t检验; (2)采用非参数检验,如Wilcoxon检验。Join Learn两组配对样本的比较1.两组差值服从正态分布,采用配对t检验。2.两组差值从正态分布,采用wilcoxon的符号配对秩和检验 “秩”又称等级、即次序号的和称“秩和”,秩和检验就是用秩和作为统计量进行假设检验的方法。Join Learn多组完全随机样本比较1. 资料符合正态分布,且各组方差齐性,直接采用完全随机的方差分析。如果检验结果为有统计学 意义,则进一步作两两比较,两两比较的方法有LSD检验,Bonferroni法,tukey法,Scheffe法,SNK 法等。2. 资料不符合正态分布,或各组方差不齐,则采用非参数检验的KruscalWallis法。如果检验结果为有统计学意义,则进一步作两两比较,一般采用Bonferroni法校正P值,然后用成组的Wilcoxon检验。Join Learn观测变量为分类数据分类数据从
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 2026年16执业医试题答案
- 2026年1 x基础题库答案
- 2026年6月a级试题及答案
- 2026年4s店机电主管考试试题答案
- 2026年100个碰撞测试题及答案
- 2026年13485题库及答案
- 2026年1 x电子商务数据分析试题及答案
- 2026年6年纪月考试卷及答案
- 2026年20年护士招聘试题答案
- 2026年8000道导游笔试题库及答案
- 2025中联重科校园招聘笔试历年参考题库附带答案详解
- (二模)2026年茂名市高三年级第二次综合测试英语试卷(含答案)
- 国家级临床重点专科建设评估标准
- 信息化系统项目实施方案
- 房屋渗水解决方案
- 乡镇卫生院耗材采购制度
- 臭氧治疗风险告知与同意书模板
- 酒店资金内部控制制度
- 2024人教版八年级生物下册期末复习重点考点提纲(含答题技巧)
- 5.1人民代表大会制度 课件(23张幻灯片)+内嵌视频 道德与法治统编版八年级下册
- 2025年丽江文化旅游学院招聘140名教师备考题库及参考答案详解
评论
0/150
提交评论