版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
1、多元统计1. 大数定律:切比雪夫大数定理,伯努利大数定理,辛钦大数定理(最常用)a) 辛钦大数定律:设为独立同分布的随机变量序列,若的数学期望存在,则服从大数定律:即对任意的0,有公式三:2. 中心极限定理:从均值为u,方差为sigma方的总体中任意抽取样本量为n的样本,当样本量充分大的时候,样本均值X-bar服从均值为u,方差为n分之sigma方的正态分布;3. 格力文科定理:当n相当大时经验分布函数是总体分布函数的一个良好近似4. 变量值:从一次观察到另一次观察呈现差别或者发生变化的某种特征(变量)5. 随机变量:随机试验结果数量化;变量按照随机规律所取的值?6. 分布:统计学的核心概念7
2、. 随机变量的分布:随机变量的所有取值,以及其对应的概率的一揽子表示;包含两个意思,第一,随机变量的每个取值都包含在内,第二,取值对应的概率都包含在内;8. 随机变量的分布:a) 总体分布:?b) 样本分布:?c) 抽样分布:?9. 参数:总体的某种特征,是我们所关心的感兴趣的,或者要研究的总体的某个或者某些方面的数量表现;10. 总体:所有个体的集合称为总体,个体规模N11. 样本:被抽中的个体称为样本,对应的规模是样本量n12. 总体均值a) 问题:凭什么用样本均值估计总体b) 回答:因为总体均值是变量,但不是随机变量,它由随机变量来确定,也就是有样本均值会服从以总体均值为期望的分布(就是
3、中心极限定理)13. 为什么服从t分布?14. d和alpha和n和N的关系:公式见书上15. 1-f:n和N的关系16. 与s的关系a) 问题:为什么不用小,用sb) 回答:因为未知17. 均方误和其估计的异同?18. R2相当于y-hat和y的相关系数?19. P(AB)-P(A)*P(B)=距离?20. Spearman和pearson相关系数的等价性?21. 施密特变换和主成分变换的异同?22. 随机抽样:抽取样本的时候,总体中每个个体都有同等机会选入样本中23. 随机样本:从总体中随机抽样得到的样本;24. 随机试验:?25. 随机试验:a) 条件i. 试验可以重复进行;ii. 试验
4、的所有可能结果事先是知道的;iii. 每一次试验之前无法预知结果(这是随机的本质性质)b) 所有的试验结果用一个变量表示,每一种试验结果都对应一个变量值;c) 一个变量值只是一种试验结果的记号或代码;26. “随机试验=随机抽样”的原因:由于变量值只有在抽样后的调查才能获得,所以显然不能认为试验的所有可能结果已知,不能满足设计实验三个条件中的第二个;因此随机试验结果只能理解为样本(受查客体的集合),于是实验只能理解为随机抽样尤其是简单随机抽样;27. 简单随机抽样:就是一个典型的随机试验,N中抽取n,依不放回抽样方式一举从中抽取n个个体构成一个样本,若将其看成实验,则完全满足随机试验的三个条件
5、;其中,“可重复”这个条件是在理想进行,所有条件环境均可严格控制;28. 随机试验之结论a) 变量值不是试验的直接结果,而是随机抽样的连带结果;正因此变量值才可以合理的被当作是随机实验结果。而所有实验结果才能可以用随机变量来概括反映;b) 变量值是随机变量,一定是因为变量值是从随机抽样调查中取得的;随机性仅仅来源于随机抽样;29. 实体与属性:a) 概念:i. 实体:人们能清晰感知其边界范围的客观存在ii. 属性:是实体的组成构建或者附在其上的性质,可以区分此实体与不同类的实体,也可以区分与同类的其他实体;b) 关系:i. 属性不能离开实体,不同实体的区分借助属性实现;ii. 多个属性组合在一
6、起的组合体就是实体iii. 描述实体的特征称为属性c) 意义:一个属性值对应一个个体,而属性值可以对个体分类或者作为个体的一种标识,所以随机试验结果可以用随机变量表示;?30. 概率a) 个体承载试验结果,不同个体对应相同试验结果;b) 存在两种概率解释:i. 个体是等概率的;ii. 变量值可能等概率可能不等概率;c) 变量值的概率=对应该变量值的个体数/总体全部个数d) 某一变量值的频率=对应该变量值的个体数/样本全部个体数31. 估计:根据取自总体的样本的统计量来推断或评价总体参数的过程32. 描述统计学:a) 分布+分布特征b) 样本分布+样本分布特征c) 总体分布+总体分布特征33.
7、推断统计学:a) 样本分布特征总体分布特征b) 样本分布总体分布c) 样本分布特征总体分布特征总体分布34. 多元统计核心:降维,描述,推断35. 分布的表示方法:a) 文示法:以文字表述,简单b) 表示法:以表格陈列,较复杂c) 图示法:以图形展示,复杂36. 分布特征:a) 几何特征:?集中趋势,离散程度b) 代数特征:?数字特征?均值,方差等37. 抽样误差?38. 误:相对真值而言,总体分布特征而言39. 差:相对均值而言40. 联合分布41. 边缘分布42. 条件分布a) 条件b) 条件概率c) 条件期望43. 多元统计的框架:a) 自变量分类+因变量分类:列联分析、对应分析b) 自
8、变量分类+因变量数值:方差分析、联合分析c) 自变量数值+因变量分类:判别分析,逻辑回归d) 自变量数值+因变量数值:回归分析,结构方程44. 列联分析:a) 公式b) 最终类类相关系数:i. Pearson列联系数ii. Cramer关联系数iii. Cramer修正关联系数45. 方差分析:公式a) 分类对数值的相关关系:A=组间差/(组内差+组间差)总平方和=组间平方和+组内平方和b) 公式:c) 对比回归分析:d) 证明:两种组间平方和的关系e) .关键词:多类,每类不同的样本量,数据f) 数据要求:这样的数据可以认为是每层独立的进行抽样,且每层都独立进行简单随机抽样的所谓分层抽样的样
9、本数据;i. 独立性假设ii. 各类均为多元正态总体iii. 各类协方差矩阵相等g) “每层=每类”的原因:独立性假设i. 即每类内部样本点之间彼此独立ii. 其样本量都能大到中心极限定理成立的(n大,nh大)iii. 同时每类的样本之间都彼此独立(类与类之间独立forF统计量构造顺利,其分子分母都服从卡方分布,且相互独立)h) 方差分析的F比卡方优的地方i. F检验融入了统计学外的逻辑准则:组间差平均应至少大于组内差平均,增加结论说服力,逻辑合理;i) 不同类或组的方差都相等的假设合理性i. 理论:每类里的抽样的都是大样本量的,样本方差既然都是总体方差的容许估计,则应该相等;ii. 实际:标
10、准化是保证方差相等的有效手段;(大样本有时被经费限制,不能满足;所以要求最后通过检验);(要求齐方差)46. 联合分析:?47. 方差分析和联合分析的区别:详见PPT48. 典型相关分析:a) 基本思想:找到两组自变量线性组合,使得这两组变量组合生成的变量(和其他线性组合相比)之间的相关系数最大b) 基本思想2:每组变量都进行线性组合,生成代表性变量;计算不同组任意两个代表性变量的相关关系;找到相关系数最大对应的两个代表性变量作为“典型”,将“典型”之间的相关系数用来代表两组变量的线性相关程度称为典型相关系数,又称为广义相关系数;i. 典型相关系数的检验:Qk检验ii. 典型相关系数的性质:l
11、 堆成l rou=0,u和v不相关,从而任一与任一中的随机变量都不相关l rou=1,u和v可以相互线性表出l rou=p=1,等于Pearson相关系数的平方l p大于rou=1,等于复相关系数的平方或决定系数c) 数学表达:对两组变量X和Y寻找系数向量a,b使得新的综合变量(称为典型变量),有尽可能大的相关关系(公式见PPT,感觉不会考),实现的最大相关系数的一对综合变量(称为典型变量)就是称为第1对典型相关变量,他们之间的相关系数就是第一典型相关系数49. 典型变量的性质:a) 第一,X的典型变量U不相关,Y的典型变量W不相关b) 第二,同一对典型变量Ui和Wi之间的典型相关系数lamd
12、ai,不同对的lamdai不相关50. 典型相关:a) 问题:Spearman和pearson相关系数的等价性?b) 回答:51. 因子分析+主成分a) 思想:多元,变量之间存在很高的相关关系,其本质是信息的重叠性。回归分析时,相关程度很高,也就是出现了多重共线性时i. 处理1,去除一部分变量,只保留很少的一部分变量;ii. 处理2,使用这些变量的线性组合代替原有变量,而尽量不减少它们所包含的信息;(同时认为这些组合表征的是深层原因-因子)b) 满足条件:i. 第一,减少变量的个数ii. 第二,新变量之间不再线性相关,最好正交iii. 第三,新变量和原变量之间的关系清晰容易判断c) 问题:i.
13、 以何表示原来变量的所含信息ii. 如何寻找达成条件的线性组合iii. 此处线性组合和回归分析和判别分析里的线性组合有何区别?52. 主成分分析性质:主成分是原变量的线性变换a) 主成分彼此独立的原因?b) 方差递减的原因?c) 方差总和守恒的原因?53. 目标:54. 施密特变换和主成分变换的异同?55. 聚类分析a) 谱系聚类i. 步骤:l 定义点间距l 定义类间距l 所有的样品看成n类l 计算点间距,并将距离最小者归为一类,其余不变l 确定各类之间的类间距,并将距离最小者归为一类,其余不变l 以此类推,直至所有样品归为一类ii. 点间距:l 绝对值距离l 欧式距离l 欧式平方距离l 马氏
14、距离(标准欧式平方距离)l 切氏距离l 蓝氏距离l 明氏距离iii. 组间距l 最短距离法l 最远距离法l 中间距离法l 重心距离法l 可变类平均距离法l 可变距离法l ward距离法(离差平方和法)b) 动态聚类:见PPTc) 一分为二聚类:见PPTd) 有序聚类: 离差平方和法最小(局部最优解?)56. 判别分析:a) 思想:假设早先依据训练样本的信息得到了某种隐含的标准,那么就可以据此标准对待判样本进行判别:将待判样本归于不同的“类”中;b) 本质:预测行为,区别(回归)预测:i. 预测依据是公式化的模型;ii. 判别依据的非公式化的隐含关系(训练样品的分类结果与判别变量值之间的对应关系)c) 方法:i. 距离判别l 问题:马氏距离的离散形式l 回答:?ii. 费歇尔判别:投影到使样本点尽可能分开的方向,也就是类间离差平方和与类内离差平方和之比最大的方向,然后计算待判样本与各类中心(已经投影之后)的距离,哪类最近,就归哪类iii. 贝叶斯判别:G,q,f,L;L=1-sigma(详见PPT),使得损失函数最小的判别结果就是所求结果;57. 逻辑回归a) 引入模型的原因i. 误差项:只能取两个值,为离散非正态分布ii. 异方差:误差项仍然保持零均值,但是不具有方差齐性;iii. 回归方程的限制:y的期望在零一之间,和普通的回归方程不一样;b) 考虑:用事件发生的概率作
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 手术室护理操作规范与细节
- 医疗沟通:有效表达与尊重
- 生物医学光学成像技术的创新与应用
- 儿童护理心理辅导策略
- 护理质量评估与改进工具介绍
- 儿科诊疗服务满意度提升分析
- 医疗行业创新项目投资与退出
- 2026年湖北生物科技职业学院高职单招职业适应性考试备考题库有答案解析
- 儿童保健项目成果展示
- 护理专业实习教学效果评价与改进策略研究
- 星间激光链路构建-洞察及研究
- “十三五”规划重点-锑矿石及精锑项目建议书(立项报告)
- 环卫公司内部管理制度
- 第3章 同位素示踪技术课件
- 创伤骨科患者深静脉血栓形成筛查与治疗的专家共识
- x线胸片诊断试题及答案
- GB/T 17554.1-2025卡及身份识别安全设备测试方法第1部分:一般特性
- 招标代理招标服务实施方案
- 借水电合同范本
- 灰坝施工方案
- GB/T 15934-2024电器附件电线组件和互连电线组件
评论
0/150
提交评论