




版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
1、1,第二讲 基础知识复习,一、概率论基础知识 二、数理统计基础知识,2,一、概率论基础知识,概率 随机变量 概率密度函数 多维随机变量 随机变量的数字特征 一些重要的概率分布,3,概率,随机试验 可以在相同条件下重复进行 每次试验的可能结果不止一个,但事先能明确所有的可能结果 进行一次试验之前不能确定会出现哪一个结果 实例 一枚硬币抛掷两次 在北京师范大学校园里询问任意一个学生的年龄,4,概率,样本空间(sampling space)/总体(population) 某一个随机试验的所有可能结果组成的集合,记为S 样本点(sampling point) 样本空间里的某一元素,即随机试验的某一可能
2、结果 实例 一枚硬币抛掷两次,出现正面记为H,出现反面记为T 样本空间:HH,HT,TH,TT 样本点: HH,HT,TH,TT,5,概率,事件(event) 某一随机试验的样本空间的一个子集 实例:一枚硬币抛掷两次 事件A:出现两个正面 事件B:出现一个正面和一个反面 事件C:出现两个反面,6,概率,频率(frequency) 在相同条件下,某随机试验进行了n次,其中事件A发生了m次,则比值m/n称为事件A发生的频率,记fn(A) 实例:抛掷一枚硬币,事件A为出现正面,当n逐渐增大时,频率趋向于某一常数,称为频率稳定性,7,概率,概率(probability) S是某一随机试验的样本空间,对
3、于其中的任意一个事件A赋予一个实数P(A),如果P(A)满足下列三个条件,则称P(A)为事件A的概率。,当n趋近于无穷大时,频率fn(A)无限接近于概率P(A),从而用概率来度量事件A在一次试验中发生的可能性,8,概率,条件概率(conditional probability) 设A、B是两个事件,且P(A)0,称下式为事件A发生的条件下事件B发生的条件概率: 实例 一枚硬币抛掷两次,出现正面记为H,出现反面记为T。事件A为“至少有一次H”,事件B为“两次都是同一面”。则事件A的概率为3/4,事件A和B同时发生的概率为1/4,在A发生的条件下B发生的概率为1/3,9,随机变量,随机变量(sto
4、chastic/random variable) 一个变量若它的值是由随机试验决定的,称其为随机变量。随机变量通常用大写字母X、Y、Z表示,其数值则用小写字母x、y、z表示 离散型随机变量(discrete random variable) 可能取到的值是有限个的随机变量 连续型随机变量(continuous random variable) 可能取到的值是无限个的随机变量 实例 离散型随机变量:扔一次骰子出现的点数;未出生婴儿的性别 连续型随机变量:人的身高;百米跑速度,10,概率密度函数,离散型变量的概率密度函数/概率分布 (probability density function/pro
5、bability distribution) 实例 X:投掷两颗骰子出现的点数之和 X的PDF,11,概率密度函数,连续型变量的累积分布函数(cumulative distribution function) 实例 枪靶的半径为2米,若每枪都能击中枪靶,且击中靶上任一同心圆内的点的概率与该圆的面积成正比,则弹着点与靶心的距离X是一个连续型随机变量,其CDF为:,F(x),x,2,1,12,概率密度函数,连续型变量的概率密度函数(PDF) 实例 在上例中,PDF为:,f(x),x,1,2,13,概率密度函数,连续型变量的概率密度函数(PDF),f(x),x,a,b,14,多维随机变量,多维随机变
6、量 多个变量的取值由同一个随机试验决定,称这些变量为多维随机变量。 以下我们考虑最简单的二维随机变量,用(X,Y)表示,其数值用(x,y)表示 实例 离散型二维随机变量:每一位学生的性别和民族 连续型二维随机变量:每一位学生的身高和体重,15,多维随机变量,离散型变量的联合概率密度函数(joint PDF) 实例 譬如:既是男生又是满族的概率为0.08,既是女生又是回族的概率为0,16,多维随机变量,离散型变量的边缘概率密度函数 (marginal PDF) 实例,17,多维随机变量,离散型变量的条件概率密度函数 (conditional PDF) 表示在Y=y的条件下X=x的概率 譬如:f
7、(满族, 女生)=0.10, f (女生)=0.49, f (满族|女生)=0.10/0.49=0.20 f (汉族, 男生)=0.27, f (男生)=0.51, f (汉族|男生)=0.27/0.51=0.53,18,多维随机变量,统计独立性 (statistically independence) 如果两个随机变量的联合PDF等于它们边缘PDF的乘积,则称这两个变量是相互独立的(independent)。两个变量独立意味着其中一个变量的结果不会影响另一个。 譬如:f (X=H,Y=H)=f (X=H)*f(Y=H)=1/2*1/2=1/4 ,19,多维随机变量,连续型变量的联合概率密度函
8、数 (joint PDF) 连续型变量的边缘概率密度函数 (marginal PDF) 统计独立性 (statistically independence),20,随机变量的数字特征,以上讨论了随机变量的概率密度函数PDF和累积分布函数CDF,但在处理实际问题时,往往不需要求出这些函数,而是只需要了解变量的某些特征值。 这些特征值包括三类: 度量变量分布的集中趋势(central tendency):数学期望或均值;中位数;众数 度量变量分布的离散性(dispersion):方差;标准差 度量两个变量的相关性(correlation):协方差;相关系数,21,随机变量的数字特征,数学期望(ex
9、pectation)或均值(mean) 离散型变量的期望: 实例:扔两个骰子的点数之和,22,随机变量的数字特征,连续型变量的期望: 实例:,23,随机变量的数字特征,期望的性质:,24,随机变量的数字特征,中位数(median) 对于离散型变量,假设所有可能取值的个数为n,把这些数从小到大排列。若n为奇数,位于中央位置的那个数就是中位数;若n为偶数,位于中央位置的那两个数的平均数就是中位数。记为Med(X),中位数所在的位置为(n+1)/2。 对于连续型变量,中位数m满足下列条件:,25,随机变量的数字特征,众数(mode) 众数就是随机变量的所有可能取值中出现次数最多的那个 随机变量的类型
10、 定类变量(nominal variable):性别;民族 定序变量(ordinal variable):教育水平;收入等级 定距变量(interval variable):考试成绩;收入水平 一般地,不同类型的变量用不同的数学特征表示其集中趋势。定类变量用众数;定序变量用中位数;定距变量用均值或中位数,26,随机变量的数字特征,方差(variance) 方差被定义为随机变量对其均值的期望距离,用于表示随机变量与其均值的偏离程度。方差较小说明变量的分布比较集中,反之则说明变量的分布很分散 方差的性质,27,随机变量的数字特征,实例:,28,随机变量的数字特征,标准差(standard devi
11、ation) 方差的量纲与变量的量纲不同,为此引入与变量具有相同量纲的数字特征标准差,同样度量变量的离散程度 标准差的性质:,29,随机变量的数字特征,度量变量离散程度的其他常用指标还有: 极差/全距 极差率 变异系数 基尼系数 泰尔系数,30,随机变量的数字特征,协方差(covariance) 协方差度量两个随机变量的相关(correlation)程度 协方差大于0表示两个变量正相关(positively correlated),即其中一个变量随着另一个变量的增大而增大 协方差大于0表示两个变量负相关(negatively correlated),即其中一个变量随着另一个变量的增大而减小 协
12、方差等于0表示两个变量不相关(uncorrelated),31,随机变量的数字特征,协方差的性质:,32,随机变量的数字特征,相关系数(correlation coefficient) 协方差的大小与度量单位有关,使用不便,因此一般用相关系数来衡量两个变量的相关程度,33,随机变量的数字特征,相关与独立(correlation & independence) 相关是指两个随机变量之间的线性关联程度,独立是指两个变量之间的一般关联程度 若两个变量相互独立,其相关系数一定为0 若两个变量的相关系数为0,它们不一定独立,34,随机变量的数字特征,条件期望(conditional expectatio
13、n) 如果我们可以用变量X解释变量Y,那么一旦我们知道X取某个特定的值x,就能够计算出在X=x的条件下Y的期望值,称为条件期望 实例,35,一些重要的概率分布,正态分布(normal distribution) 如果一个随机变量的概率密度函数PDF如下所示,称这个变量服从正态分布,36,一些重要的概率分布,标准正态分布(standard normal distribution) 如果一个服从正态分布的随机变量的均值为0,方差为1,称这个变量服从标准正态分布,37,一些重要的概率分布,38,一些重要的概率分布,标准化随机变量(standardized random variable),39,一些
14、重要的概率分布,统计学书籍和计量经济学书籍一般都附有标准化正态变量的累积分布函数,可以通过转换求解正态变量的概率问题,40,一些重要的概率分布,卡方分布,n=2,n=5,n=10,41,一些重要的概率分布,42,一些重要的概率分布,t分布(t distribution),n=120,n=5,n=20,43,一些重要的概率分布,44,一些重要的概率分布,F分布(F distribution),F(2,2),F(10,2),F(50,50),45,一些重要的概率分布,46,二、数理统计基础知识,总体与样本 参数估计 点估计 区间估计 假设检验 置信区间法 显著性检验法,47,总体与样本,总体(po
15、pulation) 研究对象的全体,记为X 随机样本(random sample)/样本(sample) 在相同条件下对总体X进行n次重复的、独立的观测,每次观测结果都是与X具有相同分布的、相互独立的随机变量,记为X1 , X2 , , Xn ,把它们称为来自总体的一个简单随机样本,简称样本,称n为样本容量。当观测完成后,得到一组观测值x1 , x2 , , xn ,称为样本值 我们感兴趣的实际上是总体,但由于不可能或很难得到总体的信息,只能从中抽取一个样本,根据样本数据来推断总体的性质。这其中包含两类问题:参数估计和假设检验,48,参数估计,参数(parameters) 与总体有关的数字特征
16、。如总体均值、总体方差等等。 参数估计(parameter estimation) 根据样本的有关数值来估计总体参数或总体参数的范围 点估计 区间估计,49,点估计,点估计(point estimation) 估计量是样本的函数,对于不同的样本,参数估计值是不同的。 点估计的方法: 矩估计法 极大似然法 最小二乘法,50,点估计,矩(moment) 矩估计法(method of moment) 用样本矩作为相应总体矩的估计量,并用样本矩的连续函数作为总体矩连续函数的估计量。通过这种方法得到的估计量称为矩估计量,51,点估计,矩估计法:实例,52,点估计,极大似然法(method of maxi
17、mum likelihood),53,点估计,极大似然法:实例,54,点估计,估计量的评选标准 估计量是随机变量,会由于估计方法的不同而不同,那么,如何判断一个估计量的好坏呢?或者说应该选择哪个估计量更好呢?有以下几条标准: 针对小样本的标准 无偏性 有效性 针对大样本的标准 一致性 渐进正态性,55,点估计,无偏性(unbiasedness) 实例,56,57,点估计,有效性(efficiency) 注意:一个无偏的估计量可能存在很大方差,而一个方差很小的估计量可能是偏离总体均值的,因此有效性综合考虑了估计量的集中趋势和离散性两个特征,58,点估计,实例:有效性和无偏性,59,点估计,线性估
18、计量(linear estimator) 最优线性无偏估计量(best linear unbiased estimator, BLUE),60,点估计,一致性(consistence),61,点估计,概率极限(probability limits),62,点估计,一些重要的估计量:,63,点估计,实例:为了解中国城市失业率,随机抽取了10座城市,得到如下样本。则我们可以用这10座城市的平均失业率来估计中国城市的平均失业率,64,点估计,渐进正态性(asymptotic normality) 当样本容量无限增大时估计量趋向于正态分布 中心极限定理(central limit theorem, C
19、LT) 定理一(独立同分布的中心极限定理):当样本容量无限增大时,任何总体的随机样本的均值趋近于正态分布。,65,点估计,中心极限定理 定理二:李雅普诺夫(Liapunov)定理,66,区间估计,对于一个未知参数,除了估计其近似值(点估计)外,还希望知道这个值的精确程度,从而引出区间估计(interval estimation)问题 置信区间(confidence interval),67,区间估计,正态总体均值的区间估计:总体方差已知,68,区间估计,实例:总体方差已知时正态总体均值的区间估计,69,区间估计,正态总体均值的区间估计:总体方差未知,70,区间估计,标准误(standard e
20、rror),71,区间估计,正态总体均值的区间估计:95%置信区间的简单法则,72,区间估计,非正态总体均值的区间估计,73,假设检验,假设检验(hypothesis testing) 在总体的PDF未知或某些参数未知的情况下,对总体的分布或参数提出某些假设,然后根据样本对提出的假设作出是拒绝还是接受的判断 实例: Bush和Kerry竞选总统,Bush获得42%的选票而Kerry获得58%的选票。Bush怀疑大选中有作弊行为,雇佣一个咨询机构随机抽取100个选民调查其选举意愿,发现有53人支持他,47人支持Kerry。由此Bush提出两个假设: H0(虚拟假设/原假设,null hypothesis):v0.42(有作弊),74,假设检验,第类错误(type error) 拒绝了一个真实的虚拟假设 第 类错误(type error) 没有拒绝一个错误的虚拟假设 理论上我们希望犯两类错误的
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 教育心理学在家庭教育冲突解决中的应用
- 教育技术对学习体验的优化探讨
- 防水施工探店方案
- 数字化时代下的家校合作新模式
- 小件寄存设计方案
- 企业信息化推动下的智慧城市创新案例
- 商业职场中的教育法律法规遵循及道德自律
- 服装外贸订单转移方案
- 物业租赁方案模板
- 服务企业融资保障方案
- 《口腔外科急诊处理》课件
- 药房招聘笔试试题及答案
- 河南省郑州市2025年高中毕业年级第三次质量预测英语试题(含答案无听力原文及音频)
- 语音主播经纪合同协议
- 2025-2030成都市医疗机构行业市场发展分析及发展前景与投资研究报告
- 新版器械GCP培训课件
- 《小学生网络安全教育》课件
- 2025年高级评茶员技能鉴定理论考试题库浓缩500题-含答案
- 天翼云从业者题库练习测试题附答案
- 民丰县瑞安矿业投资有限公司民丰县卧龙岗年处理30万吨锑矿选厂及尾矿库建设项目报告书
- 山东济宁历年中考作文题(2004-2024)
评论
0/150
提交评论