版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
《概率论与数理统计》教学设计方案PAGE21.知识与技能目标:(1)掌握原始数据的缺失值、异常值的处理方法;(2)理解参数估计、点估计的概念;(3)掌握矩估计法和最大似然估计法的原理和思想;(4)了解判断估计量无偏性、有效性和一致性的方法.2.能力与思维目标:(1)会使用统计学中科学的数据处理方法,解决实际生活中的数据存在各类问题;(2)理解参数估计在实际问题中的意义,并能够根据实际情况选择合适的估计方法;(3)能用矩估计与极大似然估计解决实际问题.3.情感态度与价值观目标(1)通过体会不同估计方法的优缺点,感受统计学的辩证统一性和科学性;(2)引导学生认识统计学在现实世界中的广泛应用,树立正确的统计观.矩估计法和最大似然估计法的原理和步骤.处理措施:通过具体例子,结合实际问题,讲解矩估计法和最大似然估计法的原理和步骤,并通过例题演示两种方法的的实际应用.点估计的理解,了解其现实使用优缺点及意义.处理措施:对于点估计两种常用方法的理解,采用直观解释和类比推理的方法,帮助学生点估计的意义及使用优缺点,而不拘泥于严格的数学推导.思政元素融入知识点一:数据的简单处理.数据无处不在,宛如浩瀚宇宙中的繁星.比如,电商平台每天会产生海量的用户购买记录,这些记录包含了用户的购买时间、商品种类、金额等信息;在医学研究中,会记录患者的症状、体征、检查结果等数据.这些数据就像未经加工的原材料,需要我们进行有效的处理,才能从中提取出有价值的信息,为决策提供依据.在实际收集的数据中,往往存在各类问题.数据简单处理包含识别数据中的错误、缺失、重复、异常等问题,提升数据质量的过程.我们如何处理这类问题呢?1.缺失值处理.对于缺失值的处理,若缺失比例较小且该特征对整体分析影响不大,可考虑直接删除含有缺失值的记录,但这种方法可能会造成数据信息丢失.另一种常用方法是填充法,如用均值、中位数或众数来填充缺失值.如某班里数学平均分是82分,第15号同学的成绩缺失,用82分填充就很方便.此外,还可采用插值法,适合有前后数据参考的情况.如知道第14号同学考了80分,第16号同学考了84分,中间第15号缺失,用线性插值的话,就可以估算成82分——就像两点之间画直线,中间的点自然落在中间位置.2.异常值处理.异常值是指数据中明显偏离整体分布的极端值,可能由测量误差、数据录入错误或真实的罕见情况导致.处理时先别急着删:第一步核对原始数据,确认是录入错了就改回来;如果确实是真实情况,那就得保留,但分析时要注明这个“特例”,避免它干扰整体结论.学生观看视频,了解数据中的错误、缺失、重复、异常等问题如何处理.教学环节主要教学内容学生活动安排反转课堂,帮助学生绘制知识线(共10分钟)教师:反馈课前学生观看视频情况,表扬完成较好的组,并提问“课前数字人视频已经介绍了数据的简单处理,你学了什么?”引导学生回答:数据中的错误、缺失、重复、异常等问题处理.接下来看一个比赛案例引例(2025数维杯大学生数学建模竞赛试题C题)清明时节雨纷纷,何处踏青不误春?你收集到了西安、吐鲁番、婺源、杭州、毕节、武汉、洛阳7个城市在过去20年(2006-2025年)清明节期间(4月4日至6日)的气象数据,数据来源包括NOAA全球站点逐日气象数据(涵盖温度、降水量等指标).同时,还获取了部分花卉(如杏花、油菜花、樱花)在这些城市的花期观测资料,记录了花卉开放时间、花期长度等信息.请你根据数据构建清明节期间天气与花卉花期的预测模型,并为游客制定合理的踏青赏花攻略.问题一:对NOAA全球站点逐日气象数据进行初步检查时,发现有15条关于西安站点“降水”的数据缺失.假设可以估算出该站点其他年份同期降水数据的均值为2.5mm,中位数为2mm,众数为1.8mm.请思考处理这15个缺失值的方法,并阐述理由.解:考虑采用中位数2mm填充这15条缺失的降水数据,将其填入缺失位置(众数也可).选择原因:降水数据可能存在极端值(如某一年清明节降雨量骤增),均值2.5mm易受极端值影响,而中位数能更稳健地反映数据集中趋势.15条缺失记录在20年(每年3天,共60条)数据中占比25%,直接删除会丢失较多信息,填充法更合适.问题二:在花期观测资料中,有3条关于吐鲁番地区杏花开放时间的数据缺失.通过查询周边地区类似气候条件下杏花开放时间的资料,得知相邻地区A的杏花开放时间为3月28日,相邻地区B的杏花开放时间为4月2日.尝试用插值法估算吐鲁番地区这3条缺失的杏花开放时间.解:采用线性插值法.相邻地区A(3月28日)与B(4月2日)相差5天,假设吐鲁番位于两地气候过渡带,将5天均匀分配,3条缺失值可估算为3月29、30日、4月1日.选择原因:线性插值适用于数据随时间或空间呈渐变趋势的场景,杏花开放时间受气候影响,相邻地区气候相似时,花期变化具有连续性,线性插值结果更贴近真实情况.问题三:观察7个城市的清明节期间平均温度数据时,发现吐鲁番某一年的平均温度为37℃,而其他年份同期该城市平均温度大多在12-25℃之间,其他城市的平均温度也都在一个相对稳定的区间.经复查原始数据并非录入错误,进一步了解到该年吐鲁番在清明节期间遭遇了罕见的极端高温天气.在构建气象预测模型时,该如何对待这个异常值?解:保留该异常值,但在模型中单独标记.构建预测模型时,可采用稳健回归算法(如分位数回归),降低极端值对整体预测的干扰;或在分析中注明该年为特殊情况,单独评估其对花期的影响(如高温是否导致花期提前结束).选择原因:该异常值由真实极端天气导致,删除会丢失重要气候事件信息.保留并标记可完整反映数据分布,同时提醒模型注意罕见情况.在后续给出游玩攻略时,使攻略能覆盖特殊天气场景(如提醒游客极端高温时做好防晒),增强实用性.超星平台抢答小组讨论思考三个问题,学习通抢答的方式学生回答(或补充),衔接理论与实践,培养学生应用能力.数学建模比赛对数据处理的要求,与未来科研、工作中的实际需求高度契合.学生能提前熟悉“从数据中发现问题→分析原因→选择合适方法处理→评估处理效果”的完整流程.为后续参与科研项目、应对职场挑战打下基础.教师引导学生小结:数据处理中,需要学生秉持一丝不苟的态度.每一个数据的修正、每一个缺失值的填充,都不能凭空猜测,而要基于事实和逻辑推理,这正是科学研究中“实事求是”精神的体现,不敷衍、不浮躁的学习态度.新课(45分钟)知识点1.参数估计知识点2.点估计知识点3.矩估计知识点4.极大似然估计知识点5.估计量的评选标准实操(30分钟)教师:数据简单处理之后,我们需要由样本数据来推断总体.一般来说,统计推断问题主要有估计问题和假设检验问题两大类,估计问题包括参数估计和非参数估计.近两周讨论估计问题中的参数估计问题,后续讨论假设检验问题.什么是参数估计?来看一个例子.[情景与案例]例6.1有四位同学参加了《概率论与数理统计》课程考试,成绩分别为88,75,70,63,总体均值为74,总体方差为83.5,从总体中抽取容量为2的样本,计算全部16个样本的样本均值,样本方差和样本二阶中心矩.比如抽取的样本是88,75,计算得到样本均值81.5,样本方差84.5,如果用这两个值来估计总体均值和方差,这就是一个典型的点估计问题.当然,如果再抽取另外2人测其身高数据,估计值可能就不同了.由此案例,请同学们来说说,什么是参数估计?什么是点估计?教师承上启下:参数估计的形式有两种:点估计与区间估计.本周介绍参数的点估计,下周介绍区间估计.先来看点估计的定义.定义6.1设总体的分布函数为,是未知参数,是来自的一个样本,样本值为,构造一个统计量,用它的观察值作为的近似值,这种问题称为点估计问题.称随机变量为的估计量,称为的估计值.如何进行点估计,也就是怎么求估计量的值?方法很多,常用的方法有矩估计法和最(极)大似然估计法.我们要做的就是理解每种方法的思想,了解其适用场合,会用统计软件计算其值,并会看统计软件输出结果,将我们所学应用于数据处理中.1.矩估计法矩估计法是由英国统计学家皮尔逊(K.Pearson)于1894年首创的.它虽然古老,但目前仍常用.矩估计法的一般原则是:用样本的各阶矩作为总体相应矩的估计量.各阶矩,例如样本一阶原点矩就是样本均值,那就是说用样本均值(一阶矩)估计总体均值;样本的二阶中心矩是总体方差,所以用样本的二阶中心矩来估计总体的方差是合适的.而这两类也是矩估计中最常用的.接下来看一个案例.[情景与案例]例6.2在某班52人期末数学考试成绩中随机抽取9人的成绩.结果如下:序号123456789分数948985787571656355试求该班数学成绩的平均成绩与标准差的矩估计值.解设X为该班数学成绩,平均成绩μ=E(X),标准差σ2=D(X)=75;=12.14.由于E(X2)=D(X)+(EX)2=σ2+μ2,那么,所以,该班数学成绩的平均分数的矩估计值=75分,标准差的矩估计值=12.14.例6.3设总体X的分布列为其中θ是未知参数,从总体X中抽样得到如下样本值3,1,3,0,3,1,2,3求参数θ的矩估计值.解:总体X的数学期望为故θ=143−EX,得参数θ的矩估计量为θ=14教师:讲完了矩估计法,请大家谈一下矩估计法的优缺点?接下来介绍极大似然估计法.引导学生总结:矩估计有点:在估计总体的均值、方差等数值特征时,不需要知道总体类型,就可以直接估计;缺点:因为抽样的样本不一样,得到的矩估计量就不同,故估计效果一般.2.极大似然估计法极大似然估计法首先了解它的思想,再了解其适用场合,最后会用统计软件计算其值,为了对它的思想有所了解,我们先看一个例子:某位同学与一位猎人一起外出打猎.一只野兔从前方窜过,只听一声枪响,野兔应声倒下,如果要你推测,是谁打中的呢?你会如何想呢?极大似然估计的思想是:如果随机抽样得到的样本观测值为x1,x2,…,xn,待估参数的取值有多种可能,从中找一个值作为参数的估计值,使得观察到的数据出现的概率最大(最有可能发生),即使得似然函数L(θ)取最大值,从而求参数θ,我们就可以认为这个参数就是最大似然估计值.它首先是由德国数学家高斯在1821年提出的.教师:通过看极大似然估计的思想,你对一些词有什么疑问吗?或者不理解的地方.预设学生会提出的问题:1似然函数是什么?2.怎么求似然函数的最大值?以上两个问题是极大似然估计需要掌握的两个核心问题.定义6.2设总体X为离散型,P{X=x}=p(x,θ),其中θ为待估计的未知参数,假定x1,x2,…,xn为样本X1,X2,…,Xn的一组观测值.令P{X1=x1,X2=x2,…,Xn=xn}=P{X1=x1}P{X2=x2}…P{Xn=xn}=p(x1,θ)p(x2,θ)…p(xn,θ)=.将看作是参数θ的似然函数,记为L(θ),即L(θ)=.我们总可以得到一个关于参数θ的函数L(θ),称L(θ)为似然函数.来看之前提到的例子(例6.3题干),设总体X的分布列为其中θ(0<θ<12)是未知参数,从总体X中抽样得到如下样本值3,1,3,0,3,1,2,3,则似然函数L(θ)根据抽样得到的样本值,似然函数为L(θ)=4教师承上启下:利用最大似然估计找参数的估计值,实际就是求概率的最大值点,这样推断问题就转化为数学上找最大值点的问题.上例中似然函数为L(θ)的最大值,你已经学了高数,你觉得可以怎么求?引导学生回答:数学上找最大值点的问题,这个问题可以通过求似然函数L(θ)的极值点的问题,即求解下面的方程来解决,教师进一步引导:L(θ)是n个函数的连乘积,求导数比较复杂,由于lnL(θ)是L(θ)的单调增函数,所以L(θ)与lnL(θ)在θ的同一点处取得极大值.于是可转化为求解(6.4)称lnL(θ)为对数似然函数,方程(6.4)为对数似然方程,求解此方程就可得到参数θ的估计值.如果总体X的分布中含有k个未知参数:θ1,θ2,…,θk,则极大似然估计法也适用.此时,所得的似然函数是关于θ1,θ2,…,θk的多元函数L(θ1,θ2,…,θk),解方程组(6.5),就可得到θ1,θ2,…,θk的估计值,(6.5)例6.5设总体X的概率分布为其中θ(0<θ<12)是未知参数,从总体X中抽样得到3,1,3,0,3,1,2,3求参数θ的极(最)大似然估计值.解:已得到似然函数为L(θ)=4两边取对数可得lnL(θ)=ln4+6lnθ+2ln1−θ+4ln1−2θ,对θ求导,可得似然方程24即12θ2−13θ+3=0,θ=7−1312(由0<例6.6在抖音上,某学生刷了100个视频,其中8个是广告.估计广告出现的概率θ的极大似然估计值解:设Xi=则Xi的分布列为:Xi10Pθ1-θ所以L(θ)=θ8(1-θ)92.两边取对数得lnL(θ)=8lnθ+92ln(1-θ).对数似然方程为=0.解之得θ=0.08.所以=0.08.教师:极大似然估计在统计问题中,往往优先使用,但它有些什么限制条件或者说缺点吗?另外,想一想,待定参数的矩估计量与最大似然估计量一定都相同吗?引导学生回答:需要求得总体的分布列,否则不可计算,而且对似然方程求解一般比较复杂.不一定,例6.3与例6.5的矩估计量与最大似然估计量不相同.3.估计量的评选标准对于同一个参数,用不同的估计方法求得的估计量有可能相同,也有可能不同.那如何判断哪个估计量更好呢?常见的评选标准有无偏性、有效性、一致性.通过学习这些评价标准,就能知道在不同情况下,哪种估计方法更值得信赖,从而更准确地进行参数估计.3.1无偏性定义6.4若估计量(X1,X2,…,Xn)的数学期望等于未知参数θ,即:则称为θ的无偏估计量.例6.8设X1,X2,…,Xn为总体X的一个样本,E(X)=μ,证明样本平均值是μ的无偏估计量.证因为E(X)=μ,所以E(Xi)=μ,i=1,2,…,n,于是=μ.所以是μ的无偏估计量.教师:估计量的值不一定就是θ的真值,因为它是一个随机变量,若是θ的无偏估计,则它的“平均”偏差为0,也就是说:尽管的值随样本值的不同而变化,但平均来说它会等于θ的真值.例6.9设有总体X,E(X)=μ,D(X)=σ2,(X1,X2,…,Xn)为从该总体中抽得的一个样本,样本方差S2及二阶样本中心矩B2=是否为总体方差σ2的无偏估计?解因为E(S2)=σ2,所以S2是σ2的一个无偏估计,这也是我们称S2为样本方差的理由.由于B2=,那么E(B2)=,所以B2不是σ2的一个无偏估计.从例6.9我们得到样本方差是总体方差的无偏统计量,但样本二阶中心矩不是总体方差的无偏估计量,这就是我们常用样本方差作为总体方差的估计量,而不用样本的二阶中心矩的原因.3.2有效性对于未知参数θ,如果有两个无偏估计量与,即E()=E()=θ,那么在,中谁更好呢?此时我们自然希望对θ的平均偏差E(-θ)2越小越好,即一个好的估计量应该有尽可能小的方差,这就是有效性.定义6.5设和都是未知参数θ的无偏估计,若对任意的参数θ,有D()≤D(),则称比有效.如果比有效,则虽然还不是θ的真值,但在θ附近取值的密集程度较高,即用估计θ精度要高些.教师总结:统计研究表明,当样本量足够大时,极大似然估计量有效性最高,这意味着它在所有估计方法中效率最高,所以之前我们说“极大似然估计在统计问题中,往往优先使用.”3.3一致性无偏性、有效性都是在样本容量n一定的条件下进行讨论的,然而(X1,X2,…,Xn)不仅与样本值有关,而且与样本容量n有关,不妨记为n,很自然,我们希望n越大时,n对θ的估计应该越精确.定义6.6如果n依概率收敛于θ,即ε>0,有则称是θ的一致估计量.实操利用Python语言进行数据异常值处理、矩估计和极大似然估计[异常值处理](1)众数来填充分类的缺失值:df['typebuilding'].fillna(df['typebuilding'l.mode()[0])(2)用平均值填充缺失值:df['age'].fillna(df['age'].mean())(3)用中位数填充缺失值:df['age'].fillna(df['age'].median())(4)数据集中存在重复项,删除重复:df=df.drop_duplicates()[矩估计]importnumpyasnp#样本数据sample_data=12,15,14,10,13,17,16,14,15,13]#样本大小n=len(sample_data)#点估计计算sampe_mean=np.mean(sample_data)#样本均值(估计总体均值)sample_variance=np.var(sample_data,ddof=1)#样本方差(无偏估计总体方差)print("样本均值(点估计总体均值):",sample_mean)print("样本方差(点估计总体方差):",sample_variance)输出结果:样本均值(点估计总体均值):13.9样本方差(点估计总体方差):4.1备用:importnumpyasnp#生成样本数据np.random.seed(42)true_lambda=2.0#真正的λ值sample_size=1000samples=np.random.exponential(1/true_lambda,sample_size)#矩估计计算λsample_mean=np.mean(samples)#样本均值(M1)estimated_lambda=1/sample_mean#矩估计的λprint(f"Trueλ:{true_lambda}")print(f"Estimatedλ(MethodofMoments):{estimated_lambda}")输出结果:Trueλ:2.0Estimatedλ(MethodofMoments):2.0565426917795238[极大似然估计]importnumpyasnpimportmatplotlib.pyplotaspltfromscipy.statsimportnorm#生成数据np.random.seed(42)true_mu=5true_sigma=2data=np.random.normal(true_mu,true_sigma,size=100)#假设sigma已知,固定为true_sigma,估计musigma_known=true_sigma#定义对数似然函数deflog_likelihood(mu,data,sigma):n=len(data)#正态分布对数似然公式ll=-n*
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 2025年网约车安全服务培训
- 2025年实验室安全事故案例分析培训
- 2025年燃气安全使用规范培训
- 医护人员礼仪培训的标准化流程
- 医疗隐私保护国际技术标准协调与统一
- 医疗资源整合的创新模式研究
- 内科护理学新技术应用
- 2026年语文中考总复习小题狂做-字音字形
- 小儿外科引流管护理要点
- 八纲辨证护理在儿科的应用
- 2026年春节后复工复产安全培训第一课
- 2026年部编版新教材语文小学三年级下册教学计划(含进度表)
- 2026年贵州毕节织金县事业单位招聘工作人员拟聘用易考易错模拟试题(共500题)试卷后附参考答案
- 出租车司机服务规范培训教材
- 大疆社招在线测评题库
- 安责险业务发展培训课件
- 足浴店楼面管理制度规范
- (正式版)DB51∕T 3320-2025 《地震灾害损失精细化预评估规范》
- 2026中国21世纪议程管理中心面向社会招聘3人考试参考试题及答案解析
- GB/T 8642-2025热喷涂抗拉结合强度的测定
- 期末冲刺备考总动员校长在教师会议上讲话:五字诀精实盯严稳
评论
0/150
提交评论