版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
统计学原理2019复习资料合集一、统计学导论1.1统计学的定义与性质*核心概念:统计学是一门关于数据的科学,它研究如何收集、整理、分析数据,并基于数据做出推断和决策。其核心在于通过对不确定性现象的观察和度量,揭示其内在的数量规律性。*学科性质:统计学具有数量性(以数据为语言)、客观性(基于事实和数据)、归纳性(从个体到总体,从具体到一般)和广泛性(应用于几乎所有学科领域)等特点。它既是一门方法论科学,也具有应用性科学的特征。1.2统计学的基本概念*总体与样本:*总体:指我们所研究的具有某种共同特征的全部个体(或观察单位)的集合。可分为有限总体与无限总体。*样本:是从总体中按一定方式抽取的一部分个体的集合。样本应具有代表性,以便通过样本信息推断总体特征。*参数与统计量:*参数:描述总体特征的概括性数字度量,通常是未知的、固定的常数。如总体均值(μ)、总体方差(σ²)、总体比例(π)。*统计量:描述样本特征的概括性数字度量,它是样本的函数,其值随样本的不同而变化,是随机变量。如样本均值(x̄)、样本方差(s²)、样本比例(p)。*变量:*说明现象某种特征的概念,其特点是从一次观察到下一次观察可能会呈现不同的结果。*分类:按计量尺度可分为分类变量(定类、定序)和数值型变量(定距、定比);按数据是否连续可分为离散型变量和连续型变量。1.3统计数据的类型与来源*数据类型:*分类数据:只能归于某一类别的非数字型数据,如性别、职业。*顺序数据:只能归于某一有序类别的非数字型数据,如产品等级、受教育程度。*数值型数据:按数字尺度测量的观察值,如年龄、收入。*数据来源:*直接来源(一手数据):通过调查或实验直接获得。如普查、抽样调查、统计报表、实验设计。*间接来源(二手数据):从已有的数据资料中获取。如政府统计出版物、行业报告、学术期刊、数据库等。使用二手数据时需注意数据的真实性、适用性和时效性。1.4统计研究的基本方法与过程*基本方法:大量观察法、统计分组法、综合指标法、归纳推断法。*研究过程:明确研究目的→设计研究方案→收集数据→整理与分析数据→解释结果并做出决策。二、数据的描述性分析2.1数据的预处理*数据审核:检查数据的完整性和准确性。*数据筛选:根据需要选取符合特定条件的数据。*数据排序:按一定顺序(升序或降序)排列数据,以发现其内在规律。*数据透视:对数据进行多角度、多层次的汇总和分析。*缺失值与异常值处理:根据具体情况采用删除、替换(均值、中位数、众数)等方法。2.2品质数据的整理与展示*频数分布表:按类别分组,计算各组的频数、频率、累计频数、累计频率。*图示方法:*条形图:用宽度相同的条形的高度或长短来表示各类别数据的频数或频率。*饼图:用圆形及园内扇形的面积来表示各类别数据占总体的比例关系,适用于描述分类数据的构成。*环形图:饼图的变种,可同时比较多个总体的构成。2.3数值型数据的整理与展示*数据分组:*步骤:确定组数、组距,确定组限(上限、下限),计算频数、频率等。*类型:单变量值分组(适用于离散型、变量值较少数据),组距分组(适用于连续型或变量值较多数据)。*频数分布表(频数分布数列):包括各组的组别、频数、频率等。*图示与图示方法:*直方图:用矩形的宽度和高度(面积)来表示频数分布,矩形之间没有间隔,适用于展示连续型数据的分布特征。*茎叶图:同时保留原始数据信息,展示数据的分布形状和离散状况。*箱线图:基于五数概括法(最小值、第一四分位数Q1、中位数Q2、第三四分位数Q3、最大值),用于展示数据的分布特征(中心位置、离散程度、对称性、outliers),并可进行多组数据比较。*线图:用于展示时间序列数据的趋势。*散点图:用于展示两个变量之间的关系。2.4集中趋势的度量*众数(Mode,Mo):一组数据中出现次数最多的变量值。适用于各类数据,不受极端值影响,但可能不唯一或不存在。*中位数(Median,Me):将一组数据按大小顺序排列后,处于中间位置的变量值。适用于顺序数据和数值型数据,不受极端值影响,稳健性好。*分位数:将数据按大小顺序排列后,处于某一特定位置上的数值,如四分位数(Q1,Q2=Me,Q3)、十分位数、百分位数。*均值(Mean):*算术平均数(ArithmeticMean,x̄):数据总和除以数据个数。适用于数值型数据,利用了全部数据信息,但易受极端值影响。*调和平均数(HarmonicMean,H):数据倒数的算术平均数的倒数,适用于“速度”、“比率”的平均。*几何平均数(GeometricMean,G):n个变量值乘积的n次方根,适用于计算平均增长率、平均比率。*各种集中趋势测度值的比较与应用场合:根据数据类型、分布特征及分析目的选择合适的测度值。2.5离散程度的度量*极差(Range,R):一组数据的最大值与最小值之差。简单易算,但只利用了两端点值,不能反映中间数据的离散状况,易受极端值影响。*四分位差(InterquartileRange,IQR):第三四分位数与第一四分位数之差(IQR=Q3-Q1),反映了中间50%数据的离散程度,不受极端值影响。*平均差(MeanAbsoluteDeviation,MAD):各数据与其均值离差绝对值的平均数。能全面反映数据的离散程度,但数学处理上不方便(绝对值)。*方差(Variance,σ²,s²):各数据与其均值离差平方的平均数。*总体方差σ²=Σ(xi-μ)²/N*样本方差s²=Σ(xi-x̄)²/(n-1)(自由度为n-1,以保证估计的无偏性)*标准差(StandardDeviation,σ,s):方差的平方根。与原数据具有相同的计量单位,实际应用中更常用。*离散系数(CoefficientofVariation,CV):标准差与均值之比,用于比较不同均值水平或不同计量单位数据的离散程度。CV=s/x̄(或σ/μ)。2.6分布形状的度量*偏态系数(Skewness):*描述数据分布的不对称性。*对称分布:偏态系数=0。*右偏(正偏)分布:偏态系数>0,均值>中位数>众数。*左偏(负偏)分布:偏态系数<0,众数>中位数>均值。*峰态系数(Kurtosis):*描述数据分布的扁平或尖峭程度。*标准正态分布:峰态系数=0(常称为mesokurtic)。*尖峰分布:峰态系数>0(leptokurtic),数据集中程度高。*扁平分布:峰态系数<0(platykurtic),数据分布较分散。三、概率论基础3.1随机事件及其概率*随机试验:具有重复性、明确性和随机性三个特点的试验。*随机事件:随机试验的结果,简称事件。包括基本事件、复合事件、必然事件(Ω)、不可能事件(Φ)。*事件间的关系与运算:包含、相等、互斥(互不相容)、对立(互逆)、并(和)、交(积)、差。*概率的定义:*古典定义:P(A)=m/n,其中n为样本空间中基本事件总数,m为事件A包含的基本事件数。*统计定义:在大量重复试验中,事件A发生的频率稳定在某个常数p附近,则p为事件A的概率。*公理化定义:满足非负性、规范性、可列可加性三条公理的集合函数P(A)称为事件A的概率。*概率的性质:非负性、规范性、可加性(互斥事件)、P(Φ)=0、逆事件概率P(Ā)=1-P(A)、单调性、加法公式P(A∪B)=P(A)+P(B)-P(A∩B)。3.2条件概率与事件的独立性*条件概率:在事件B发生的条件下,事件A发生的概率,记为P(A|B)。*定义:P(A|B)=P(AB)/P(B),其中P(B)>0。*乘法公式:P(AB)=P(A|B)P(B)=P(B|A)P(A)。*全概率公式:设B1,B2,...,Bn是样本空间Ω的一个完备事件组(互斥且并为Ω),则对任一事件A,有P(A)=ΣP(Bi)P(A|Bi)。*贝叶斯公式(逆概率公式):在全概率公式的条件下,P(Bi|A)=P(Bi)P(A|Bi)/ΣP(Bj)P(A|Bj)。用于“由果溯因”。*事件的独立性:若事件A与B满足P(AB)=P(A)P(B),则称A与B相互独立。此时P(A|B)=P(A),P(B|A)=P(B)。3.3随机变量及其概率分布*随机变量:表示随机试验结果的变量,用大写字母X,Y,Z等表示。分为离散型随机变量和连续型随机变量。*离散型随机变量的概率分布:*概率函数(分布律):P(X=xi)=pi,满足pi≥0,Σpi=1。*常用离散分布:*两点分布(0-1分布):X~B(1,p),参数p。*二项分布:X~B(n,p),参数n,p。描述n次独立重复伯努利试验中成功次数的分布。*泊松分布:X~P(λ),参数λ>0。常用于描述单位时间(或空间)内随机事件发生次数的分布,可作为二项分布的近似(n大p小,np=λ适中)。*连续型随机变量的概率分布:*概率密度函数(pdf)f(x):满足f(x)≥0,∫(-∞,+∞)f(x)dx=1,P(a<X≤b)=∫(a,b)f(x)dx。*分布函数(CDF)F(x):F(x)=P(X≤x)=∫(-∞,x)f(t)dt。具有单调不减、右连续等性质。*常用连续分布:*均匀分布:X~U(a,b),在区间[a,b]上均匀取值。*正态分布(高斯分布):X~N(μ,σ²),参数μ(均值),σ²(方差)。*概率密度函数:f(x)=(1/(σ√(2π)))e^(-(x-μ)²/(2σ²))。*性质:图形关于x=μ对称,单峰,“钟形”曲线,μ决定位置,σ决定形状。*标准正态分布:N(0,1),概率密度函数φ(x),分布函数Φ(x)。任何正态分布都可通过标准化变换Z=(X-μ)/σ转换为标准正态分布。*指数分布:X~E(λ),参数λ>0。常用于描述寿命、服务时间等。3.4随机变量的数字特征*数学期望(均值)E(X):*离散型:E(X)=Σxipi(绝对收敛)。*连续型:E(X)=∫(-∞,+∞)xf(x)dx(绝对收敛)。*性质:线性性E(aX+bY)=aE(X)+bE(Y);若X,Y独立,则E(XY)=E(X)E(Y)。*方差Var(X)或D(X):*定义:Var(X)=E[(X-E(X))²]=E(X²)-[E(X)]²。*性质:Var(aX+b)=a²Var(X);若X,Y独立,则Var(X±Y)=Var(X)+Var(Y)。*标准差σ(X):方差的平方根,与X有相同量纲。*协方差Cov(X,Y):*定义:Cov(X,Y)=E[(X-E(X))(Y-E(Y))]=E(XY)-E(X)E(Y)。*性质:Cov(X,Y)=Cov(Y,X);Cov(aX+b,cY+d)=acCov(X,Y);Cov(X1+X2,Y)=Cov(X1,Y)+Cov(X2,Y)。*相关系数ρXY:*定义:ρXY=Cov(X,Y)/(σ(X)σ(Y)),取值范围[-1,1]。*意义:衡量X与Y之间线性相关程度的强弱。ρ=±1表示完全线性相关,ρ=0表示无线性相关(不代表独立)。*性质:无量纲,取值与X,Y的度量单位无关。3.5大数定律与中心极限定理*大数定律:*阐述了在大量重复试验中,随机事件的频率具有稳定性,随机变量的算术平均数具有稳定性。*核心思想:随着样本容量n的增大,样本均值x̄依概率收敛于总体均值μ。为用样本均值估计总体均值提供了理论依据。*中心极限定理(CLT):*核心思想:在一定条件下(如独立同分布,方差存在),无论总体服从何种
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 中考家长会发言稿(资料15篇)
- 第2课 文档整齐又美观教学设计小学信息技术人教版三起陕师大出版四年级下册-人教版(三起)(陕师大出版)
- 部编版语文八上第11课《短文二篇》教案+(共2课时)
- 沪教版 (五四制)三年级下册带小括号的四则运算获奖教案
- 人教版生物八年级下册 第七单元 生物圈中生命的延续和发展 第三章 生命起源和生物进化 第二节 生物进化的历程 教学设计
- 人教部编版火烧云教案设计
- 第六课 精彩的体育外交教学设计初中体育与健康沪教版五四学制2024七年级全一册-沪教版五四学制2024
- 内蒙古自治区乌兰察布市初中联盟校2024-2025学年八年级下学期5月期中历史试卷(含答案)
- 吉林省吉林地区普通中学2025-2026学年度高中毕业年级第三次调研测试历史试题(含答案)
- 人教部编版语文九上第六单元 课外古诗词诵读 第1课时教案
- 密封条格式大全
- 高标准农田施工方案与技术措施
- 小学科学课件教学
- 广告学教案设计
- 基坑工程安全风险辨识
- 年产600吨肉桂醛的车间生产工艺设计
- 老年人日常生活健康指导
- 多姿与多彩(生活色彩)课件-2023-2024学年高中美术人教版(2019)选择性必修1 绘画
- 人工智能在智能冰箱中的应用
- 2023年05月江苏苏州市昆山生态环境局公开招聘编外人员4人笔试历年难易错点考题含答案带详细解析
- 《大随求陀罗尼》罗马拼音与汉字对照版
评论
0/150
提交评论