




已阅读5页,还剩7页未读, 继续免费阅读
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
.统计学一、 导论1、 统计学是收集、处理、分析、解释数据并从数据中得出结论的科学。2、 数据分析方法:描述统计、推断统计3、 统计数据分类:分类数据、顺序数据、数值型数据分类数据:表示类别,一般用文字描述。eg:企业按行业属性分为医药企业、家电企业等。顺序数据:eg:一等品,二等品等;小学,初中,高中;同意,中立,不同意等4、 分类与顺序数据统称定性数据(品质数据),数值型数据也称定量数据(数量数据)数据分类示意图定性数据 定量数据(品质数据) (数量数据)5、 参数与统计量的区别:参数是用来描述总体特征,而统计量是用来描述样本特征的概括性数字度量。P11::1.1、1.2、1.3二、 数据的搜集1、数据来源 直接来源 调查数据 非概率抽样 概率抽样实验数据 间接来源(特点:P14)三、 数据的图表展示1、 数据的预处理包括:审核、筛选、排序。2、 品质数据(包括分类与顺序数据)主要进行分类整理,数值型数据进行分组整理。图形展示分类数据:条形图、帕累托图、饼图、环形图、频数分布表顺序数据:条形图、帕累托图、饼图、环形图、频数分布表、累积频数分布表数据类型 原始数据:茎叶图、箱线图条形图数值型数据 分组数据:直方图帕累托图 +以上时间序列数据 线图+饼图、环形图多变量数据:散点图、气泡图、雷达图频数分布表即:(图表展示金字塔)数值型数据顺序数据分类数据3、 比例与比率比例=各个部分的数据全部数据(1,1, =1)4、 条形图与直方图的区别1、 条形图宽度固定(无意义),用长度表示频数;直方图宽度表示组距,高度表示频数(或频数/组距),用面积表示频数。2、 条形图各矩形分开,直方图则连续。3、 条形图用来表示分类数据,直方图表示数值型数据。单变量值分组:离散变量或变量值较少5、数据的分组组距分组:连续变量或变量值较多5、 组距分组步骤:确定组数(5-15组)确定组距(5或10的倍数)频数分布表(上组限不在内aX0,则右偏;峰态系数0,呈尖峰分布。2、 众数、中位数、分位数是一个位置代表值,不受极端值影响。3、 中位数与分位数的计算:(首先要对所给数据排序,然后计算中(分)位数的位置,然后计算其数值)P89-P90计算下面9个家庭的人均月收入(元)的中位数及四分位数:1500 750 780 1080 850 960 2000 1250 1630解:现将数据排序如下:750 780 850 960 1080 1250 1500 1630 2000中位数位置=9+ 12=5 所以中位数Me=1080下四分位数QL位置=n4=2.25 QL=780+(850-780)X0.25=797.5上四分位数Qu位置=3n4=6.75 QU=1250+(1500-1250)X0.75=1437.5它表示:至少有25%的数据将小于或等于797.5,至少有25%的数据将大于或等于1437.5,所以,可以说大约有一半的家庭收入在797.5元和1437.5元之间。5、平均数分为简单平均数、加权平均数与几何平均数三种。6、众数、中位数、平均数之间的关系 1)对称分布:MO=Me=X 2)左偏分布:XMeMO 3)右偏分布:MOMe1,高度偏态;绝对值在0.5-1,中度偏态;)峰态系数大于0时,尖峰分布;小于0时,扁平分布。练习P1114.8一项关于大学生体重状况的研究发现,男生的平均体重为60kg,标准差为5kg,女生的平均体重为50kg,标准差为5kg。请回答下面问题:(1) 是男生的体重差异大还是女生的体重差异大?为什么?(2) 粗略的估计一下,男生中有百分之几的人体重在5565kg之间?(3) 粗略的估计一下,女生中有百分之几的人体重在4060kg之间?解:(1) 分别计算男女生体重离散系数:VS男=560=112 VS女=550=110因为VS男VS女,所以女生的体重差异比较大。(2) 由公式Zi=Xi-XS得,55-605=-1,65-605=1,根据经验法则知,有68%的男生体重在5565kg。(3) 同(2),95%P1114.9一家公司在招收职员时,首先要进行两项能力测试。A项测试中,平均分为100分,标准差15分,B项测试中,平均分400分,标准差50分。一位应试者在A项测试中得了115分,B项中得了425分。与平均成绩相比,应试者参加哪一项测试更为理想?解:由公式Zi=Xi-XS得:ZA=115-10015=1,ZB=425-40050=12这表明应试者在A项测试中比平均分高1个标准差,B项测试中比平均数高0.5个标准差。所以他应该参加A项测试。十一、一元线性回归1、 相关分析时的假定:(1)两个变量之间是线性关系(2)两个变量是随机变量2、相关关系的划分(6类):正线性相关、负线性相关、完全正线性相关、完全负线性相关、非线性相关、不相关3、相关系数可以度量两个变量之间的相关强度。0r1则存在正线性相关关系,r=1是为完全正线性相关;-1rF拒绝H0,两个变量线性关系显著。显著性检验 FF不拒绝H0,没有证据证明 (P,不拒绝HO)tt2,拒绝H0,两个变量有显性线性关系回归系数的检验(T检验)tt2,不拒绝H0,没有证据证明X对y的影响显著(P,拒绝HO)15、考察关于的正态性假定是否成立时,可画出残差的直方图或正态概率图。16、估计y的平均值比预测y的平均值更精确,估计区间比预测区间窄。17、区间预测的公式及意义P32411.14例:以下为不良贷款y(亿元)与贷款余额x(亿元) Excel输出的回归分析结果,根据要求回答以下问题。SUMMARY OUTPUT回归统计Multiple R0.843571R Square(2)Adjusted R Square0.699074标准误差1.979948观测值(1)方差分析dfSSMSFSignificance F回归分析1(3)222.48656.753841.18E-07残差23(4)(5)-总计24312.6504-Coefficients标准误差t StatP-valueLower 95%Upper 95%Intercept-0.829520.723043-1.147260.263068-2.325250.666208X Variable 10.0378950.005037.5335150.0000000.0274890.0483要求:1、 完成表格。2、 建立线性回归方程,并解释回归系数的意义。3、 解释判定系数的实际意义。4、 计算估计误差,并解释其意义。5、 对线性关系作显著性检验。(=0.05)6、 对回归系数作显著性检验。(=0.05)7、 根据估计方程建立贷款余额为72.8亿元的那个分行不良贷款的95%的预测区间。8、 根据估计方程,取x0=100,建立不良贷款的95%的置信区间。参考答案:解:1、(加为答案,加粗为计算步骤。)(1)25 ;(2)0.711613 0.8435712=0.711613 (3)222.486 222.486/1=222.486 (4)90.16442 312.6504-222.486=90.16442 (5) 3.920192 90.16442/23=3.9201922、回归方程:y=-0.82952+0.037895x 回归系数0.037895的意义:贷款余额每增加一亿元,不良贷款就平均增加0.037895亿元。3、判定系数R2=0.711613表示在不良贷款y的取值变差中,有71.16%可以由不良贷款与贷款余额之间的线性关系解释。4、估计标准误差Se=SSE/(n-2)=MSE=3.920192=1.9799 意义:根据贷款余额来估算不良贷款时,平均的估计误差为1.9799亿元。5、(对线性关系的显著性检验用t检验。)由表中得用于检验的P值Significance F=1.18 X 10-7,所以Significance F=0.05,说明不良贷款与贷款余额之间存在着显著的线性关系。6、(对回归系数的显著性检验用F检验。)由表中得用于检验的P值P-value =0.000000,所以P-value=0.05,则拒绝H0,说明贷款余额x对不良贷款y的影响是显著的。7、n=25, Se=1.9799,查表得t2(n-2)=2.0687当贷款余额为72.8亿元时,不良贷款的点估计值y=-0.82952+0.037895X72.8=1.93亿元不良贷款的95%的预测区间为(例题P324)8、同6(例题P323)十二、多元线性回归1、 回归模型:y=0+1x1+2x2+kxk+2、 回归系数的解释P3413、 多重判定系数R2=SSRSST,调整的多重判定系数Ra2小于R2。4、 估计的标准误差Se=MSE,解释P343。5、 显著性检验如一元线性回归。但要注意以下几点:(1) 在线性关系检验的F检验中,说明的是总体的显著性。拒绝Ho,不意味着每个自变量与因变量的关系都显著。(2) 由于多重共线性,在t检验中,当t时,自变量不一定对因变量的影响不显著。6、多重共线性的判别与处理P349 (1)模型中各对自变量之间显著相关。 (2)模型的线性关系检验(F检验)显著,几乎所有的回归系数检验(t检验)却不显著。 (3)回归系数的正负号与预期相反。7、变量的选择方法:向前选择、向后剔除、逐步回归、最优子集。例以下为不良贷款y(亿元)与贷款余额X1, 应收账款X2贷款项目个数X3固定资产投资额X4 Excel输出的回归分析结果SUMMARY OUTPUT回归统计Multiple R0.893087R Square(2)Adjusted R Square0.757125标准误差1.778752观测值(1)方差分析dfSSMSFSignificance F回归分析(3)249.3712(4)19.704041.04E-06残差20(6)3.1639597总计(5)312.6504Coefficients标准误差t StatP-valueLower 95%Upper 95%Intercept-1.021640.782372-1.3058230.206434-2.653640.61036X Variable 10.0400390.0104343.83749530.0010280.0182750.061804X Variable 20.1480340.0787941.87873780.074935-0.016330.312396X Variable 30.0145290.0830330.17498250.862853-0.158670.187733X Variable 4-0.029190.015073-1.9367690.06703-0.060630.002249要求:1、完成表格。2、 建立线性回归方程,并解释回归系数的意义。3、 解释判定系数的实际意义。4、 对线性关系作显著性检验。(=0.05)(同一元线性回归的方法)5、 对回归系数作显著性检验。(=0.05)(同一元线性回归的方法)参考答案:解:1、(加为答案,加粗为计算步骤。)(1)25 ;(2)0.797604 0.8930872=0.797604(3)4 4个自变量 (4)62.342802 249.3712/4=62.342802 (5) 24 25-1=24 或20+4=24 (6) 63.27919 3.1639597X20=63.279192、回归方程y=-1.02164+0.040039X1+0.148034 X2+0.014529 X3-0.02919 X4回归系数的意义1=0.040039表示,在累计应收账款、贷款项目个数、固定资产投资额不变的条件下,贷款余额每增加1亿元,不良贷款平均增加0.040039亿元。 2=0.148034表示,在贷款余额、贷款项目个数、固定资产投资额不变的条件下,累计应收账款每增加1亿元,不良贷款平均增加0.148034亿元。3=0.014529表示,在贷款余额、累计应收账款、固定资产投资额不变的条件下,贷款项目个数每增加1亿元,不良贷款平均增加0.014529亿元。4=-0.02919表示,在贷款余额、累计应收账款、贷款项目个数不变的条件下,固定资产投资额每增加1亿元,不良贷款平均减少0.02919亿元。3、判定系数R2=0.797604=79.7604%,表示在不良贷款取值的变差中,能被贷款余额、累计应收账款、贷款项目个数和固定资产的多元回归方程解释的比例为79.7604%。十三、时间序列分析与预测1、 时间序列成分:趋势(T)、季节性(S)、周期性(C)、随机性(I)。2、 周期性与季节性:季节性的波动有规律,变动周期多为1年。 周期性的波动无规律,变动周期在1年以上,且周期长短不一。3、 增长率:环比增长率与定基增长率环比增长率:Gi=Yi/Yi-1-1 表现逐渐变化的程度定基增长率:Gi=Yi/Y0-1 表现总增长变化程度平均增长率:G=nYn/Y0-1例P36813.2根据表13-1中的人均GDP数据,计算1990-2004年的平均增长率,并根据平均增长率预测2005年与2006年的人均GDP.解: 由公式G=nYn/Y0-1得G=1410561/1634-1=114.26%-1=14.26%(注意n=14) 2005年与2006年的人均GDP预测值分别为: Y2005=10561 X(1+14.26%)=12067.0(元) Y2006=10561 X (1+14.26%)2=13787.8(元)例:某只股票周二上涨10%,周三上涨5%,则累计涨幅是多少?解:x(1+10%)(1+5%)x =15.5%4、 增长1%的绝对值表示增长率每增长1个百分点而增加的绝对数量。公式为增长1%是我绝对值=前期水平100 实际意义见P3695、 确定时间序列的成分确定趋势成分:可以绘制时间序列的线图或者是利用回归分析拟合一条趋势线,然后对回归系数进行显著性检验。确定季节成分:绘制特殊的时间序列线图年度折叠时间序列线图。 如果时间序列只存在季节成分,年度折叠时间序列线图的折线就会有交叉, 如果既含有季节成分又存在趋势,则折线将不会有交叉。例P37213.56、 平稳之间序列通常只含有随机成分,其预测方法的选择简单平均法、移动平均法、指数平滑法。7、 复合型序列的分解预测步骤1、 确定并分离季节成分(每个序列的预测值除以季节指数)2、 建立预测模型并进行预测3、 计算最后的预测值(预测值乘以相应的季节指数)8、 季节指数的计算季节指数反映了某一月份或季度的数值占全年平均数值的大小。某一月份或季度的数值全年平均数值计算步骤:1、计算移动平均值,并进行中心化处理得到中心化移动平均值2、计算移动平均的比值(也称为季节比率)序列的各观察值中心化移动平均值 3、季节指数调整。例:以下为某啤酒生产企业2000-2005年个季度的销售量数据:要求:1、完整表格。2、计算各季的季节指数。ABCDE1年/季度时间标号t销售量Y中心化移动平均值CMA比值22000/1125-32232-43337(1)1.2082 54426(2)0.8125 62001/1530(3)0.8989 7263834.500 1.1014 8374234.875 1.2043 9483034.875 0.8602 102002/192936.000 0.8056 112103937.625 1.0365 123115038.375 1.3029 134123538.500 0.9091 142002/1133038.625 0.7767 152143939.000 1.0000 163155139.125 1.3035 174163739.375 0.9397
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 2025年夏季版全球私募资本晴雨表
- 深圳新飞通笔试题及答案
- 河北专升本考试真题及答案
- 新能源客车测试题及答案
- 醴陵二中模拟考试题及答案
- 2025广东深圳市特区建工招聘模拟试卷及答案详解(全优)
- 2025湖南怀化市溆浦县招聘事业单位人员65人模拟试卷含答案详解
- 2025年青岛胶州市中医医院高级人才引进考前自测高频考点模拟试题及答案详解(典优)
- 2025年上半年江苏徐州市九州职业技术学院招聘考前自测高频考点模拟试题带答案详解
- 硬金专业知识培训课件
- 物业服务纠纷上诉状
- 血液透析患者远期并发症的防治及护理(共48张)
- 马桶水箱相关项目建议书
- 脱口秀分享课件
- 《从零到卓越- 创新与创业导论》教案
- IEC 62368-1标准解读-中文
- 慢性阻塞性肺疾病急性加重围出院期管理与随访指南(2024年版)解读
- 《建筑施工技术》课件-土方开挖及边坡支护
- 特殊教育作业册(上册)
- 6.1+友谊的真谛++课件-2024-2025学年统编版道德与法治七年级上册
- 南洋理工校训的英文
评论
0/150
提交评论