已阅读5页,还剩18页未读, 继续免费阅读
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
教 案20122013学年第一学期主 讲 教 师李晓燕课 程 名 称数据分析课程类别专业限选课学时及学分68;4授 课 班 级信息101 102使 用 教 材数据分析方法系(院.部)数理系教研室(实验室)信息与计算科学教研室数据分析总学时:68 理论38.上机28 适用专业:信息与计算科学内容:v SAS软件介绍 3学时v 数据的描述性分析 10学时v 线性回归分析 13学时 v 方差分析 10学时 v 主成分分析与典型相关分析 8学时 v 判别分析 8学时 v 聚类分析 8学时 v 学生报告 8学时 教材:数据分析方法,梅长林、范金城编,高等教育出版社.2006.参考资料:实用统计方法,梅长林编,科学出版社; 应用多元统计分析,高惠璇编,北京大学出版社,2005;使用统计方法与SAS系统,高惠璇编,北京大学出版社,2001;多元统计分析(二版),何晓群编,中国人民大学出版社,2008;应用回归分析(二版),何晓群编,中国人民大学出版社,2007;统计建模与R软件,薛毅编著,清华大学出版社,2007.考核:期末成绩(闭卷考试+上机考试):70%。平时成绩(平时作业+考勤+大报告):30%。课程作业(1)作业题目在网络教学平台公布,按格式要求,以电子版方式通过平台提交。(2)大报告:2-3人一组,每组一个选题,成员按相同的成绩计分。收集数据,撰写小论文,做PPT讲解。每组讲10-20分钟,提问环节。同学打分。课时授课计划课次序号: 01 一、课题:1.1 一维数据的数字特征及相关系数 二、课型:新授课三、目的要求:1.掌握数据的数字特征(均值、方差等);2.掌握几种描述性分析的SAS过程和作图过程计算这些数字特征及进行描述性分析.四、教学重点:均值、方差等数字特征.教学难点:基本概念的理解.五、教学方法及手段:传统教学与上机实验相结合六、参考资料:1.实用统计方法,梅长林,周家良编,科学出版社;2.SAS统计分析应用,董大钧主编,电子工业出版社七、作业:1.1八、授课记录:授课日期 班次信息101 102九、授课效果分析:0 绪论0.1 课程内涵数据分析(即多元统计学statistics):是以数据为依据,以统计方法为理论、计算机及软为工具,研究多变量问题、挖掘数据的统计规律的学科. 通过收集数据、整理数据、分析数据和由数据得出结论的一组概念、原则和方法。例如 下表给出某年级随机抽取的7名学生5门课程期末考试的成绩: 序号 政治 语文 外语 数学 物理 1 99 94 93 100 100 2 99 88 96 99 97 3 100 98 81 96 100 4 93 88 88 99 96 5 100 91 72 96 78 6 90 78 82 75 96 7 75 73 88 97 89如何根据抽样数据研究该年级学生的学习成绩?用各科成绩总和作为综合指标,比较学生成绩的好坏;根据各科成绩的近似程度对学生进行分类(成绩好的与成绩差的,文科成绩好的与理科成绩好的);研究各科成绩之间的关系(物理与数学成绩的关系,文科成绩与理科成绩的关系)等.综上所述,多元统计分析是以各变量的n次观测数据所组成的数据矩阵为依据的,根据实际问题的需要,给出种种方法.0.2 课程体系及应用l 研究内容和方法:英统计学家肯德尔(Kendall) 概括多元统计分析研究内容和方法为以下几方面:1.多元统计的理论基础包括多维随机向量及多维正态随机向量及由此定义的各种多元统计量,推导其分布并研究性质、抽样分布理论概率统计、数据描述性分析.2.多元数据的统计推断参数估计和假设检验问题.特别是多元正态分布的均值向量及协方差阵的估计和假设检验等问题数据描述性分析、方差分析、Bayses统计推断.3.变量间的相互关系(1)相互依赖关系:分析一个或几个变量的变化是否依赖于另一些变量的变化,建立变量间的定量关系式,并用于预测或控制回归分析.(2)变量间的相互关系:分析两组变量间的相互关系典型相关分析.飓风和蝴蝶.4.简化数据结构(降维问题)通过变换将相关的变量变为不相关的;高维数据投影到低维空间,简化问题又损失信息不太多.如主成分分析、因子分析、相关分析、对应分析等方法. 5.分类与判别(归类问题)将考察的变量按相似程度分类聚类分析、判别分析.l 多元统计分析的应用 由于大部分学科都涉及数据分析工作,因此统计学几乎可以与任何一个学科结合起来。有些学科已经有其特有的方法和特点;如生物统计(biostatistics)、经济计量学(econometrics)计量地理、及热门的生物信息(bioinformation)和数据挖掘(Data Mining)的方法主体都是统计。1.教育学学生成绩分析和预测.如高考成绩和高中成绩的关系,以此预测高考成绩;给出考生成绩次序排队的最佳方案;利用高中成绩进行分类(按文理科、总成绩).2.医学根据检查数据或病例资料建立诊断准则,诊断病例.3.气象学根据各地气象站的气象指标资料(降雨量、气温、气压、湿度、风速、风向等)做统计分析,进行天气预报等.4.环境科学分析污染气体浓度,布局监测点,污染治理.5.地质学处理地质观测数据,进行矿产预测、矿产构造解释、部署勘探工程等.6.考古学对发现的文物通过测得各类数据,判断出现的年代、种族等.7.服装工业抽样调查人体几十个部位的尺寸数据,进行统计分析,决定服装各型号及比例.使生产地成衣适应大多数顾客的需要.8.经济学宏观经济、微观经济的应用.9.农业农业灌区分类,农机分类等.10.社会科学通过调查研究青少年犯罪各因素间的相互关系及变化规律,进行预防.11.文学如复旦大学统计系李贤平使用聚类、主成分、相关分析,选定10个与情节无关的虚词为变量,统计每一回虚词出现的频数,进行统计分析,证明前80回为曹雪芹所写,而后40回是他人所写.12.其他体育科研、军事科学、生物学、心理学、生态学、保险、火警预报、地震预报、中医阴阳学说研究等.0.3 统计学的产生与发展统计学的产生:17世纪中叶,英国威廉配第政治算术问世,标志统计学的诞生. 统计学主要流派:国势学派(记述流派):最早流派之一。创始人德国的康令(HConring 1606-1681)和阿享瓦尔(G.Achenwall 17191772).主要采用文字记述的形式,把国家重要事项系统地整理并罗列出来(报表).政治算术学派:创始人格朗特(J.Graunt 16201674)和威廉.配第(W.Petty 1623-1687)。主张以数字、重量和尺度来说话,用图表形式来概括数字资料.数理统计学派:产生于19世纪中叶,创始人为比利时的凯特勒(L.A.J.Quetelet 1796-1874),把概率论引进统计学,为统计的数量分析奠定数理基础(数学统计学院).社会经济统计学派:于19世纪后半叶兴起于德国,主张统计学是研究社会现象的社会科学.学派融会了国势和政治算术学派观点,并把政府统计和社会调查融合起来,形成社会经济统计学,影响较大.代表人恩格尔(1821-1896)和梅尔(1841-1925)(经济管理学院).多元统计分析的起源:20世纪初,以1928年威沙特(Wishart)发表的论文多元正态总体样本协方差矩阵的精确分布为开端,之后费希尔(Fisher)、霍特林(Hotelling)、罗伊(Roy)、许宝騄等做了一系列奠基性的工作.20世纪50年代中期,电子计算机的出现和发展,使得多元统计分析在地质、气象、医学、社会学等方面得到广泛的应用.0.4 统计学是什么?统计是人类思维的一个归纳过程站在路口,看到每过去20辆小轿车时,也有100辆自行车通过.平均每10个轿车载12个人.于是,你认为小轿车和自行车在路口运载能力为24:100-这是一个典型的统计思维过程一般说,统计先从现实世界收集数据(信息),如观测路口交通信息,根据数据作出判断,称为模型.模型是从数据产生的,需根据新信息不断改进,解释实际问题.不存在完美的模型。简言之:统计学(statistics)是用以收集数据,分析数据和由数据得出结论的一组概念、原则和方法。以归纳为主要思维方式。0.5 统计学与其他学科的关系统计与数学的区别:数学思维以演绎为主;统计以归纳为主,兼有演绎;数学是工具:统计各领域利用几乎所有数学;但统计本身的数学为具体目标服务,一般不形成数学体系。统计与计算机的关系最初的计算机仅仅是为科学计算而设计和建造的。统计是大型计算机的最早用户,由于统计和数据打交道,没有计算机的发展统计就没有前途.计算机和统计的发展相辅相成0.6 统计软件应用统计学涉及大量数据的处理工作,需要借助统计软件完成。统计软件种类很多。本课程使用SAS软件。只要学会使用一种“傻瓜式”软件或编程软件,其他类似。学软件的最好方式是需要时在使用中学。l SAS:功能齐全和政府机构认可;强大的数据分析能力,是数据和统计分析领域的巨无霸。全球500强前100家中的91家企业用SAS。 需一定的编程技术;价格不菲。l SPSS:易操作,输出漂亮,功能齐全,价格合理。对非统计工作者是很好的选择。l Excel:作为数据表格软件,有画图和一定统计计算功能。可做简单统计分析,Microsoft Office装Excel(需装数据分析的功能)。l MATLAB:应用于各个领域的以编程为主的软件,在工程上应用广泛。有统计包。l S-plus:功能全,强大的编程功能,可自己编程来实现。在进行“傻瓜化”以争取顾客。l R软件:免费的开源软件,编程方便。可从网上下载更新和增加的软件包和程序。用户量增加最快。主要问题没有“傻瓜化”。l Minitab以及Statistica:功能强大而又齐全,已经“傻瓜化”,我国用的不如SPSS与SAS普遍。l Eviews:处理回归和时间序列的软件。l GAUSS:搞经济的喜欢,编程强。中国用的不多l FORTRAN:应用广、历史长、速度快的编程软件,功能强,有一定统计包。需要编程,操作不易。0.7 应用案例及选题参考l 大学排名是一个非常敏感的问题。不同的机构得出不同的结果;如何理解这些不同的结果呢?l 如何对学生成绩进行综合评价?-主成分l 任何公司都有一个信用问题。当然,在这些公司试图得到贷款时并没有不还贷的不良记录。如何根据它们的财务和商业资料来判断一个公司的信用等级呢?l 我国东部和西部的概念比较笼统。如何能够根据需要,选择一些指标来把各省,或各市县甚至村进行分类呢?l DNA鉴定、蝴蝶的分类-聚类分析l 如何才能够客观地得到某个电视节目的收视率,以确定广告的价格是否合理呢?l 如何确定红楼梦前四十回和后四十回是否曹雪芹一人所写?l 如何通过大众调查来得到性别、年龄、职业、收入等各种因素与公众对某项事物(如商品或政策)的态度之间的关系呢?l 高中成绩和大学成绩是否密切相关?地震与油价上涨有关吗?-相关分析l 水质污染和那些因素有关?如何确定重金属污染源?-回归l 如何设计调查问卷,收集数据,调查大学生喜欢的手机品牌?l 两种小麦品种产量是否有显著差异?l 肯德基选址问题调查分析(数据挖掘)要求:1.调研,收集数据;2.数据处理;3.选合适的统计模型建模。4.2-3人一组,写一篇大论文上交。做PPT汇报,10-20分钟,可以提问2-3个问题。论文和答辩各占60、40分。老师占70%,学生30%。论文做的好的,可继续作为学术科技立项申报,或作为毕业设计题目继续完善。能投稿的投稿。第一章 数据的分布数据的描述性分析即从数据出发概括数据的特征.分为数字特征和分布特征.数字特征:用简单的量概括数据包含的主要信息或特征.包括数据的集中位置、分散程度、数据分布的形状特征等.l 表达数据集中位置的指标,用以描述观察值的平均水平,如均值、中位数、分位数、三均值.l 表达数据的分散成度或变异的指标,用以描述观察值间参差别不齐的程度,如方差、标准差、变异系数、极差、四分位数等.l 表达数据分布的形状的数字特征等,如峰度和偏度.分布特征:反应数据整体结构特征.本章介绍一维和多维数据描述性分析的基本内容,包括数据的数字特征与分布特征的描述性分析.简介多维正态分布的定义和性质. 1.1 一维数据的数字特征设有n个一维数据: 它们是从所研究的对象(总体)X中观测得到的,称为样本观测值,n为样本容量.数据分析的任务:对样本观测值进行分析,提取数据中所包含的有用的信息,进一步对总体的信息做出推断.首先用一些简单的量概括数据中包含的信息或特征.1.1.1 表示位置的数字特征1均值(mean) (1.1) 为的(简单算术)平均数,简称均值.描述数据取值的平均位置.注意:10 优点:是总体均值的无偏一致估计,含有数据的完整信息,是位置的主要测度值.适用于数值型数据,不适用于分类和顺序数据. 20 缺点:易受数据中异常值的影响,缺乏抗扰性、稳健性.因此,在数据分析中还要考虑其他一些描述位置的数字特征. 30 其他平均值(不要求)(1)加权算术平均值(arithmetic mean) 其中为出现的頻数.(2)几何平均值(geometric mean)几何平均值适用于表达呈对数正态分布资料的平均水平.常用于速度、比率等变量的平均.为观察值的总乘积开次方根: 为避免溢出及方便计算,常用对数计算,也称对数平均值: 加权几何平均为: (3)调和平均值(harmonic mean )也称倒数平均值.调和平均值适用于表达呈极严重的正偏态分布资料的平均水平,有简单调和平均值与加权调和平均值两种: 简单调和平均值 加权调和平均值 (4)分组数据加权平均数据被分成组,各组组中值为,各组变量出现的頻数为,则分组加权平均公式为: 当数据量多时,采用分组加权平均,可大大减少工作量,又不至于造成太大误差.40 次序统计量:将观测值从小到大排列,记为其中:分别为最小和最大次序统计量.2中位数(median) (1.2)中位数将总体或样本的全部观察值分成两部分,每部分各有50%个观察值,其计算方法为:先将原始观察值按由小到大顺序排列后,位次处于中间的那个观察值为中位数.观察值为奇数时,处于中间的那个数为中位数.偶数时处于中间的两个数的均值为中位数.中位数是位置平均值,受异常值影响小,较好的稳健性在具有个别极大或极小值的分布数列中,中位数比算术平均值更具有代表性.适用于测量的顺序数据,表达数值型数据的集中趋势,不适用分类数据.3分位数(percentile) (1.3)分位数为顺序性数据.,的分位数以表示,将总体或样本观察值分成两部分,其中有100个观察值不超过.中位数就是0.5分位数.实际应用中,0.25与0.75分位数重要,分别称为下、上四分位数.简记为 4三均值 (1.4)为的加权平均,权重分别是.代表前25%部分,后25%部分,及中间的50%部分.在实际中,既要充分利用信息,又要较强的稳健性,可以将这些量综合起来,采用三均值作为概括位置的数字特征.5. 众数(mode)一组数据中出现頻数最多的变量值称为众数,列为频数表的资料,频数最大的组的组中值为众数.适用于粗略地表示呈单峰分布资料的集中趋势.当数据个数较少时,众数就是出现次数最多的个数据.例1.1 某城市随机抽取9个家庭,调查每个家庭的人均月收入数据(单位:元),如下: 1080 750 780 1080 850 960 2000 1250 1630计算人均月收入的均值及中位数.解:顺序统计量 750 780 850 960 1080 1080 1250 1630 2000, , 中位数, ,众数出现2次.二数字特征的作用总体的分布为 (或),即为总体均值的相合估计P,总体分布的分位数. 样本分位数为总体分位数的相合估计.例1.2 对某单位100名女学生测定血清蛋白含量(g/L),数据如下:74.3 78.8 68.8 78.0 70.4 80.5 80.5 69.7 71.2 73.579.5 75.6 75.0 78.8 72.0 72.0 72.0 74.3 71.2 72.075.0 73.5 78.8 74.3 75.8 65.0 74.3 71.2 69.7 68.073.5 75.0 72.0 64.3 75.8 80.3 69.7 74.3 73.5 73.575.8 75.8 68.8 76.5 70.4 71.2 81.2 75.0 70.4 68.070.4 72.0 76.5 74.3 76.5 77.6 67.3 72.0 75.0 74.373.5 79.5 73.5 74.7 65.0 76.5 81.6 75.4 72.7 72.767.2 76.5 72.7 70.4 77.2 68.8 67.3 67.3 67.3 72.775.8 73.5 75.0 72.7 73.5 73.5 72.7 81.6 70.3 74.373.5 79.5 70.4 76.5 72.7 77.2 84.3 75.0 76.5 70.4计算均值,中位数,上,下四分位数,M0.99,M0.95,M0.90,M0.10,M0.05,M0.01分位数及三均值.解:利用SAS系统的PROC UNIVARIATE过程实现.计算程序:data examp1_2;input x ;cards;74.3 78.8 68.8 78.0 70.4 80.5 80.5 69.7 71.2 73.579.5 75.6 75.0 78.8 72.0 72.0 72.0 74.3 71.2 72.075.0 73.5 78.8 74.3 75.8 65.0 74.3 71.2 69.7 68.073.5 75.0 72.0 64.3 75.8 80.3 69.7 74.3 73.5 73.575.8 75.8 68.8 76.5 70.4 71.2 81.2 75.0 70.4 68.070.4 72.0 76.5 74.3 76.5 77.6 67.3 72.0 75.0 74.373.5 79.5 73.5 74.7 65.0 76.5 81.6 75.4 72.7 72.767.2 76.5 72.7 70.4 77.2 68.8 67.3 67.3 67.3 72.775.8 73.5 75.0 72.7 73.5 73.5 72.7 81.6 70.3 74.373.5 79.5 70.4 76.5 72.7 77.2 84.3 75.0 76.5 70.4;proc univariate data=examp1_2; /* 调用univariate过程,这里无选项,表示按此过程的默认输出结果*/ var x;run;注意:此过程的默认结果输出含有:N、MEAN、Sum、Std Dev、Variance、Skewness、Kurtosis、Ussr、Css、T(t检验的值)、Prt(p值)、各种分位数、中位数、Range、Modern等.程序运行结果The SAS System 17:39 Friday, August 27, 2009 7
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 企业人力资源管理决策分析模板
- IT技术部门软件开发人员绩效评定表
- 2025年昆明市二级建筑师考试冲刺试卷(含答案及考点分析)
- 生物必修一组成细胞的元素及化合物
- 客户投诉处理流程模板问题解决与预防
- 2025职业中医师试题及答案
- 【语文】南宁市二年级下册期末复习试卷
- 单位赴高校现场招聘教师75人笔试模拟试题附答案详解
- 仓库库存管理清单库存预警系统版
- 广东省广州市天河区2024-2025学年七年级上学期语文期末考试试卷(含答案)
- DL5190.5-2019电力建设施工技术规范第5部分:管道及系统
- 中国音乐史智慧树知到期末考试答案章节答案2024年聊城大学
- MOOC 探索管理世界的心理与行为-组织行为学-西北大学 中国大学慕课答案
- 一例横纹肌溶解症患者的个案护理
- 《钢筋桁架楼承板应用技术规程》
- 汽车租赁服务投标书
- 在线学习平台的用户体验研究与优化
- 以“形”意“数”构建可视化成长性思维 论文
- 轨道交通职业生涯规划
- 财务管理案例(第4版)案例9
- 言语语言障碍
评论
0/150
提交评论