科学方法是通向绝对知识或真理的唯一入口_第1页
科学方法是通向绝对知识或真理的唯一入口_第2页
科学方法是通向绝对知识或真理的唯一入口_第3页
科学方法是通向绝对知识或真理的唯一入口_第4页
科学方法是通向绝对知识或真理的唯一入口_第5页
已阅读5页,还剩92页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

科学方法是通向绝对知识或真理的唯一入口研究的本质1研究的基础

2Now:数据分析

3研究方法4论文的撰写6研究计划及研究报告的准备5描述统计推断统计一、新旧知识的联系研究课题程序/设计假设或问题样本工具定义文献综述数据分析二、数据分析的宏观概念图?1收集数据2

描述统计3

推断统计宏观概念图描述统计推断统计描述统计目录ONE1

描述统计的实质TWO2

描述分布THREE3描述关系FOUR4线性关系一、什么是数据?数据是指由变量组成的个体的许多信息。变量指个体的特定属性。二、描述统计的实质描述统计一个变量二个变量描述分布描述关系三、检验分布变量:类别变量和数值变量四、检验关系一些例子1.在某一标准化的测验中性别与得分的关系?2.婴儿睡眠时的光线类型与是否是近视有关系?3.我们能不能根据新生的SAT的得分预测他的GPA?4.考驾照时的练习时间和是否能通过之间有没有关系?2类别变量数字变量CaseⅠ五、描述统计宏观图描述分布描述关系1CaseⅡCaseⅢ描述统计目录ONE1

描述统计的实质TWO2

描述分布THREE3描述关系FOUR4线性关系一、类别变量你觉得你身材怎样?胖、瘦还是刚好?StudentBodyImagestudent25overweightstudent26aboutrightstudent27underweightstudent28aboutrightstudent29aboutright随机调查了1200大学生,下表显示了一部分回答。BodyImageDistributionCategoryCountpercentaboutright855855/1200*100=71.3%overweight235235/1200*100=19.6%underweight110110/1200*100=9.2%TotalN=1200100%1.饼形图2.直条图小结:类别变量的分布计算类别变量的个数和百分比;同时用饼图或直条图进行图形化的显示。活动1:利用excel绘制饼图或直条图在这个活动中:会用excel计算次数和百分比知道怎样用excel生成饼图你发现和谁最容易交朋友?(异性、同性、没差别)

原数据:friends1具体步骤:1

选中需要处理的变量2

选择“数据>-数据透视表和数据透视图”3

点击完成,此时你看到一张新的空表.4选中。二、数字变量统计图与统计表:直方图、茎叶图描述统计的特征量:集中量数、差异量数对于数字变量:我们可以先用直方图或茎叶图描述;然后对其进行数字化测量。(一)直方图的思想:求出组距,然后计算次数88,48,60,51,57;85,69,75,97,72;71,79,65,63,73.例子:考试分数直方图组距:40-50,50-60…90-100ScoreCount[40-50)1[50-60)2[60-70)4[70-80)5[80-90)2[90-100]1如何说明直方图?我们的例子:分数基本对称,70作为分布的中心点,最小值大约45、最大值大约95、全距大约为50小结:直方图是用于描述数值变量的图形;当检验数值变量的分布时,我们应该描述这个图形的形状、集中趋势、离散趋势课后思考题:如何利用excel绘制直方图利用奥斯卡得主的年龄为例,说明怎样用excel生成直方图,源数据可用actor2(二)茎叶图的思想:把数据分成茎和叶

叶:最右边的数字;茎:其他的数字例子:最佳女奥斯卡获得者3434263742413531413330743349386121412680432933354549393426253533小结:茎叶图是对小的数据集简单快速的描述;能保留原数据;对数据进行排序。(三)集中趋势度量参数及其计算众数(Mode)平均数(Mean)中位数(Median)1众数众数:指次数分布中出现次数最多的那个数的数值,又称范数,常用符号M0表示。例1:1,2,2,3,3,4

例2:1,2,3,4,5

例3:12,12,56,78,90

例:2,4,6,8,102算术平均数平均数=6下表是17名中学教师的月收入:1200,1270,1300,1310,1320,1350,1360,1370,1390,1400,1450,1460,1530,1580,1600,3200,4000

现欲了解他们的平均月收入。平均数=1652.33中数

中数:是指一组按大小顺序排列起来的量数的中间点的数,又称中位数,符号记为Mdn。下表是17名中学教师的月收入:1200,1270,1300,1310,1320,1350,1360,1370,1390,1400,1450,1460,1530,1580,1600,3200,4000

现欲了解他们的平均月收入。平均数=1652.3中数=1390那么这则数据的中位数呢?3、6、7、9、20、21小结:集中量数

三个代表

在实际中最常用的就是平均数分布A:19,20,25,32,39分布B:2,3,25,30,75这两个分布的平均数都是27,中数都是25。集中量数出现的问题(四)差异量数及其计算差异量数:是表示量数之间的差异程序的一些统计量的总称,它是用于表示一群量数的离散情况或离中趋势。

常用的差异量数:方差(Variance)标准差(Std.deviation)标准分数(Z分数)最大值(Maximum)、最小值(Minimum)等(1)样本方差与标准差样本方差:样本标准差:n-1n-1例:分布A:19,20,25,32,39分布B:2,3,25,30,75求标准差只有知道了差异量数的大小,才能了解集中量数的代表性如何。差异量数越大,集中量数的代表性越小;差异量数越小,集中量数的代表性越大。2标准分数标准分数,又称Z分数。是以标准差为单位表示一个分数在团体分数中所处的位置。

试分析在班里他们三人中谁的总成绩最好。活动2.利用excel计算统计量目标:1.学习利用excel计算统计量,并进行统计描述2.用五个变量进行分布描述。盒子图常用的统计量最小值Q1值中位数平均数Q3值最大值标准差步骤:在列A以外的任何一个单元格中键入min,然后在右边一格中键入=min(A2:A33)。在min单元格下面键入Q1,然后在右边一格中键入=quartile(A2:A33,1)。在Q1单元格下面键入Median,然后在右边一格中键入=median(A2:A33)。在Median单元格下面键入Mean,然后在右边一格中键入=average(A2:A33)。在Mean单元格下面键入Q3,然后在右边一格中键入=quartile(A2:A33,3)。在Q3单元格下面键入Max,然后在右边一格中键入=max(A2:A33)。问题:输出结果中有多少个观测值?奥斯卡得主的平均年龄?这五个量的值分别是多少?奥斯卡获得者有一半的年龄是多少?全距是多少?四分位差是多少?盒子图描述统计目录ONE1

描述统计的实质TWO2

描述分布THREE3描述关系FOUR4线性关系两个变量之间的关系分类CaseI:自变量是类别的,因变量是数值的例子:热狗很关心自己健康的人更愿意选择低卡路里的热狗。于是健康协会做了一项调查,检查54种品牌的热狗,根据原材料的类型(牛肉、家禽、猪肉)进行分类并测其卡路里值。研究的目的是为了检验热狗的卡路里值和其类型是不是有关。我们先计算各统计量,然后用盒子图来呈现解释我们的结果1.家禽类的热狗比牛肉和猪肉的热狗卡路里更低;2.家禽类的热狗的卡路里的中位值比其他两个低,甚至低于其他两个的Q1值;3.这三种类型的热狗分布是一样的。结论:

总体而言,我们推荐消费者吃家禽类的热狗,但要知道,因为每种类型的热狗,由于品牌不同,卡路里的差异是很大的,因此,吃家禽类的热狗并不能保证是低卡路里的食品。检验CaseI关系:本质是用盒子图对每种自变量的类别进行因变量的分布比较,再辅以统计量进行说明。

小结:CaseII:TwoCategoricalVariables例:美国大学生对自己身材的看法男生和女生对自己身材看法是否存在差异?为了概述两个变量之间的关系,我们创建一个如下图所示的二维表。比较分布比较分布1.用两维表显示数据;

2.辅以百分比进行描述;

3.我们试图理解两个类别变量之间的关系时,我们实质是比较每种类别的反应变量的分布,尤其是比较反应变量值的百分比差异。小结:检验两个类别变量的关系CaseIII:TwoQuantitativeVariables自变量是类别变量时,我们比较因变量的分布;自变量是数字变量时,我们需要引入新的统计工具。例:高速公路上的标志宾夕法尼亚州一研究所进行了一项研究,对年龄从18到80岁的30名司机进行实验,调查他们能看清楚新标志的最长距离,目的是为了检验司机的年龄和他们能看清标志的最长距离,且将研究发现用于提高老年司机的安全性问题。这些数据我们也可以转化成:

(18,510),(32,410),(55,420),(23,510)

........(82,360).检验两个数值变量的关系用碎石图(scatterplot)碎石图大体离差趋势强度图式极端值+问题出来了:如何解释碎石图?我们该怎么读图?我们应该注意什么?1.趋势(direction)2.图式(form)alinearform

acurvilinearformClustersform3.强度(strength)4.极端值(outliers)我们的例子趋势是递减的;线性的;强度较强;没有极端值。小结:两个数值型变量之间的关系用碎石图进行显示,每个点代表每个个体,X轴表示自变量,Y轴代表因变量;我们可以看散点图的大体情况和偏离,具体来说,就是看它的趋势、图式、强度和极端值。描述统计目录ONE1

描述统计的实质TWO2

描述分布THREE3描述关系FOUR4线性关系一、相关系数r相关系数r是两变量间相关程度的量化指标,用于测量两个数值变量之间变化的趋势和密切程度。例1:高速公路上的标志解释:r为负数,说明两个变量关系是负的;r相对来说比较接近1,说明是强相关;结论:能看清标志的最远距离会随着年龄递减;从r值我们可以预测,相同年龄的司机能看清标志的最远距离有所变化。例2:课程的一项统计数据说明:

r取值范围介于-1至+1之间,常用小数表示,正负号表示相关方向,绝对值的大小表示相关的程度;特别地,当相关系数为0时,称0相关,表示两变量之间无任何线性关系;相关系数为1时,表示两变量间存在完全正相关;相关系数为-1时,表示两变量之间存在完全负相关;完全正负相关的两变量的取值存在一一对应的函数关系。r特性相关系数不随着变量的测量单位的改变而改变

它仅仅是一个数字,不能用百分比来解释r特性r只能代表线性关系的强度,测量不出其他模式的程度,不管它有多强。r接近0的意思是没有线性关系.r特性r的大小不能说明它是不是线性关系。一切得看数据。二、线性回归:从一个例子开始

前面,我们已经知道了司机年龄和看清新标志需要的最远距离,假定政府机构想预测60岁的司机能看到的最远距离,怎么办?技术上而言,这就叫线性回归。我们可以预测,最远距离不会超过400英尺。如何选择一条最适合的线?选择准则:最小平方最小平方回归线---函数式

例:年龄—距离Y

=

a

+

bXb

=

r

(SY/SX)a

=

Y

−bX

最小平方回归线---函数式例子的回归线60

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论