统计数据的收集整理与显示课件_第1页
统计数据的收集整理与显示课件_第2页
统计数据的收集整理与显示课件_第3页
统计数据的收集整理与显示课件_第4页
统计数据的收集整理与显示课件_第5页
已阅读5页,还剩131页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

统计数据的收集整理与显示统计数据的收集整理与显示统计数据的收集整理与显示引导案例宋词密码惨遭破解,三步你就能写一首诗!“yixuan”在个人博客里写道:“突然想看看宋词里面什么样的意象是最常见的,比如可以做个频率分析什么的。当然文本挖掘需要分词,我没法在其中花太多时间,于是想出了一个土办法。宋词的句子都很短,如果穷举可能的字的组合的话并不是太多,况且最常见的词语一般是两三个字,这样可能的组合就更少了。”2统计数据的收集整理与显示统计数据的收集整理与显示统计数据的收1引导案例

宋词密码惨遭破解,三步你就能写一首诗!“yixuan”在个人博客里写道:“突然想看看宋词里面什么样的意象是最常见的,比如可以做个频率分析什么的。当然文本挖掘需要分词,我没法在其中花太多时间,于是想出了一个土办法。宋词的句子都很短,如果穷举可能的字的组合的话并不是太多,况且最常见的词语一般是两三个字,这样可能的组合就更少了。”2引导案例宋词密码惨遭破解,三步你就能写一首诗!2引导案例

宋词密码惨遭破解,三步你就能写一首诗!比如“犹解嫁东风”这句话,可能的二字组合是“犹解”“解嫁”“嫁东”“东风”,三字组合是“犹解嫁”“解嫁东”“嫁东风”,词的字数越多,可能的组合就越少。如果把每句话可能的字的组合都列举出来,就可以整体统计高频词频率了,排在前面的分别是:1.无效数字(14852)2.东风(1382)3.何处(1230)4.人间(1202)5.风流(857)6.归去(812)7.春风(802)8.西风(779)9.归来(771)10.江南(765)至于为什么第一名是数字,他解释:“排在第一的是无效字符,这跟数据源有关。”3引导案例宋词密码惨遭破解,三步你就能写一首诗!3宋词密码

1空21一笑41深处61一片81不是

2东风22黄昏42时节62桃李82时候

3何处23当年43平生63人生83肠断

4人间24天涯44凄凉64十分84富贵

5风流25相逢45春色65心事85蓬莱

6归去26芳草46匆匆66黄花86昨夜

7春风27尊前47功名67一声87行人

8西风28一枝48一点68佳人88今夜

9归来29风雨49无限69长安89谁知

10江南30流水50今日70东君90不似4宋词密码4

10江南30流水50今日70东君90不似11相思31依旧51天上71断肠91江上12梅花32风吹52杨柳72而今92悠悠13千里33风月53西湖73鸳鸯93几度14回首34多情54桃花74为谁94青山15明月35故人55扁舟75十年95何时16多少36当时56消息76去年96天气17如今37无人57憔悴77少年97惟有18阑干38斜阳58何事78海棠98一曲19年年39不知59芙蓉79寂寞99月明20万里40不见60神仙80无情100往事宋词密码510江南30流水50今日70东君

(1415)回首明月,(一看就是抒情诗)(9265)悠悠心事空,(果然,貌似失恋了)(358979)故人谁知寂寞。(触景生情)(323846)风吹斜阳匆匆,(回忆那天下午的艳遇)(264338)芳草平生斜阳,(平生见过最美的太阳和芳草,都是因为那里有你的身影)(327950)风吹寂寞今日。(到现在就剩我自己)(288419)一枝富贵年年,(好花美丽年年开,好景宜人不常在)(716939)断肠长安不知。(我的思念远方的你可知道)

《清平乐·圆周率》π=3.1415926……6(1415)回首明月,(一看就是抒情诗)《清平乐《如梦令·根号二》=1.41421356……(414213)深处时节千里,(562373)消息当年鸳鸯。(0950)归来今日,(488016)一点无情多少。(8888)今夜,今夜(724209)而今时节归来。7《如梦令·根号二》=1.41421356……7

研究人员将中国艺术研究院《红楼梦》研究所校注、人民文学出版社1982年出版的《红楼梦》作为基础原文全文输入计算机。人们利用这个检索系统第一次得到了《红楼梦》中一系列重要的统计数据。如《红楼梦》全书的精确字数是731017个;书中使用不同的汉字4462个,使用最多的是,达21176次;全书有1623个不同的四字格成语,用得最多的是;书中采用了二十四种修辞手法,用得最多的是“比喻”,共408条。“了”“不在话下”统计分析与红学进展8研究人员将中国艺术研究院《红楼梦》研究所校注、人民文学1987年,复旦大学数学系副教授李贤平的工作引人注目。他在美国威斯康星大学的计算机前工作了数百小时,绘制了三百多张图纸,运用计算机技术中的模式识别法和统计学家使用的探索性数据分析法,对《红楼梦》进行统计分析、风格分析。他翻阅了大量的红学研究论文和资料,利用过去红学家发掘的资料进行考证。统计分析与红学进展91987年,复旦大学数学系副教授李贤平的工作引人注目把《红楼梦》一百二十回本作为一个整体,以47个虚字为识别特征,对它们在书中各回的出现频率进行统计分析,输入计算机后将使用频率绘成图纸,根据图纸反映出的表明不同创作风格的星云状和阶梯状图形,提出了又一次震惊红学界的《红楼梦》成书过程新观点,证明了《红楼梦》各回写作风格具有不同的类别,各部分实际上是由不同作者在不同时期里完成的。统计分析与红学进展10把《红楼梦》一百二十回本作为一个整体,以47个虚字为李贤平认为:“《红楼梦》前八十回是曹雪芹据《石头记》增删而成,其中插入他早年著的《金瓶梅》式小说《风月宝鉴》,并增写了具有深刻内涵的许多内容。《红楼梦》后四十回是曹家亲友在曹雪芹全书尚未完成就突然去世之后,搜集整理原稿并加工补写而成。程伟元将全稿以活字版印刷刊行。高鹗校勘异文补遗订讹”。统计分析与红学进展11李贤平认为:“《红楼梦》前八十回是曹雪芹据《石头记》DeweyG.统计了约438023个英语单词中各字母出现的频率,发现各字母出现的频率不同:A:0.0788B:0.0156C:0.0268D:0.0389E:0.1268F:0.0256G:0.0187H:0.0573I:0.0707J:0.0010K:0.0060L:0.0394M:0.0244N:0.0706O:0.0776P:0.0186Q:0.0009R:0.0594S:0.0634T:0.0987U:0.0280V:0.0102W:0.0214X:0.0016Y:0.0202Z:0.0006

统计分析与键盘设计12DeweyG.统计了约438023个英语单词中各字母出现§2.1统计数据的收集数据来源:按照统计研究的任务,运用科学的统计调查方法,有计划、有组织地向客观实际搜集资料的过程:在实验中控制实验对象而收集到的数据,称为实验数据收集数据的要求:准确、及时拟定统计调查方案:确定统计调查的目的、调查的对象、调查的项目等内容13§2.1统计数据的收集数据来源:按照统计研究的任务,运用天津广播听众调查问卷目的:了解我市听众收听天津人民广播电台节目的一些基本情况,为提高节目质量、推出优秀节目提供科学依据。对象和单位:天津市市民调查项目和调查表:

调查项目:听众收听天津人民广播电台节目的一些基本情况调查表:调查项目以表格的形式来表现。调查什么14天津广播听众调查问卷目的:了解我市听众收听天津人民广播电2.1.1统计调查方案的确定

1.确定调查目的

2.确定调查对象和调查单位

3.设计调查项目和调查表

4.方案设计中的其他内容调查方式/调查时间调查的组织与实施2.1.2常用的统计调查方法1.普查:是专门组织的一般用来调查属于一定时点上社会经济现象数量的全面调查。优点:全面、系统缺点:只限于有限总体、工作量大、时间性强152.1.1统计调查方案的确定调查方式/调查时间2.1.24.抽样调查:是从调查对象中随机抽取一部分单位作为样本进行调查的一种非全面调查

优点:经济灵活、时效性强、适应面广和准确性高3.典型调查:在对研究对象进行全面分析的基础上,有意识地选择部分有代表性单位进行调查优点:调查范围小、省时省力、具体深入缺点:具有主观性2.重点调查:只在对象中选择一部分重点单位进行调查以了解总体情况的一种非全面调查优点:省时、省力、不带主观性。比重较大人为选择的典型单位随机原则:调查单位以等可能被抽到,保证代表性最大抽样效果原则:误差尽量小or调查费用尽可能小。164.抽样调查:是从调查对象中随机抽取一部分单位作为3.典型调5.统计报表是按照国家有关法规的规定,自上而下地逐级提供统计数据的一种调查方式。特点:是由政府部门组织、采用统一的表格、自上而下布置、自下而上报告。统计报表是经常性的全面调查。种类:(1)调查范围:全面报表、非全面报表全面报表:要求调查对象每一个单位都填报。非全面报表:要求调查对象中的部分单位填报。(2)内容和实施范围:国家/部门/地方统计报表(3)报送周期长短:日报、旬报、月报、季报、半年报、年报(4)报送单位不同:基层统计报表、综合统计报表。175.统计报表是按照国家有关法规的规定,自上而下地17补充知识:抽样调查的组织方式:简单随机抽样(纯随机抽样)类型抽样(分层抽样)等距抽样(机械抽样)整群抽样18补充知识:抽样调查的组织方式:18抽样调查的组织方式:简单随机抽样(纯随机抽样)方法:将总体单位编成抽样框,而后用抽签或随机数表直接抽取样本单位。适用:总体规模不大;总体内部差异小类型抽样(分层抽样)方法:将总体全部单位分类,形成若干个类型组,后从各类型中分别抽取样本单位,合成样本。总体N样本n等额分配等比例分配最优分配······19抽样调查的组织方式:简单随机抽样(纯随机抽样)方法:将总体单等距抽样(机械抽样)方法:将总体单位按某一标志排序,而后按一定的间隔抽取样本单位。排序依据的标志:(1)无关标志;(2)有关标志(总体单位按某一标志排序)············整群抽样方法:将总体全部单位分为许多个““群”,然后随机抽取若干““群”,对被抽中的各““群”内的所有单位登记调查。例:抽样调查的组织方式:20等距抽样(机械抽样)方法:将总体单位按某一标志排序,而后按一总体群数R=16样本群数r=4样本容量例:ABCDEFGHIJKLMNOPLHPD抽样调查的组织方式:21总体群数R=16样本群数r=42.1.3调查问卷设计与问卷调查表的编码

调查问卷设计1.问卷的基本结构

问卷是调查者根据调查目的和要求所设计的,一般由开头部分、甄别部分、主体部分和背景部分组成。主体部分是调查问卷的核心内容,它包括了所要调查的全部问题。222.1.3调查问卷设计与问卷调查表的编码开头部分

开头部分也是问候语,说明调查的目的,消除被调查者的顾虑,争取合作。甄别部分

甄别部分是为了符合调查的需要,而对被调查者进行筛选。23开头部分开头部分也是问候语,说明调查的目的,消除甄别

背景部分主要是有关被调查者的一些背景资料。背景部分主体部分

主体部分是调查问卷的核心内容,包括了所要调查的全部问题。24背景部分主要是有关被调查者的一些背景资料。背景部分主体部分2.设立问卷问题的注意事项(1)提问的内容尽可能短。(2)问题设计的用词要准确,用语要含义明确。例:×您通常喜爱选购什么样的鞋?

√您外出旅游时,会选购什么牌号的旅游鞋?例:×您对它的价格和服务质量满意还是不满意?

√您对它的价格是否满意?

√您对它的服务质量是否满意?例:您最常用的获取新闻的方式是什么?(只适合单选)例:×最近您是否浏览过网站?

√今天您是否浏览过网站?

252.设立问卷问题的注意事项(1)提问的内容尽可能短。(2)(3)在问卷中的问题,必须是能够获得诚实回答的问题。例:你对本课程的任课教师是否满意?(实名调查)(4)问题的不同提法,可能导致不同的回答结果。例:1941年罗格(Rugg)进行的试验:

A:您是否认为美国应该禁止反对民主的公开言论?

B:您是否认为美国应该允许反对民主的公开议论?调查结果:A54%“是”B75%“否”

26(3)在问卷中的问题,必须是能够获得诚实回答的问题。26(5)尽量避免诱导性、否定性和敏感性问题。例:购买盗版制品是不道德的,你是否购买过盗版制品。您并不认为应该增加反污染法规吧?您的个人收入是多少?

3.设立问卷答案的注意事项

(1)对单选问题,备选答案应当是一个空间的完整划分。

A:您对食堂的伙食满意么?

(a)非常满意(b)满意(c)不满意

(2)对单选,备选答案不应当是两个空间(层面)的混淆。

A:您至今未买电脑的原因是什么?(单选不可以,多选可以)

(a)买不起(b)没有用(c)不懂(d)其它

27(5)尽量避免诱导性、否定性和敏感性问题。27(3)无论多/单选题,任一个备选答案都不能有多重含义。A.您选择信息专业的目的是:(a)自己喜欢,好就业(b)……(4)无论多/单选题,备选答案之间不能有包含关系。A.您上大学的目的是:(a)将来有一份收入高的工作(b)能够过上比较富裕的生活(c)……

28(3)无论多/单选题,任一个备选答案都不能有多重含义。284.问卷设计的基本原则主题鲜明目的明确,重点突出,没有可有可无的问题。2)结构合理先封闭后开放,先易后难。封闭性问题:事先设计好答案开放性问题:自由回答例如,您对学校的教学管理有何更具体的看法?3)适当控制回答时间(尽量不超过30分钟)4)便于计算机处理易于编码、录入、汇总和数据出表294.问卷设计的基本原则29

问卷调查表的编码1.单选题问卷调查表的编码(1)题号代号不能重复。(2)同一量表的题号最好有相同的识别码。(3)名义或类别问题的代号最好与其意义内涵有关,以3~6个英文字母简写代表最好。例:年龄为AGE,年级为YEAR,工作类别为JOB等,学生性别为SEX,教育程度为EDU等。2.复选题问卷调查表的编码。30问卷调查表的编码30表2-1问卷调查表您的性别:1男生2女生您的职务:1主任2组长3教师一.您认为目前教改阻力来自哪些单位?(可复选)1教育行政单位2学校行政人员3家长团体4教师本身5其他团体二.您认为目前教改对哪些人会有影响?(可复选)1教师2行政人员3学生4其他A1A11A15A14A13A12A2A21A24A23A2231表2-1问卷调查表您的性别:1男生表2-2变量编码表NUMSEXJOBA11A12A13A14A15A21A22A23A240011110110110100212001111000编码表说明:NUM-编码SEX-性别jOB-职务A11~A15代表第一题中5个选项,选中者输入1,未选中者输入0。A21~A24代表第二题中4个选项,选中者输入1,未选中者输入0。32表2-2变量编码表NUMSEXJOBA11A12A13A补充知识:问卷调查常用量表李克特量表(LikertScakes)

史德培尺度(StapelScale)测量质量信度(Reliability)效度(Validity)33补充知识:问卷调查常用量表33

李克特量表一般为五点量表,视为定距量表用数值是用来代表受试者对陈述句的赞成和不赞成程度有多强烈题项一般用来测量某个概念或变量,将受试者对题项的分数进行加总后,并依据总分多少将其排序编号问句绝对不赞同不赞同既不赞同也不反对赞同绝对赞同CSI2.1产品价格越高,质量越好12345CSI2.5国际知名品牌的质量是最好的12345CSI3.1我尽可能地缩短逛街的时间12345CSI3.4逛街是我生活中一件愉快的事情1234534李克特量表一般为五点量表,视为定距量表编号问句绝对不不赞Stapel量表同时测量受试者对研究主题的态度的方向与强度,特色在于设置了中心点以及数值量表的范围。+3至——3提供了一个用来检测距离的方式,即表现受试者的答案与测量因素有多远或多近,没有绝对的零点,属于定距量表例:对于A餐馆,给出了一系列描述性短语,如果您认为该短语对这家餐馆的描述越精确,您应该选择带“+”号的数字;如果您认为该短语对这家餐馆的描述越不精确,您应该选择带“-”号的数字,+5表示非常精确,-5表示非常不精确。+5+4+3+2+1菜肴可口的-1-2-3-4-5+5+4+3+2+1热情的-1-2-3-4-535Stapel量表同时测量受试者对研究主题的态度的方向与强度,测量的质量项目间一致性信度折半信度再测效度复本效度预测效度同期效度聚合效度辨别效度36测量的质量项目间一致性信度折半信度再测效度复本效度预测效度同

信度(Reliability)信度即可靠性,指测量结果的稳定性或内部一致性。在不同时间点和以量表内不同题项去测量的结果应该是一致的37信度(Reliability)信度即可靠性,指测量结果的稳

效度效度也称作测量的有效度或准确度指测量工具或测量手段能够准确测出所测变量的程度,或者说能够准确、真实地度量事物属性的程度弗兰士(J.W.French)和米希尔(B.Michel)提出的分类方法:将效度分为内容效度、构念效度和效标关联效度38效度效度也称作测量的有效度或准确度382.1.4统计数据的误差统计数据的误差:指统计数据与客观现实之间的差距。研究误差的目的:找出导致误差产生的原因,进而采取对策避免、减少误差或控制误差水平。误差的主要来源:登记性误差和代表性误差。

392.1.4统计数据的误差统计数据的误差:指统计数据与客观1.登记性误差(非抽样误差)登记性误差:人为因素所造成的误差。调查者规定或解释不明确导致的填报错误;调查员粗心,记录出现错误;调查员的态度、情绪以及责任心等。被调查者不理解规定或解释不明确导致的填报错误;有意虚报或瞒报调查数据等。注:登记性误差理论上讲是可以消除的。

401.登记性误差(非抽样误差)402.代表性误差(抽样误差)代表性误差:用样本数据推断总体时所产生的误差。影响误差的主要因素样本容量的大小:样本容量越大,代表性误差就越小总体的离散程度的高低:总体中各个体间的差异越大,抽样误差也就越大注:代表性误差通常无法消除,但事先可以进行控制和计算。412.代表性误差(抽样误差)412.2统计数据的整理

整理数据的中心任务:分组/编制频数分布表。2.2.1统计数据分组统计数据分组:就是根据统计研究的需要,将统计数据按照一定的标志划分为若干组成部分的一种统计方法。422.2统计数据的整理42分组的标志:1.按品质标志分组品质型数据:主要是做分类整理。例如:按所有制性质划分,我国的经济类型可分为国有经济,集体经济,私营经济,个体经济,联营经济,股份制经济,外商投资经济,港、澳、台投资经济8组。43分组的标志:1.按品质标志分组43例如.你是否认为你的任课教师在本门课程方面学识渊博。为学生提供了以下几个选择:1=非常赞同2=赞同

3=不赞同4=非常不赞同从九个学生处得到如下数据:3,2,2,4,2,1,3,1,4对数据进行分组得到:1,12,2,23,34,444例如.你是否认为你的任课教师在本门课程方面学识渊博。对数据2.按数量标志分组数值型数据:主要是按照数值进行分组。例:对学生成绩分组,可分为60分以下、60~70分、

70~80分、80~90分、90分以上5个组。按数量标志分组的方法:单项式分组组距式分组单项式分组:把每一个变量值作为一组。适用条件:通常只适于离散变量且变量值较少的情况452.按数量标志分组按数量标志分组的方法:单项式分组组距式例2.1某车间50个工人看管机床台数资料如下:36243264324252623543236542432235456226432634545235试对数据进行分组。解:由于机器台数属于离散型变量,因此使用单项式分组方法。将原始资料按变量值升序排列,然后将相同变量值分为一组,最后将资料分成若干组。22222222222223333333333444444444555555566666646例2.1某车间50个工人看管机床台数资料如下:462)组距式分组组距式分组:将全部变量值依次划分为若干区间,并将这一区间的变量值作为一组。适用条件:连续变量/离散变量且变量值较多组距:

等距分组:适用于变量值的变动比较均匀

不等距分组:适用于变动很不均匀,且变动幅度大例:对学生成绩的分组可以分为0~20分、20~40分、

40~60分、60~80分、80~100组例:学生成绩分组也可分为0~60(D)、60~80(C)

80~90(B)、90~100(A)关键问题:分组数目的确定/组距的确定等距分组不等距分组472)组距式分组等距分组不等距分组47等距分组的基本步骤:数据排序分组数目的确定使每组所包含的数据个数,平均不少于4个或5个,或采用斯特吉斯经验公式,即

k=1+3.322lgNk为组数;N为总体中的个体数。表2-3分组组数参考表N15~2425~4445~8990~179180~359k5678948等距分组的基本步骤:表2-3分组组数参考表N15~242组距的确定组距=(最大值-最小值)÷组数。组限的确定(1)第一组的下限应略低于最小变量值,最后一组的上限应高于最大变量值。(2)对于离散型变量,相邻组的上下限可以不重叠;如:2-4,5-6,7-8对于连续型变量,相邻两组的上下限应重叠,用“上限不在内”原则解决不重问题(左闭右开)如:[2,4)[4,6)[6,8)(3)开口组:当变量值变动范围较大时,最小组为“……以下”,或最大组为“……以上”。如:2以下,[2,4),[4,6),[6,8),8以上49组距的确定49组中值的确定组中值=(上限+下限)÷2开口组的组中值=下限+邻组组距/2(缺上限)=上限-邻组组距/2(缺下限)50组中值的确定502.2.2频数分布频数(frequency)=分布在各组内的数据个数.频率(percentage)=各组频数/全部频数之和频数分布:在统计分组的基础上,将总体中所有的个体按某一标志进行归类排序

频数分布表频数分布表:将频数分布用表格的形式表现出来频数分布品质频数分布:按品质标志分组变量频数分布:按数量标志分组1.品质频数分布512.2.2频数分布51表1

职工性别的频数分布表按性别分组频数/人数频率/%男女48504951合计981002.变量频数分布单项式频数分布:每一组只有一个值组距式频数分布:按组距式分组1)单项式频数分布52表1职工性别的频数分布表按性别分组频数/人数频率/%男4表2宿舍所住学生数的频数分布表宿舍所住学生数/人频数/户频率/%45678203560122513.1623.0339.477.8916.45合计15210053表2宿舍所住学生数的频数分布表宿舍所住学生数/人频数/户频2)组距式频数分布步骤:a、分组

b、统计出每组变量的频数,频率

c、按各组组限的大小顺序列出组距式变量数列

d、给出频数分布表表3

某品牌汽车的销售量的频数分布表按销售量分组/辆频数/天频率/%2~1010~2020~30941987325.854.220合计365100542)组距式频数分布表3某品牌汽车的销售量的频数分布表按

累计频数和累计频率1.累计频数(cumulativefrequencies)频数逐级累加2.累计频率或百分比(cumulativepercentages)频率逐级累加累计频数(率)方法:例:某单位按某种产品的销售量分组统计,可以得到如表4所示的频数分布。55累计频数和累计频率例:某单位按某种产品的销表4

某种产品的销售量的频数分布表频数分布向上累计向下累计按销售量分组/台频数/天数频率/%累计频数累计频率累计频数累计频率140~150150~160160~170170~180180~190190~200200~210210~220220~230230~2404916272017108453.337.5013.3322.5016.6714.178.336.673.334.17413295676931031111151203.3310.8324.1646.6663.3377.5085.8392.5095.8310012011610791644427179510096.6789.1775.8453.3436.6722.5014.177.504.17合计120————56表4某种产品的销售量的频数分布表频数分布向上累计向下累计140150160170销量台数10203040向上累计57140150160170销量台数10203040向上累计57140150160170销量台数10203040120向下累计58140150160170销量台数10203040120向下累2.2.3统计表与统计图

统计表1.统计表将数据资料经汇总整理后,按一定顺序填在以纵横交叉的线条所绘制的表格内。统计表的结构由表头、行标题、列标题、数字资料组成。

2.统计表的设计(1)表头设计要明确地表达其内容。(2)左右两边通常不封口,列标题之间通常用竖线分开,而行标题之间通常不用横线分开。(3)应注明数字资料的计量单位。(4)数字应对准位数。592.2.3统计表与统计图593.统计表的分类

1)简单分组下的统计表简单分组:只按一个标志进行的分组。

表51982~1990年北京市人口

(单位:万人)年份总人口198219831984198519861987917.83933.20945.20957.90971.23987.97资料来源:《80年代中国人口变动分析(中国人口续篇)》603.统计表的分类表51982~1990年北京市人口(2)复合分组下的统计表复合分组:采用两个或两个以上的标志进行分组。表6

东北三省1993~1996年国内生产总值

(单位:亿元)资料来源:《中国统计年鉴(1997)》

年份地区1993199419951996辽宁吉林黑龙江2010.82717.951203.222461.78936.781618.632793.371129.202014.533157.691337.162402.58612)复合分组下的统计表表6东北三省1993~1996年

统计图统计图:利用各种几何图形表现统计资料的形式。1)条形图(barchart)条形图:用宽度相同的条形的高度或长短来表示数据频数分布变化的图形。适用条件:用于比较、分析同类指标在不同时间或地区的发展差异,多用于顺序和分类变量的分析。2)饼形图(piechart)饼形图:用圆形及圆内扇形的面积来表示频数分布变化的图形。适用条件:用于研究事物内在结构组成等问题。62统计图2)饼形图(piechart)6例:学生评教调查中第十题的频率分布表(条形图)63例:学生评教调查中第十题的频率分布表(条形图)63例:学生评教调查中第十题的频率分布表(饼形图)64例:学生评教调查中第十题的频率分布表(饼形图)643)直方图(Histogramschart)直方图:用矩形的面积来表示频数分布变化的图形。横轴表示各组组限,纵轴表示频数或频率。适用条件:适用于定距形变量的分析。注:可以在直方图上附加正态分布曲线与正态分布相比较。4)线形图(linechart)线形图:用线条的波动来反映数据变换的一种统计图形。适用条件:描述现象在时间上的变化趋势、现象的分配情况和现象间的依存关系。653)直方图(Histogramschart)4)线形图6666例:1982-1990年间北京市人口变动的线形图67例:1982-1990年间北京市人口变动的线形图67第2题您的年龄是?[单选题]选项小计比例18岁以下35821.3%18—2576045.21%25—3531718.86%35—5020212.02%50岁以上442.62%本题有效填写人次168168第2题您的年龄是?[单选题]选项小计比例18岁以下条形图69条形图69柱状图70柱状图70饼状图71饼状图71折线图72折线图72§2.1统计数据的收集

2.1.1统计调查方案的确定

2.1.2常用的统计调查方法

2.1.3调查问卷设计与问卷调查表的编码

2.1.4统计数据的误差§2.2统计数据的整理

2.2.1统计数据分组

2.2.2频数分布

2.2.3统计表与统计图小结本章73§2.1统计数据的收集小结本章73作业依据自己的兴趣,设计一份调查问卷在问卷星网站/?s=1发布自己的问卷,并设法收集不少于50个的样本数据(可复制问卷链接到班级群里,大家互填问卷)。上交问卷电子版(标明问卷链接)和收集的EXCEL版本的数据集。数据留存,上实验课时使用。74作业依据自己的兴趣,设计一份调查问卷74课外阅读盖洛普调查问卷盖洛普调查报告75课外阅读盖洛普调查问卷75汇报结束谢谢大家!请各位批评指正汇报结束谢谢大家!请各位批评指正76统计数据的收集整理与显示统计数据的收集整理与显示统计数据的收集整理与显示引导案例宋词密码惨遭破解,三步你就能写一首诗!“yixuan”在个人博客里写道:“突然想看看宋词里面什么样的意象是最常见的,比如可以做个频率分析什么的。当然文本挖掘需要分词,我没法在其中花太多时间,于是想出了一个土办法。宋词的句子都很短,如果穷举可能的字的组合的话并不是太多,况且最常见的词语一般是两三个字,这样可能的组合就更少了。”2统计数据的收集整理与显示统计数据的收集整理与显示统计数据的收77引导案例

宋词密码惨遭破解,三步你就能写一首诗!“yixuan”在个人博客里写道:“突然想看看宋词里面什么样的意象是最常见的,比如可以做个频率分析什么的。当然文本挖掘需要分词,我没法在其中花太多时间,于是想出了一个土办法。宋词的句子都很短,如果穷举可能的字的组合的话并不是太多,况且最常见的词语一般是两三个字,这样可能的组合就更少了。”78引导案例宋词密码惨遭破解,三步你就能写一首诗!2引导案例

宋词密码惨遭破解,三步你就能写一首诗!比如“犹解嫁东风”这句话,可能的二字组合是“犹解”“解嫁”“嫁东”“东风”,三字组合是“犹解嫁”“解嫁东”“嫁东风”,词的字数越多,可能的组合就越少。如果把每句话可能的字的组合都列举出来,就可以整体统计高频词频率了,排在前面的分别是:1.无效数字(14852)2.东风(1382)3.何处(1230)4.人间(1202)5.风流(857)6.归去(812)7.春风(802)8.西风(779)9.归来(771)10.江南(765)至于为什么第一名是数字,他解释:“排在第一的是无效字符,这跟数据源有关。”79引导案例宋词密码惨遭破解,三步你就能写一首诗!3宋词密码

1空21一笑41深处61一片81不是

2东风22黄昏42时节62桃李82时候

3何处23当年43平生63人生83肠断

4人间24天涯44凄凉64十分84富贵

5风流25相逢45春色65心事85蓬莱

6归去26芳草46匆匆66黄花86昨夜

7春风27尊前47功名67一声87行人

8西风28一枝48一点68佳人88今夜

9归来29风雨49无限69长安89谁知

10江南30流水50今日70东君90不似80宋词密码4

10江南30流水50今日70东君90不似11相思31依旧51天上71断肠91江上12梅花32风吹52杨柳72而今92悠悠13千里33风月53西湖73鸳鸯93几度14回首34多情54桃花74为谁94青山15明月35故人55扁舟75十年95何时16多少36当时56消息76去年96天气17如今37无人57憔悴77少年97惟有18阑干38斜阳58何事78海棠98一曲19年年39不知59芙蓉79寂寞99月明20万里40不见60神仙80无情100往事宋词密码8110江南30流水50今日70东君

(1415)回首明月,(一看就是抒情诗)(9265)悠悠心事空,(果然,貌似失恋了)(358979)故人谁知寂寞。(触景生情)(323846)风吹斜阳匆匆,(回忆那天下午的艳遇)(264338)芳草平生斜阳,(平生见过最美的太阳和芳草,都是因为那里有你的身影)(327950)风吹寂寞今日。(到现在就剩我自己)(288419)一枝富贵年年,(好花美丽年年开,好景宜人不常在)(716939)断肠长安不知。(我的思念远方的你可知道)

《清平乐·圆周率》π=3.1415926……82(1415)回首明月,(一看就是抒情诗)《清平乐《如梦令·根号二》=1.41421356……(414213)深处时节千里,(562373)消息当年鸳鸯。(0950)归来今日,(488016)一点无情多少。(8888)今夜,今夜(724209)而今时节归来。83《如梦令·根号二》=1.41421356……7

研究人员将中国艺术研究院《红楼梦》研究所校注、人民文学出版社1982年出版的《红楼梦》作为基础原文全文输入计算机。人们利用这个检索系统第一次得到了《红楼梦》中一系列重要的统计数据。如《红楼梦》全书的精确字数是731017个;书中使用不同的汉字4462个,使用最多的是,达21176次;全书有1623个不同的四字格成语,用得最多的是;书中采用了二十四种修辞手法,用得最多的是“比喻”,共408条。“了”“不在话下”统计分析与红学进展84研究人员将中国艺术研究院《红楼梦》研究所校注、人民文学1987年,复旦大学数学系副教授李贤平的工作引人注目。他在美国威斯康星大学的计算机前工作了数百小时,绘制了三百多张图纸,运用计算机技术中的模式识别法和统计学家使用的探索性数据分析法,对《红楼梦》进行统计分析、风格分析。他翻阅了大量的红学研究论文和资料,利用过去红学家发掘的资料进行考证。统计分析与红学进展851987年,复旦大学数学系副教授李贤平的工作引人注目把《红楼梦》一百二十回本作为一个整体,以47个虚字为识别特征,对它们在书中各回的出现频率进行统计分析,输入计算机后将使用频率绘成图纸,根据图纸反映出的表明不同创作风格的星云状和阶梯状图形,提出了又一次震惊红学界的《红楼梦》成书过程新观点,证明了《红楼梦》各回写作风格具有不同的类别,各部分实际上是由不同作者在不同时期里完成的。统计分析与红学进展86把《红楼梦》一百二十回本作为一个整体,以47个虚字为李贤平认为:“《红楼梦》前八十回是曹雪芹据《石头记》增删而成,其中插入他早年著的《金瓶梅》式小说《风月宝鉴》,并增写了具有深刻内涵的许多内容。《红楼梦》后四十回是曹家亲友在曹雪芹全书尚未完成就突然去世之后,搜集整理原稿并加工补写而成。程伟元将全稿以活字版印刷刊行。高鹗校勘异文补遗订讹”。统计分析与红学进展87李贤平认为:“《红楼梦》前八十回是曹雪芹据《石头记》DeweyG.统计了约438023个英语单词中各字母出现的频率,发现各字母出现的频率不同:A:0.0788B:0.0156C:0.0268D:0.0389E:0.1268F:0.0256G:0.0187H:0.0573I:0.0707J:0.0010K:0.0060L:0.0394M:0.0244N:0.0706O:0.0776P:0.0186Q:0.0009R:0.0594S:0.0634T:0.0987U:0.0280V:0.0102W:0.0214X:0.0016Y:0.0202Z:0.0006

统计分析与键盘设计88DeweyG.统计了约438023个英语单词中各字母出现§2.1统计数据的收集数据来源:按照统计研究的任务,运用科学的统计调查方法,有计划、有组织地向客观实际搜集资料的过程:在实验中控制实验对象而收集到的数据,称为实验数据收集数据的要求:准确、及时拟定统计调查方案:确定统计调查的目的、调查的对象、调查的项目等内容89§2.1统计数据的收集数据来源:按照统计研究的任务,运用天津广播听众调查问卷目的:了解我市听众收听天津人民广播电台节目的一些基本情况,为提高节目质量、推出优秀节目提供科学依据。对象和单位:天津市市民调查项目和调查表:

调查项目:听众收听天津人民广播电台节目的一些基本情况调查表:调查项目以表格的形式来表现。调查什么90天津广播听众调查问卷目的:了解我市听众收听天津人民广播电2.1.1统计调查方案的确定

1.确定调查目的

2.确定调查对象和调查单位

3.设计调查项目和调查表

4.方案设计中的其他内容调查方式/调查时间调查的组织与实施2.1.2常用的统计调查方法1.普查:是专门组织的一般用来调查属于一定时点上社会经济现象数量的全面调查。优点:全面、系统缺点:只限于有限总体、工作量大、时间性强912.1.1统计调查方案的确定调查方式/调查时间2.1.24.抽样调查:是从调查对象中随机抽取一部分单位作为样本进行调查的一种非全面调查

优点:经济灵活、时效性强、适应面广和准确性高3.典型调查:在对研究对象进行全面分析的基础上,有意识地选择部分有代表性单位进行调查优点:调查范围小、省时省力、具体深入缺点:具有主观性2.重点调查:只在对象中选择一部分重点单位进行调查以了解总体情况的一种非全面调查优点:省时、省力、不带主观性。比重较大人为选择的典型单位随机原则:调查单位以等可能被抽到,保证代表性最大抽样效果原则:误差尽量小or调查费用尽可能小。924.抽样调查:是从调查对象中随机抽取一部分单位作为3.典型调5.统计报表是按照国家有关法规的规定,自上而下地逐级提供统计数据的一种调查方式。特点:是由政府部门组织、采用统一的表格、自上而下布置、自下而上报告。统计报表是经常性的全面调查。种类:(1)调查范围:全面报表、非全面报表全面报表:要求调查对象每一个单位都填报。非全面报表:要求调查对象中的部分单位填报。(2)内容和实施范围:国家/部门/地方统计报表(3)报送周期长短:日报、旬报、月报、季报、半年报、年报(4)报送单位不同:基层统计报表、综合统计报表。935.统计报表是按照国家有关法规的规定,自上而下地17补充知识:抽样调查的组织方式:简单随机抽样(纯随机抽样)类型抽样(分层抽样)等距抽样(机械抽样)整群抽样94补充知识:抽样调查的组织方式:18抽样调查的组织方式:简单随机抽样(纯随机抽样)方法:将总体单位编成抽样框,而后用抽签或随机数表直接抽取样本单位。适用:总体规模不大;总体内部差异小类型抽样(分层抽样)方法:将总体全部单位分类,形成若干个类型组,后从各类型中分别抽取样本单位,合成样本。总体N样本n等额分配等比例分配最优分配······95抽样调查的组织方式:简单随机抽样(纯随机抽样)方法:将总体单等距抽样(机械抽样)方法:将总体单位按某一标志排序,而后按一定的间隔抽取样本单位。排序依据的标志:(1)无关标志;(2)有关标志(总体单位按某一标志排序)············整群抽样方法:将总体全部单位分为许多个““群”,然后随机抽取若干““群”,对被抽中的各““群”内的所有单位登记调查。例:抽样调查的组织方式:96等距抽样(机械抽样)方法:将总体单位按某一标志排序,而后按一总体群数R=16样本群数r=4样本容量例:ABCDEFGHIJKLMNOPLHPD抽样调查的组织方式:97总体群数R=16样本群数r=42.1.3调查问卷设计与问卷调查表的编码

调查问卷设计1.问卷的基本结构

问卷是调查者根据调查目的和要求所设计的,一般由开头部分、甄别部分、主体部分和背景部分组成。主体部分是调查问卷的核心内容,它包括了所要调查的全部问题。982.1.3调查问卷设计与问卷调查表的编码开头部分

开头部分也是问候语,说明调查的目的,消除被调查者的顾虑,争取合作。甄别部分

甄别部分是为了符合调查的需要,而对被调查者进行筛选。99开头部分开头部分也是问候语,说明调查的目的,消除甄别

背景部分主要是有关被调查者的一些背景资料。背景部分主体部分

主体部分是调查问卷的核心内容,包括了所要调查的全部问题。100背景部分主要是有关被调查者的一些背景资料。背景部分主体部分2.设立问卷问题的注意事项(1)提问的内容尽可能短。(2)问题设计的用词要准确,用语要含义明确。例:×您通常喜爱选购什么样的鞋?

√您外出旅游时,会选购什么牌号的旅游鞋?例:×您对它的价格和服务质量满意还是不满意?

√您对它的价格是否满意?

√您对它的服务质量是否满意?例:您最常用的获取新闻的方式是什么?(只适合单选)例:×最近您是否浏览过网站?

√今天您是否浏览过网站?

1012.设立问卷问题的注意事项(1)提问的内容尽可能短。(2)(3)在问卷中的问题,必须是能够获得诚实回答的问题。例:你对本课程的任课教师是否满意?(实名调查)(4)问题的不同提法,可能导致不同的回答结果。例:1941年罗格(Rugg)进行的试验:

A:您是否认为美国应该禁止反对民主的公开言论?

B:您是否认为美国应该允许反对民主的公开议论?调查结果:A54%“是”B75%“否”

102(3)在问卷中的问题,必须是能够获得诚实回答的问题。26(5)尽量避免诱导性、否定性和敏感性问题。例:购买盗版制品是不道德的,你是否购买过盗版制品。您并不认为应该增加反污染法规吧?您的个人收入是多少?

3.设立问卷答案的注意事项

(1)对单选问题,备选答案应当是一个空间的完整划分。

A:您对食堂的伙食满意么?

(a)非常满意(b)满意(c)不满意

(2)对单选,备选答案不应当是两个空间(层面)的混淆。

A:您至今未买电脑的原因是什么?(单选不可以,多选可以)

(a)买不起(b)没有用(c)不懂(d)其它

103(5)尽量避免诱导性、否定性和敏感性问题。27(3)无论多/单选题,任一个备选答案都不能有多重含义。A.您选择信息专业的目的是:(a)自己喜欢,好就业(b)……(4)无论多/单选题,备选答案之间不能有包含关系。A.您上大学的目的是:(a)将来有一份收入高的工作(b)能够过上比较富裕的生活(c)……

104(3)无论多/单选题,任一个备选答案都不能有多重含义。284.问卷设计的基本原则主题鲜明目的明确,重点突出,没有可有可无的问题。2)结构合理先封闭后开放,先易后难。封闭性问题:事先设计好答案开放性问题:自由回答例如,您对学校的教学管理有何更具体的看法?3)适当控制回答时间(尽量不超过30分钟)4)便于计算机处理易于编码、录入、汇总和数据出表1054.问卷设计的基本原则29

问卷调查表的编码1.单选题问卷调查表的编码(1)题号代号不能重复。(2)同一量表的题号最好有相同的识别码。(3)名义或类别问题的代号最好与其意义内涵有关,以3~6个英文字母简写代表最好。例:年龄为AGE,年级为YEAR,工作类别为JOB等,学生性别为SEX,教育程度为EDU等。2.复选题问卷调查表的编码。106问卷调查表的编码30表2-1问卷调查表您的性别:1男生2女生您的职务:1主任2组长3教师一.您认为目前教改阻力来自哪些单位?(可复选)1教育行政单位2学校行政人员3家长团体4教师本身5其他团体二.您认为目前教改对哪些人会有影响?(可复选)1教师2行政人员3学生4其他A1A11A15A14A13A12A2A21A24A23A22107表2-1问卷调查表您的性别:1男生表2-2变量编码表NUMSEXJOBA11A12A13A14A15A21A22A23A240011110110110100212001111000编码表说明:NUM-编码SEX-性别jOB-职务A11~A15代表第一题中5个选项,选中者输入1,未选中者输入0。A21~A24代表第二题中4个选项,选中者输入1,未选中者输入0。108表2-2变量编码表NUMSEXJOBA11A12A13A补充知识:问卷调查常用量表李克特量表(LikertScakes)

史德培尺度(StapelScale)测量质量信度(Reliability)效度(Validity)109补充知识:问卷调查常用量表33

李克特量表一般为五点量表,视为定距量表用数值是用来代表受试者对陈述句的赞成和不赞成程度有多强烈题项一般用来测量某个概念或变量,将受试者对题项的分数进行加总后,并依据总分多少将其排序编号问句绝对不赞同不赞同既不赞同也不反对赞同绝对赞同CSI2.1产品价格越高,质量越好12345CSI2.5国际知名品牌的质量是最好的12345CSI3.1我尽可能地缩短逛街的时间12345CSI3.4逛街是我生活中一件愉快的事情12345110李克特量表一般为五点量表,视为定距量表编号问句绝对不不赞Stapel量表同时测量受试者对研究主题的态度的方向与强度,特色在于设置了中心点以及数值量表的范围。+3至——3提供了一个用来检测距离的方式,即表现受试者的答案与测量因素有多远或多近,没有绝对的零点,属于定距量表例:对于A餐馆,给出了一系列描述性短语,如果您认为该短语对这家餐馆的描述越精确,您应该选择带“+”号的数字;如果您认为该短语对这家餐馆的描述越不精确,您应该选择带“-”号的数字,+5表示非常精确,-5表示非常不精确。+5+4+3+2+1菜肴可口的-1-2-3-4-5+5+4+3+2+1热情的-1-2-3-4-5111Stapel量表同时测量受试者对研究主题的态度的方向与强度,测量的质量项目间一致性信度折半信度再测效度复本效度预测效度同期效度聚合效度辨别效度112测量的质量项目间一致性信度折半信度再测效度复本效度预测效度同

信度(Reliability)信度即可靠性,指测量结果的稳定性或内部一致性。在不同时间点和以量表内不同题项去测量的结果应该是一致的113信度(Reliability)信度即可靠性,指测量结果的稳

效度效度也称作测量的有效度或准确度指测量工具或测量手段能够准确测出所测变量的程度,或者说能够准确、真实地度量事物属性的程度弗兰士(J.W.French)和米希尔(B.Michel)提出的分类方法:将效度分为内容效度、构念效度和效标关联效度114效度效度也称作测量的有效度或准确度382.1.4统计数据的误差统计数据的误差:指统计数据与客观现实之间的差距。研究误差的目的:找出导致误差产生的原因,进而采取对策避免、减少误差或控制误差水平。误差的主要来源:登记性误差和代表性误差。

1152.1.4统计数据的误差统计数据的误差:指统计数据与客观1.登记性误差(非抽样误差)登记性误差:人为因素所造成的误差。调查者规定或解释不明确导致的填报错误;调查员粗心,记录出现错误;调查员的态度、情绪以及责任心等。被调查者不理解规定或解释不明确导致的填报错误;有意虚报或瞒报调查数据等。注:登记性误差理论上讲是可以消除的。

1161.登记性误差(非抽样误差)402.代表性误差(抽样误差)代表性误差:用样本数据推断总体时所产生的误差。影响误差的主要因素样本容量的大小:样本容量越大,代表性误差就越小总体的离散程度的高低:总体中各个体间的差异越大,抽样误差也就越大注:代表性误差通常无法消除,但事先可以进行控制和计算。1172.代表性误差(抽样误差)412.2统计数据的整理

整理数据的中心任务:分组/编制频数分布表。2.2.1统计数据分组统计数据分组:就是根据统计研究的需要,将统计数据按照一定的标志划分为若干组成部分的一种统计方法。1182.2统计数据的整理42分组的标志:1.按品质标志分组品质型数据:主要是做分类整理。例如:按所有制性质划分,我国的经济类型可分为国有经济,集体经济,私营经济,个体经济,联营经济,股份制经济,外商投资经济,港、澳、台投资经济8组。119分组的标志:1.按品质标志分组43例如.你是否认为你的任课教师在本门课程方面学识渊博。为学生提供了以下几个选择:1=非常赞同2=赞同

3=不赞同4=非常不赞同从九个学生处得到如下数据:3,2,2,4,2,1,3,1,4对数据进行分组得到:1,12,2,23,34,4120例如.你是否认为你的任课教师在本门课程方面学识渊博。对数据2.按数量标志分组数值型数据:主要是按照数值进行分组。例:对学生成绩分组,可分为60分以下、60~70分、

70~80分、80~90分、90分以上5个组。按数量标志分组的方法:单项式分组组距式分组单项式分组:把每一个变量值作为一组。适用条件:通常只适于离散变量且变量值较少的情况1212.按数量标志分组按数量标志分组的方法:单项式分组组距式例2.1某车间50个工人看管机床台数资料如下:36243264324252623543236542432235456226432634545235试对数据进行分组。解:由于机器台数属于离散型变量,因此使用单项式分组方法。将原始资料按变量值升序排列,然后将相同变量值分为一组,最后将资料分成若干组。222222222222233333333334444444445555555666666122例2.1某车间50个工人看管机床台数资料如下:462)组距式分组组距式分组:将全部变量值依次划分为若干区间,并将这一区间的变量值作为一组。适用条件:连续变量/离散变量且变量值较多组距:

等距分组:适用于变量值的变动比较均匀

不等距分组:适用于变动很不均匀,且变动幅度大例:对学生成绩的分组可以分为0~20分、20~40分、

40~60分、60~80分、80~100组例:学生成绩分组也可分为0~60(D)、60~80(C)

80~90(B)、90~100(A)关键问题:分组数目的确定/组距的确定等距分组不等距分组1232)组距式分组等距分组不等距分组47等距分组的基本步骤:数据排序分组数目的确定使每组所包含的数据个数,平均不少于4个或5个,或采用斯特吉斯经验公式,即

k=1+3.322lgNk为组数;N为总体中的个体数。表2-3分组组数参考表N15~2425~4445~8990~179180~359k56789124等距分组的基本步骤:表2-3分组组数参考表N15~242组距的确定组距=(最大值-最小值)÷组数。组限的确定(1)第一组的下限应略低于最小变量值,最后一组的上限应高于最大变量值。

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论