版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
Stata软件基本操作和数据分析入门
第二讲统计描述入门
赵耐青
一、调查某市1998年110名19岁男性青年的身高(cm)资料如下,计算均数、标准
差、中位数、百分位数和频数表。
173.1167.8173.9176.9173.8171.5175.1175.2176.7174.5
169.2174.7185.4175.8173.5175.9175.9173.2174.8177.2
171.9166.0177.3175.2179.8175.7180.8171.4178.9172.6
166.9170.8168.7175.0183.7171.6172.9173.6177.7172.4
181.2178.1173.3177.5173.0174.3174.5172.5171.3174.0
177.9170.7175.2178.5177.6183.3173.1170.9180.5176.8
179.6180.6176.6174.3168.7175.2179.5172.5173.0174.2
169.5177.0183.6170.3178.8181.1182.9177.8164.1169.1
176.3169.4171.1172.9177.0179.8178.2174.4169.2176.4
178.3165.0175.8181.0177.6177.4178.7175.1181.8171.3
174.8181.7177.3178.5179.3177.0175.8181.8177.5180.2
Stata数据结构
x
1173.1
2169.2
3171.9
4166.9
5181.2
6177.9
7179.6
8169.5
9176.3
10178.3
11174.8
12167.8
13174.7
14166
15170.8
16178.1
17170.7
18180.6
19177
20169.4
21165
22181.7
23173.9
24185.4
25177.3
26168.7
27173.3
28175.2
29176.6
30183.6
31171.1
32175.8
33177.3
34176.9
35175.8
36175.2
37175
38177.5
39178.5
40174.3
41170.3
42172.9
43181
44178.5
45173.8
46173.5
47179.8
48183.7
49173
50177.6
51168.7
52178.8
53177
54177.6
55179.3
56171.5
57175.9
58175.7
59171.6
60174.3
61183.3
62175.2
63181.1
64179.8
65177.4
66177
67175.1
68175.9
69180.8
70172.9
71174.5
72173.1
73179.5
74182.9
75178.2
76178.7
77175.8
78175.2
79173.2
80171.4
81173.6
82172.5
83170.9
84172.5
85177.8
86174.4
87175.1
88181.8
89176.7
90174.8
91178.9
92177.7
93171.3
94180.5
95173
96164.1
97169.2
98181.8
99177.5
100174.5
101177.2
102172.6
103172.4
104174
105176.8
106174.2
107169.1
108176.4
109171.3
110180.2
(读者可以把数据直接粘贴到Stata的Edit窗口)
在介绍统计分析命令之前,先介绍打开一个保存统计分析结果的文件操作:
»fstfindowHelp
点击log图标,然后选择路径和输入保存结果的文件
名,建议选择扩展名为log的文件,这样以后统计分
析结果都将保存在这个文件中并且可以用word打开
和编辑。当分析结束时,仍点击该图标,关闭文件。
计算样本的均数、标准差、最大值和最小值
命令1:SU变量名(可以多个变量:即:SU变量名1变量名2…变量名m)
命令2:su变量名,d(可以多个变量:即:su变量名1变量名2…变量名m,d)
本例命令suX
变量样本量均数标准差最小值最大值
VariableIObsMeanStd.Dev.MinMax
-1--
X|110175.36554.222297164.1185.4
本例命令.sux,d
X
PercentilesSmallest
1%165164.1
5%168.7165
10%169.45166Obs110
25%172.9166.9SumofWgt.110
50%175.2Mean175.3655
LargestStd.Dev.4.222297
75%178.1183.3
90%180.9183.6Variance17.82779
95%181.8183.7Skewness-1756947
99%183.7185.4Kurtosis2.895843
结果说明
Smallest最小值Obs110样本量
164.1第1最小值SumofWgt.110加权和(即每个记
165第2最小值录的权是1)
166第3最小值Mean175.3655均数
166.9第4最小值Std.Dev.4.222297标准差
Largest最大值Variance17.82779方差
183.3第4最大值Skewness1756947偏度系数
183.6第3最大值Kurtosis2.895843峰度系数
183.7第2最大值
185.4第1最大值
Percentiles百分位数
1%165=R
5%168.7=Ps
10%169.45=Pio百分位数Px表示样本中X%的数据小于等R并且
25%172.9=P25(100-X)%的数据大于等于Px°
特别:Ps。就是中位数,表示一半的数据小于等于它,
50%175.2=Pso另一半的数据大于等于它。本例:Pw=175.2
样本量obs=110,因此有55个数据小于等于175.2,
75%178.1=P?5另有55个数据大于等于175.2
90%180.9=Pso
95%181.8=P95
99%183.7=P»9
计算百分位数还可以用专用命令centile.
centile变量名(可以多个变量),centile(要计算的百分位数)洌如计算P25,P.等
centile变量名,centile(2.597.5)
本例计算P2.5,P”.5,P50,Pas,P?50
本例命令.centilex,centile(2.525507597.5)
-Binom.Interp.一
Variable|ObsPercentileCentile[95%Conf.Interval]
X11102.5165.775164.1168.7*
125172.825171.3314173.6267
150175.2174.5176.6789
175178.125177.3179.4371
197.5183.6225181.8185.4*
*Lower(upper)confidencelimitheldatminimum(maximun)ofsample
结果说明
PercentileCentile百分位数
2.5165.775=?2.5
25172.825=?25
50175.2二P50(中位数)
75178.125=P?5
97.5183.6225=P97.5
制作频数表,组距为2,从164开始,
genf=int((x-164)/2)*2+164其中int()表示取整数
tabf频数汇总和频率计算
频数频率累积频率
f1Freq.PercentCum.
164|21.821.82
166|32.734.55
168|76.3610.91
170|1110.0020.91
172|1614.5535.45
174|2320.9156.36
176|2018.1874.55
178|1311.8286.36
180|109.0995.45
182|43.6499.09
184|10.91100.00
4-
Total|110100.00
作频数图
命令graph变量,bin(#)norm
其中#表示频数图的组数;norm表示画一条相应的正态曲线(可以不要)
本例命令为graphx,bin(8)norm
a
Q
f!』
u-
为了使坐标更清楚地在图上显示,可以输入下列命令
graphx,bin(8)xlabelnormylabel
图形可以从Stata中复制到word中来,操作如下:
然后到Word中粘贴和编辑,便可以得到所需要的图形。
■-|口”|
点击此处
便可关闭
图形窗口,
返回结果
窗口
7
计算几何均数可以用means变量名(可以多个变量:即:means变量1…变量m)
meansx
Variable|TypeObsMean[95%Conf.Interval]
x|Arithmetic110175.3655174.5676176.1634
IGeometric110175.3149174.5168176.1166
Harmonic110175.2642174.4657176.07
Arithmetic(算术均数)Geometric(几何均数)调和均数(Harmonic)
作Pie图描述构成比:每一类的频数用一个变量表示,命令:
graph各类频数变量名,pie
例:下列有2个地区的血型频数分布数据,请用Pie描述:
频数
地区AB0AB
第1地区area=l10012024075
第2地区area=2807020050
Stata数据格式
ab0abarea
1100120240751
28070200502
第1地区血型构成比的Pie图的命令和图
graphaboabifarea==l,pie
119%A
a22%B
□45%O
/14%AB
■
■
■
■
■
I
注意逻辑表达式中ifarea==l是两个等号。
第2地区血型构成比的Pie图的命令和图
graphaboabifarea==2,pie
20%
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 四川省成都市温江县2026届初三三诊考试数学试题试卷含解析
- 南安市2026届联盟测试语文试题含解析
- 山东省济宁梁山县联考2026届初三下学期“三诊”模拟考试语文试题含解析
- 山东省聊城市莘县市级名校2025-2026学年初三下学期中考适应性月考(八)英语试题含解析
- 天津市大港区第六中学2026年初三下学期教学质量监测(一模)物理试题含解析
- 辽宁省抚顺本溪铁岭辽阳葫芦岛市重点中学2026年初三下学期期末英语试题试卷含解析
- (正式版)DB37∕T 1627-2010 《植株全氮的测定 凯氏定氮法》
- 细节管理在神经内科一病区的应用
- DB35-T 2304-2026互花米草除治滩涂生态修复及监测评估技术规程
- GB 29742-2026 镁及镁合金冶炼安全规范
- 知道网课《劳动教育(西安理工大学)》课后章节测试答案
- 医疗耗材销售培训课件
- 2025中国农业科学院棉花研究所第二批招聘7人备考考试题库附答案解析
- 人教版八年级物理上册 第六章《质量与密度》单元测试卷(含答案)
- 网络舆情培训课件
- 北航大航空航天概论课件第7章 空间技术与空间科学
- HACCP体系知识培训课件
- 2025年中青班笔试题目及答案
- 学校管理特色工作汇报
- 《婚姻家庭继承法(第八版)》课件全套 房绍坤
- 第8课 动物的耳朵 课件 青岛版六三制一年级科学下册
评论
0/150
提交评论