STATA统计软件操作...ppt

上传人：1*** IP属地：浙江上传时间：2020-07-27 格式：PPT 页数：30 大小：161.51KB 积分：20 举报 版权申诉

免费预览已结束，剩余25页可下载查看

 下载本文档

版权说明：本文档由用户提供并上传，收益归属内容提供方，若内容存在侵权，请进行举报或认领

文档简介

1、STATA统计软件操作,Stata入门 Stata的数据读入数据库的描述变量的生成与处理数据的合并数据的转换单变量描述双变量描述,描述数据的统计量图形的制作参数估计：区间估计假设检验方差分析相关分析线性回归分析,Stata入门,五大功能：数据管理、统计分析、图形制作、矩阵运算和程序设计。界面： Command(命令)、Results(结果)、Review(回顾)、Variables(变量)。菜单基本功能：文件（File）、编辑（Edit）、偏好（Prefs，用户界面设置菜单）、数据（Data，数据的基本处理、描述、排序、改变变量、生成新变量、整合数据、拆分数据等

2、）、图表（Graphics）、统计（Statistics数据分析）、使用者（User）、窗口（Window）、帮助（help）快捷根据图表的基本功能： Log(记录文件窗口)、Viewer(帮助窗口)、Results(分析结果窗口)、Do-file Editor(编程窗口)、Data Editor(数据编辑窗口)、Data Browse(数据浏览窗口)、Clear-more-Condition(显示更多结果)、Break(不要显示更多结果)。,Stata数据的读入,log文件。创建文件：log using “文件路径和名称”，其后带append表示在原有文件的基础上增加新内容，其后带rep

3、lace表示取代原记录文件；暂停：log off；再次开始：log on；关闭：log close。数据的存储空间：增加存储空间（set mem 40m）清空存储空间（clear，相当于drop all）。,Stata数据的读入,数据的读入：可直接读入下列尾缀形式的数据.dta/.txt/.raw/.xls；读入文件中的部分变量：use a b c using“文件路径和名称”；读入文件中的部分样本：use “文件路径和名称” in X/Y(X、Y表示个案序号)；读入文件中某些特征的样本：use“文件路径和名称”if 条件句；,数据库的描述,描述数据的基本情况：descri

4、be, d describe, simple:只展示变量名； describe，short：报告变量总体情况； describe，detail：输出全部变量的全部信息； describe a b c：描述部分变量的情况。变量编码本： codebook。 codebook+变量名：描述变量特征。,Stata数据类型及特点,与数据类型对应的是数据库中变量的存储类型（storage type）：。字符型:保存格式为str，省略表示的是字符位数数值型：保存格式有byte, int, long, float, double。默认格式是float，前三种只保留整数，占空间最大到最小的顺序是doubl

5、e, float, long, int, byte 压缩变量的命令为compress Compress为压缩所有变量； Compress yr*为压缩共同前缀的变量； Compress a-c为压缩从a到c之间的所有变量。,数据库的描述,描述变量取值的基本命令参数： inspect。显示数据： browse直接进入数据的浏览窗口； list最好指定变量，否则会输出数据中所有变量的分布。数据排序： sort。例：比较城乡孩子的性别bysort urban: inspect girl或者sort urban然后by urban: inspect girl.,变量的生成与处理,注意事项：不要

6、使用新变量取代旧变量；充分了解原始变量的分布以及每个数值代表的含义；遵循不重不漏；将原始变量和新变量的取值进行对比，检查是否有误；注意原始变量的缺失值。使用genreplace命令生成新变量； genreplace if共同使用形成分组变量 recode v , gen(nv) recode v v的取值nv的取值 *=其他取值(*表示所有其他没有列出的数值)，gen（新变量名） recode yrsch 0=0 11=1 12=2 13=3 14=4 15=5 16=6 21=7 *=.,gen (edu),变量的生成与处理,生成分类变量： egen 新变量命cut（旧变量名），at

7、（取值的下限） eg：egen agegrp1=cut(age),at(0,7,13,16,20) 按照变量b的分类生成均值变量： egen a_mean=mean(a),by (b) 生成一个变量b和c的行均值变量（avg），忽略缺失值： egen avgrmean(b c) 生成标准数值： egen zweight=std(weight) 计算每一年观察的样本，从而了解在每年的调查中，有多少相同的样本（或相同的个体）： gen numobs=count(personid), by(personid year),数据的合并（纵向）,纵向合并：作用：增加样本量命令：append 菜单：Da

8、ta-Combine datasets-Append datasets；程序：append using“文件路径和名称”；append using“文件路径和名称”，keep 变量名。,数据的合并（横向）,横向合并作用：增加变量（merge）。菜单：Data-Combine datasets-Merge two datasets或Data-Combine datasets-Merge multiple datasets 程序：先看使用数据：use “文件路径和名称”，sort 关键变量名，save“文件路径和名称”，replace；再看主要数据，use“文件路径和名称”，sort关键变

9、量名；最后，合并数据：merge 关键变量名 using “文件路径和名称”，keep（变量）。,数据的合并（系统变量）,关于系统变量：_merge，它的取值限于 1观察值仅来自主要数据，使用数据没有匹配的样本， 2观察值仅来自使用数据，主要数据没有匹配的样本， 3观察值来自于主要数据和使用数据。若使用update选项，还会有： 4观察值来自于主要数据和使用数据，且主要数据的缺失值得到更新， 5观察值来自于主要数据和使用数据，且两个数据的数值不匹配。,数据的转换（reshape）,数据的结构：宽数据（wide format）长数据（long format）菜单： Data-Creat

10、e or change variables-Other variable transformation commands-Convert data between wide 按变量x的分类，生成一张其取值图histogram x，discrete; 箱线图。按变量x的分类，生成变量y的箱线图： graph box y, over(x)；按变量x的分类，生成变量y1和y2的箱线图graph box y1 y2, over(x)；按变量x的分类，生成变量y的横向箱线图：graph hbox y, over(x)；矩阵图。生成x1、x2、x3的矩阵图，只显示一半：graph matrix

11、x1 x2 x3, half 将图形x1和x2合并：graph combine x1 x2,区间估计,单个总体均值的区间估计：求多个变量的置信区间，对变量的数目没限制：ci x1 x2 x3。 eg：bysort urban: ci x1 x2 x3 if age14. mean x1 x2 x3，输出均值、标准误和95%的置信区间。按变量e分类来求取a、b、c三个变量的区间估计：mean a b c，over（e）,区间估计,单个总体比例的区间估计计算a这个二分变量的比例、标准误和95%的置信区间：proportion a。按b分类来计算a这个二分变量的区间估计：proportion

12、 a，over（b）。,区间估计,单个总体比率的区间估计按城乡分类，估计体重身高之比的区间估计：ratio(weight/height),over(urban) 注意：stata默认输出的是95%的置信区间，若想要99%或90%的置信区间，则须在命令最后写“，level（99）”或“，level（90）”,假设检验,一个总体均值的检验：ttest 变量=数值。例如：ttest height=160 if age14或者ttest height=160 if age14,level(99) 两个独立样本均值比较的t检验： ttest a，by（b）。 eg：分城乡孩子的体重差异检验：ttes

13、t weight，by（urban）,假设检验,配对样本均值比较的t检验： ttest a1=a2。多个总体均值差异的检验，即方差分析： oneway y x（y为因变量，x为类别自变量）例如：oneway weight sibs if age13,tab scheffe。（tab输出各组描述性统计结果，scheffe采用scheffe方法提供多重组间比较结果）,方差分析,双（多）因素方差分析： anova y a b（a、b为因素） anova y a b a*b（加入a、b的交互作用）协方差分析： anova y a b c，cont（c）；指定c为连续变量，相应地a、b、c为类别变量。 anova y a b c，category（a b），指明a、b为分类变量，从而暗示其他变量c为连续变量。,相关分析,corr a b c。输出a、b、c的相关系数矩阵。 pwcorr

人人文库> 全部分类> 行业资料 > 信息产业

温馨提示

1. 本站所有资源如无特殊说明，都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
2. 本站的文档不包含任何第三方提供的附件图纸等，如果需要附件，请联系上传者。文件的所有权益归上传用户所有。
3. 本站RAR压缩包中若带图纸，网页内容里面会有图纸预览，若没有图纸预览就没有图纸。
4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
5. 人人文库网仅提供信息存储空间，仅对用户上传内容的表现方式做保护处理，对用户上传分享的文档内容本身不做任何修改或编辑，并不能对任何下载内容负责。
6. 下载文件中如有侵权或不适当内容，请与我们联系，我们立即纠正。
7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

STATA统计软件操作...ppt

文档简介

温馨提示

最新文档

评论

STATA统计软件操作...ppt

文档简介

温馨提示

最新文档

评论

相关文档