




版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
1、1上节课上机操作(1) 对上节课生成的最终数据集total进行如下操作: (1)剔除金融业上市公司; (2)剔除每股收益为负的上市公司; (3)由于数据集中年涨跌幅采用百分比表示,建立一个新的变量,采用小数表示。 (4)建立一个新的变量,表示除第一大股东外其它股东所持有的股份比例。第1页/共26页2(1)剔除金融业上市公司 第一步: 运用substr语句 Data test; set total; code=substr(code,1,6); Run;第2页/共26页3 第二步: Data temp1; set test; if code=000562 or code=000001 or co
2、de=000563 or code=600015 or code=600016 or code=600030 or code=600036 or code=600816 or code=600000 or code=601998 or code=601328 or code=601166 or code=601318 or code=601398 or code=601628 then delete; Run; 第3页/共26页4(2)剔除每股收益为负的上市公司pData temp2; set temp1; if eps=0 ; Run;第4页/共26页5(3)建立新变量:用小数表示的涨跌幅
3、Data temp3; set temp2; re2=re/100; Run;第5页/共26页6(4)建立新的变量表示其它股东持股比例 Data temp4; set temp3; ratio2=1-ratio/100; Run;第6页/共26页7本节课上机作业(2) 公共信箱下载数据集test1和test2,运用SAS将test1和test2纵向拼成新的数据test。 根据股票收益率大小将test分成四个组,并形成四个子数据集:tmp1,tmp2,tmp3,tmp4。 在数据集test中,第一大股东持股比例在50%以上且每股收益超过1元的公司有多少家?第7页/共26页8描述统计分析 常见的数
4、据统计描述量及意义 (1)(1)表示分布平均水平和位置的特征量: : 均值:数据的平均值Mean 众数:观测值中出现最频繁的数值Mode 中位数:观测值排序中处于中间位置的值Median 百分位数:中位数的推广P1、P33、P99第8页/共26页9 (2)(2)表示分布离散程度的特征量211()1niisxxn 标准差 Std 方差2211()1niisxxn Var 变异系数100sCvx CV 标准误sStdeern STDEER第9页/共26页10 (3 3)表示形状的特征量: :偏度和峰度313()(1)(2)ixxngnns 偏度( Skewness ): 偏度主要用于判断分布形状是
5、否对称: 若g1=0,则对称; 若g10,则分布右偏(正偏); 若g10,表示变量分布比正态分布更集中,分布呈尖峰状态,平均数的代表性较好; 若g20,表示变量分布比正态分布更分散,分布呈平坦峰,平均数的代表性较差。第11页/共26页12 SAS中可以对数据进行描述统计分析的过程步有很多,其中两个最常用的过程中可以对数据进行描述统计分析的过程步有很多,其中两个最常用的过程步是:步是: (1)MEANS过程(均值过程)过程(均值过程) (2)UNIVARIATE过程(单变量过程)过程(单变量过程)第12页/共26页13 MEANS过程用来对数据集中的数值变量计算过程用来对数据集中的数值变量计算简
6、单描述统计量。该过程由下列语句控制:简单描述统计量。该过程由下列语句控制:PROC MEANS options statistics-keywords; VAR variables; BY variables; CLASS variables; OUTPUT OUT=SAS-data-set output-statistics;Run;1. MEANS过程第13页/共26页14(1)PROC MEANS语句 PROC MEANS options statistic-keywords options :DATA=SAS data set,即用以说明过程分析处理的数据集的名用以说明过程分析处理的数
7、据集的名字,若省略,则用最近操作的字,若省略,则用最近操作的SASSAS数据集;数据集; statistic-keywords:在:在MEANS过程中指出你需要计算哪些统计量。过程中指出你需要计算哪些统计量。第14页/共26页15 N,MEAN,STD,MIN,MAX,SUM, Variance,CV,STDERR,T,PRT,Range, SKEWNESS,KURTOSIS,CLM,LCLM,UCLM,Maxdec T:检验总体平均值是否为检验总体平均值是否为0的的T统计量的值统计量的值 PRT:大于大于T的概率的概率 Maxdec=n:指定打印统计量的小数位的位数指定打印统计量的小数位的位
8、数 如省略不写,如省略不写,SAS将固定输入默认的最常见的几个统计量。将固定输入默认的最常见的几个统计量。该过程可计算如下统计量:第15页/共26页16VAR variables 规定要计算描述性统计量的规定要计算描述性统计量的数值变量数值变量及及顺序顺序。 若省略该句,则对除若省略该句,则对除BY、CLASS语句中列出的变量之外所有数值变量计算语句中列出的变量之外所有数值变量计算描述性统计量。描述性统计量。(2)VAR语句第16页/共26页17(3)BY语句语句 BY variables; 使用使用BY语句可以用语句可以用BY变量定义的观测组分别计算其相应的描述统计量。当变量定义的观测组分别
9、计算其相应的描述统计量。当使用使用BY语句时,要求输入数据集已按语句时,要求输入数据集已按BY变量排序。变量排序。(4)CLASS语句语句 CLASS variables; 该语句和该语句和BY语句一样,可用语句一样,可用CLASS变量定义的观测组分别计算其相应的描变量定义的观测组分别计算其相应的描述统计量。不同点在于排序要求,述统计量。不同点在于排序要求,CLASS语句不要求数据集事先已按语句不要求数据集事先已按CLASS变变量排序。量排序。第17页/共26页18 (5)Freq语句语句 Freq variable; 该语句指定一个数值型的变量,它的值表示输入数据集中相应观测出现的频数。该变
10、量的值应为正整数。该语句指定一个数值型的变量,它的值表示输入数据集中相应观测出现的频数。该变量的值应为正整数。若变量值若变量值1或缺失,相应的观测不参加计算统计量。若这个值不是正整数,则取整数部分。或缺失,相应的观测不参加计算统计量。若这个值不是正整数,则取整数部分。第18页/共26页19 (5)Weight语句语句 Weight variable; 该语句规定一个数值型的变量,它的值表示相应观测的权数。该变量的值应大于该语句规定一个数值型的变量,它的值表示相应观测的权数。该变量的值应大于0。若变量值。若变量值0或缺失,或缺失,假定该值为假定该值为0。第19页/共26页20 OUTPUT OU
11、T=SAS-data-set output-statistics; 该语句要求该语句要求MEANS过程把计算的描述统计量输出到新的过程把计算的描述统计量输出到新的SAS数据集中,数据集中,并用任选项规定新数据集的名及所包含的变量名。这里:并用任选项规定新数据集的名及所包含的变量名。这里: OUT=SAS-data-set:给出由:给出由MEANS过程产生的输出数据集的名字,若想过程产生的输出数据集的名字,若想创建一个永久数据集,则必须规定一个两级名字,缺省时,机器默认的数创建一个永久数据集,则必须规定一个两级名字,缺省时,机器默认的数据集名为据集名为data1等。等。 Output-stati
12、stics:规定在新数据集中所要求的统计量,并规定存放这些统:规定在新数据集中所要求的统计量,并规定存放这些统计量的变量名。计量的变量名。 (6)OUTPUT语句第20页/共26页21Data student; input class sex $ age weight height ;cards; 1 f 15 46 156 1 f 14 41 149 1 m 13 48 155 1 m 14 38 150 2 m 16 55 165 2 f 17 50 160 2 f 16 60 165 2 m 17 65 175 3 f 18 65 165 3 f 17 58 160 3 m 18 70
13、180 3 m 17 68 176;Run;例第21页/共26页22Proc means data= student; var age weight height ;Run;Proc means data= student maxdec=2; var age weight height ; by sex;Run;观察以下几组程序第22页/共26页23proc means data= student maxdec=2; var age weight height ; class sex;run;proc means data= student maxdec=2; var age weight height ; output out=sta n=num mean=a1 a2 a3 std=b1 b2 b3 max=c1 c2 c3;run;第23页/共26页24libname a d:sasdata;proc means data= student maxdec=2; var age weight height ; out
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 数字营销 课件 第1章 绪论
- 千之家加盟合同范本
- 委托销售珠宝合同范本
- 玉产品采购合同范本
- 医院工程就业合同范本
- 房屋按揭银行合同范本
- 防水供销合同范本
- 居委 调解 追债合同范本
- 连锁餐饮合伙合同范本
- 社区安全知识培训教材课件
- 【一年级上册语文统编版(2024)-第四单元汉语拼音】14. ang eng ing ong第二课时课件
- 2025年交管12123驾驶证学法减分及驾驶安全理论知识试题库(附含答案)
- 知识产权保护与服务平台创新创业项目商业计划书
- 2025年胎膜早破护理胎膜早破护理查房模板
- 镇痛镇静指南解读
- 2025年贵州贵阳市水务环境集团有限公司招聘27人笔试参考题库附带答案详解(10套)
- 2025届中国南方航空“明珠优才管培生”全球招聘30人笔试参考题库附带答案详解(10套)
- 原发性系统性淀粉样变性的护理措施课件
- 《阿房宫赋》课件 统编版高中语文必修下册
- DB54T 0498.3-2025 生态系统碳汇计量与监测体系建设技术规范 第3部分:湿地碳汇计量与监测方法
- 桥小脑角肿瘤护理查房
评论
0/150
提交评论