版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
1、第二章.数学基础和SAS软件基础,2.1统计学与概率论基础知识1.随机变量随机变量的含义离散型连续型密度函数分布函数随机变量在某个区间上的取值的概率也可以表示为。,第二章.数学基础和SAS软件基础,2.随机变量的数值特征期望值常用表示期望值的概念方差标准差,第二章.数学基础和SAS软件基础,协方差:测算两个随机变量之间相互关系的统计指标相关系数a.完全正相关b.完全负相关c.完全不相关,第二章.数学基础和SAS软件基础,偏度:衡量随机变量的概率分布围绕其均值是否对称,公式定义为正偏态:负偏态:偏度系数:峰度:反映的是随机变量概率密度函数尾部的厚尾(或称为宽度)的统计量,通常用于判断某个随机变量
2、是否服从正态分布,第二章.数学基础和SAS软件基础,峰度系数:若随机变量服从正态分布,则峰度近似等于3.若峰度显著大于3,则概率分布的尾部要比正态分布的尾部厚,分布密度曲线在距均值较远地方位于正态分布曲线的上方,称为尖峰厚尾现象,第二章.数学基础和SAS软件基础,3.概率分布正态分布记作:密度函数:的正态分布称为标准正态分布,记作累计概率分布函数:正态分布,第二章.数学基础和SAS软件基础,若随机变量服从均值为、标准差为的正态分布,则其值在区间内的概率为95%。即:一般正态分布的接收域和拒绝域,第二章.数学基础和SAS软件基础,分布:若,则下标k为的自由度,分布只取正值,并且是偏斜分布。偏度取
3、决于自由度的大小,自由度越小越右偏,随着自由度的增多,分布逐渐对称,接近正态分布。当N无限大时,近似存在:分布随自由度的变化情况,第二章.数学基础和SAS软件基础,t分布:若Z是一个变量,而变量X独立于Z,且X服从自由度为k的分布,则服从自由度为k的t分布对称性期望值为0方差为t分布的尾部比正态分布的尾部更厚自由度较大时,t分布趋从于标准正态分布,第二章.数学基础和SAS软件基础,F分布:若两个服从分布的随机变量相互独立,其自由度分别为和,则服从自由度为的t分布。不同自由度的F分布密度函数,第二章.数学基础和SAS软件基础,二项式分布:如果进行n次贝努里试验,取得成功次数为的概率可用下面的二项
4、分布概率公式来描述n为独立的贝努里试验次数,为成功的概率,(1-)为失败的概率,X为在次贝努里试验中出现成功的次数,表示在n次试验中X出现的各种组合情况,在此称为二项系数。记为:,第二章.数学基础和SAS软件基础,2.2SAS软件基础1.常用金融计量软件网址软件名称网址SASSPSSEMSPLUSSS,第二章.数学基础和SAS软件基础,2.SAS简介模块:BASESAS为基本模块SAS的系统核心SAS/ETSSAS/GRAPHSAS/QCSAS/ETSSAS/FSPSAS/AF等特点:统计功能强大简捷具有功能强大的宏功能将数据处理与统计分析融为一体适应性强应用面广3.SAS中的几个基本概念窗口
5、和文件类型:编辑器工作日志输出数据浏览器结果窗口,第二章.数学基础和SAS软件基础,逻辑库:将电脑硬盘中的“f:fe”目录定义为SAS中的逻辑库“data”.libnamedataf:fe;SAS数据文件的命名方式临时性文件:一级文件名datareturn;永久性文件:两极文件名Datadata.size长方形的SAS数据结构:SAS的基本要素有观测、变量、变量值变量名,建议数据文件整理成长方形结构,更易于数据的处理和分析SAS程序的可控分段运行:将需要运行的程序段选黑,然后点击运行按钮,第二章.数学基础和SAS软件基础,如图:分段执行SAS程序,“运行”命令按钮,第二章.数学基础和SAS软件
6、基础,日志文件中的信息阅读:原数据文件出错的程序datadata.p;infilef:fechap2-2-1p.csvdelimiter=,MISSOVERDSDlrecl=32767;inputdate$p;run;/*此段程序的文件名有误,系统将报错,请在执行此段程序后观察日志文件*/在这段程序运行后,在日志文件中出现这样的信息:ERROR:物理文件f:fechap2-2-1p.csv不存在。NOTE:SAS系统由于错误而停止了该步的处理。WARNING:数据集DATA.P可能不完整。该步停止时,共有0个观测和2个变量。NOTE:“DATA语句”所用时间(总处理时间):实际时间0.04秒C
7、PU时间0.01秒,第二章.数学基础和SAS软件基础,根据错误进行修改后再次执行,得到下面日志信息NOTE:从Infilef:fechap2-2-1p.csv中读取了403条记录。最小记录长度是10。最大记录长度是14。NOTE:数据集DATA.P有403个观测和2个变量。NOTE:“DATA语句”所用时间(总处理时间):实际时间0.10秒CPU时间0.00秒数据文件的浏览和直接编辑:双击文件,则可以打开数据文件浏览4.SAS语句:由SAS关键词、用户提供信息构成,SAS语句以分号(;)结束,如:inputxy;,第二章.数学基础和SAS软件基础,5.SAS中的data步和proc步data步
8、:将外部数据转化为SAS数据文件对原SAS文件进行修改,包括长生新变量、选择观测和选择变量合并两个或多个已有的数据集合,产生新的数据集将SAS数据集转化为外部数据例:将外部数据f:fechap2-2-1p.csv转化为SAS数据文件,该数据文件在逻辑库data中,根据”libname”语句的定义,逻辑库data和电脑文件目录f:fe是对应的libnamedataf:fe;datadata.p;infilef:fechap2-2-1p.csvdelimiter=,MISSOVERDSDlrecl=32767;inputdate$p;run;,第二章.数学基础和SAS软件基础,产生一个新的数据文件
9、data.r,根据原始价格计算对数收益率r,剔出不需要的变量和观测。lag函数是取一阶时滞函数,lag(p)表示上一期的价格。由于第一个观测(即2006年1月4日这个观测)没有上一期的数值,SAS系统对这个观测的r给出了空值“.”。在数据处理上,可以将这个观测剔除。datadata.r;setdata.p;r=log(p)-log(lag(p);/*addavariable*/keepdater;/*choosevariables*/ifr=.thendelete;/*chooseobservations*/run;datadata.rm;setdata.index;rm=log(index)
10、-log(lag(index);/*addavariable*/dropindex;/*choosevariables*/ifrm=.thendelete;/*chooseobservations*/run;,第二章.数学基础和SAS软件基础,将两个数据data.r和data.rm按照时间进行合并,由merge语句来完成,by变量date的功能是将两个原数据文件中date相同的观测合并到新数据data.co中的同一观测中。datadata.co;mergedata.rmdata.r;bydate;/*byvariables*/run;SAS内部数据也可输出为外部数据data_null_;set
11、data.co;filef:feco.txt;putdater1rm;run;,第二章.数学基础和SAS软件基础,proc步:对已有数据文件进行统计分析,并输出结果,最常见的是排序、打印和求单变量的统计量等下面对文件data.co执行排序,排序的关键变量为dateProcsortdatadata.co;bydate;Run;SAS程序包括:(1)将外部数据集合变成SAS数据集;(2)执行data步,对于数据集进行一定的变换、删除等预处理,将同一时间、同一对象的自变量和应变量放入到同一个观测中。(3)执行proc步(回归、时间序列等),生成结果;(4)对结果进行分析,提取有用信息,形成最后的报表
12、。,第二章.数学基础和SAS软件基础,6.主要BASESAS程序排序过程sort:将数据按照一个或者多个变量排序,排序后的数据替代原数据,例如将数据return按照date和code排序procsortdata=return;bydatecode;/*第一排序变量date,第二排序变量code*/run;反向排序变量后加入“descending”选项procsortdata=return;bydatedescendingcode;run;将排序后的数据写入新数据集合procsortdata=returnout=return1;bydatedescendingcode;run;,第二章.数学基础
13、和SAS软件基础,单变量过程UNIVARIATE:对上例中变量rm画直方图,并填充颜色。在左上角插入正态性检验结果,添加拟合曲线,在右上角加入均值和标准差的图标。procunivariatedata=demo.rm;varrm;histogramrm/cfill=ltgraynormal(color=yelloww=3percents=20406080midpercents);insetmeanstd=StdDev/pos=neformat=6.3cfill=ywh;insetnnormal(ksdpval)/pos=nwformat=6.3;run;输出结果如下:rm的直方图和拟合曲线的输出
14、结果,第二章.数学基础和SAS软件基础,在上面的收益率数据中,需要按月输出日收益率的均值,标准差和t统计量(均值=0)。程序如下:datadata.rm_month;setdata.rm;month=substr(date,1,6);run;procunivariatedata=data.rm_month;varrm;bymonth;outputout=data.rm_statmean=rm_meanstd=rm_stdt=test;run;相关性过程CORR:计算变量的描述性统计量和两个变量之间的Pearson相关系数。也可以计算三个非参数相关系数,秩序相关系数,偏相关系数和Cronbach
15、系数alpha.,第二章.数学基础和SAS软件基础,例:计算股票和指数的收益率的相关性Odshtml;proccorrdata=data.cooutp=data.corr_stat;/*定义了输入数据集和结果输出数据集*/VARrmr1;run;odshtmlclose;结果输出:CORR过程的运行结果简单统计量变量N均值标准偏差总和最小值最大值rm4020.004060.018631.63067-0.099490.06039r14020.004870.030691.95964-0.104620.20122Pearson相关系数,N=402当H0:Rho=0时,Prob|r|Rmr1rm1.0
16、00000.65666.0001r10.65666.00011.00000,第二章.数学基础和SAS软件基础,秩序过程RANK:对数据集中的原变量进行秩序分析,并据需求产生一个新的秩序变量,该变量把数值从小到大排序,给最小值赋予1,给第二小值赋予2,直到最大值n。rank语句以“procrank”引导,并跟随ranks、var和by三个一般语句。var语句后跟随的变量(var变量)通常是原变量ranks语句后则跟随导出数据集中的秩序变量例:sashelp.class数据为班级学生的性别、身高和体重。下面先按性别分组,对男生和女生的身高产生秩序变量rank_height,得rank1;然后再按照
17、性别和rank_height分组,得到体重的秩序变量rank_weightprocsortdata=sashelp.class;bysexheight;run;procrankdata=sashelp.classout=rank1groups=2;ranksrank_height;varheight;bysex;run;,第二章.数学基础和SAS软件基础,procsortdata=rank1;bysexrank_height;run;procrankdata=rank1out=rank2groups=3;ranksrank_weight;varweight;bysexrank_height;r
18、un;例:数据data.u中包含了A-H两地上市公司股票的A股市场的每月平均溢价率数据。希望对每月根据溢价率大小将股票分为等分的五组procrankdata=data.uout=data.urankgroups=5;/*定义输入数据和输出数据以及分组个数*/ranksrk;/*产生的新秩序变量*/varu;/*原变量*/bymth;/*分组变量*/run;,第二章.数学基础和SAS软件基础,分组前后的数据集分别为:溢价率数据集秩序过程产生的新数据集data.urank,第二章.数学基础和SAS软件基础,非参数检验NPAR1WAY过程:基于Wilcoxon得分的简单线性秩统计量可用于检验一个变量
19、的分布在不同的组中是否具有相同的位置参数。主语句以“procnpar1waywilcoxon”引导,并跟随by、class、var三个一般语句。例:procsortdata=sashelp.class;byage;procnpar1waywilcoxondata=sashelp.class;byage;classsex;varheightweight;outputout=npar1way;data_null_;setnpar1way;filec:npar1way.csvdelimiter=,;putage_var_z_wilp2_wilpt2_wil_kw_p_kw;run;,第二章.数学基础
20、和SAS软件基础,画图过程GPLOT和GCHART:下面三个程序分别绘制了收益率的折线图、直方图和饼状图procgplotdata=data.co;/*绘制折线图*/symboli=join;plotrm*date/vref=0;run;procgchartdata=data.co;/*绘制直方图*/vbarr;run;procgchartdata=data.co;/*绘制饼状图*/pier/type=percent;run;输出结果分别是:,第二章.数学基础和SAS软件基础,第二章.数学基础和SAS软件基础,2.3SAS宏功能基础:核心就是通过对文字或程序段进行迭代,简化程序1.宏变量:用于
21、迭代文字或程序段内容的变量介绍最简单的迭代:%letCity1=Shanghai;%letCity2=Beijing;%put在这段程序中,宏变量City1和City2分别在前两个语句中被赋值,而第三个语句中,%put用于显示宏变量City1所代替的内容。其中,宏变量City1前的%letCity1=Shanghai;%letCity1=Shanghai;因此,若需对以空格开头或结尾的文字进行引用,则需用到函数%str()%letCity1=%str(Shanghai);%putIlove得到的是IloveShanghai,其中love和Shanghai中的空格来自于宏变量City1的第一个字
22、符。如果在宏变量后直接相连文字,则SAS对其解析就将遇到麻烦:如%letb=%eval(10.0+20.0);/*INCORRECT*/%letc=%sysevalf(5/3);%letd=%sysevalf(10.0+20.0);%lete=2.5+3;%put%sysevalf(下面介绍对宏变量的二次及多次引用。在下面的程序中,以宏变量n代表数字1,而以宏变量var代表字符City,执行最后三个语句的结果是相同的。两个相连的连字符%letCity2=Beijing;%letn=1;%letvar=city;%put,第二章.数学基础和SAS软件基础,其中,MAC为用户自定义的宏参数名。而在调用宏的过程中,只需在宏前面加上百分号%,如:“%MAC;”。在下例中,名为fund的宏中包含code1、code2、maturity和scales四个参数。首先定义数据集data1_,第二章.数学基础和SAS软件基础,scale=,第二章.数学基础和SAS软
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 炉前温控设备校验周期控制方案
- 门窗洞口预留预埋质量验收方案
- 塔楼核心筒施工组织策划方案
- 广东省深圳市2026届高三下学期第二次调研考试地理试题及答案
- 压铸线模具更换作业指导书
- GEO排名优化TOP7测评:2026年新媒体营销平台权威榜单发布
- 高一年级五一后教育教学暨班风学风建设学生问卷调查表
- 2022年6月青少年软件编程(图形化)等级考试二级真题(含答案和解析-在末尾)
- 波形梁钢护栏施工组织设计
- 幼儿园废弃物资源化利用协议简化版合同二篇
- DLT1263-2013 12kV~40.5kV 电缆分接箱技术条件
- 《无人机载荷与行业应用》 课件全套 第1-6章 无人机任务载荷系统概述- 未来展望与挑战
- 《公共管理学》第六章 公共政策PPT
- 2022年河北雄安新区容西片区综合执法辅助人员招聘考试真题
- 周围血管与淋巴管疾病第九版课件
- 付款计划及承诺协议书
- 王君《我的叔叔于勒》课堂教学实录
- CTQ品质管控计划表格教学课件
- 沙库巴曲缬沙坦钠说明书(诺欣妥)说明书2017
- 卓越绩效管理模式的解读课件
- 疫苗及其制备技术课件
评论
0/150
提交评论