版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
金融数据分析参考教材RueySTsay.AnIntroductiontoAnalysisofFinancialDatawithR,3Ed,AJohnWiley&Sons,INC.2013RueySTsay著,李洪城等译,金融数据分析导论:基于R语言,机械工业出版社,2013.戴维·罗伯特,金融统计与数据风险,机械工业出版社,2020陈梦根,金融统计学,中国统计出版社,2021.软件学习网页/forum-5-1.html;人大经济论坛-计量经济学与统计软件/;统计之都论坛第一章导论
学习目标
了解金融计量学的建模步骤、金融数据的主要类型和来源。熟悉R和Python语言的基本操作。掌握各类收益率的计算、分布特征和金融数据的可视化。通过疫情期间中美股指收益率对比,体现我国金融风险的可控性以及我国制度优越性。1.1
金融数据分析概述
1.2
常见的统计分布
1.3
收益率及其分布特征
1.4R软件和Python软件介绍
1.5专题:金融数据的可视化
目录CONTENTS金融数据分析概述1.11.1.1金融数据分析的含义
数据分析定义为,使用适当的统计方法,对收集来的大量数据进行分析,并加以汇总、理解和消化,最大化开发数据的功能,发挥数据的作用。它包含“数据”和“分析”两个方面,其中数据用以量化现状,消除模糊,分析可以得到变量之间的相互关系,解释相关现象。
金融数据分析关注金融领域的数据获取、分析、展示及其在数据可视化、风险管理、投资组合优化、金融建模等方面的应用,旨在帮助金融机构和投资者做出理性和有效的决策。它通过经济学、统计学、数学和计算机科学等方法,系统地解读和分析金融市场数据(如股票价格、收益率、汇率等)和财务数据(财务指标、财务报表等)。1.1.2金融数据的主要类型和来源
金融数据的主要类型时间序列数据截面数据面板数据
金融数据的来源专业性网站专业数据公司和信息公司抽样调查金融文本挖掘1.1.3金融数据分析步骤第一步,确定研究问题。第二步,数据收集和整理。第三步,探索性数据分析。第四步,数据分析与可视化。第五步,解释和改进。常见的统计分布1.2
1.2.1正态分布
在金融计量分析时,常常假设资产收益率服从正态分布,其原因还是源于正态分布具有良好的统计特征。但事实上,假设资产收益率服从正态分布是不合理的,原因有三个方面。一:简单收益率一定大于等于-100%,但正态分布却没有这样的限制。二:多期毛收益率是单期毛收益率的乘积,不再服从正态分布。三:收益率分布大多是厚尾的,不符合正态分布的尾部特征。
1.2.2对数正态分布
R代码>x=seq(0,1,by=0.01)>curve(dlnorm(x,meanlog=0,sdlog=1),from=0,to=10)
1.2.3学生t分布
1.2.4广义误差分布在时间序列分析中,广义误差分布有时也会被用到,其概率密度函数为:
1.2.5稳态分布
稳态分布是正态分布的自然推广,其在加法运算下是稳定的,这一点满足对数收益率的要求。
稳态分布能刻画股票的历史收益率所显现的超额峰度。非正态的稳态分布没有有限方差,这一点与大部分金融理论相矛盾。
用非正态的稳态分布进行统计建模是很困难的。非正态稳态分布的例子是柯西分布,其关于中位数对称,方差是无限的。
1.2.6极值分布
极值分布是指在概率论中极大值(或者极小值)的概率分布,是从很多个彼此独立的极大值中挑出来的各个极大值应当服从的概率密度分布。
极值分布包括广义极值分布、广义Pareto分布等,极值分布在金融风险计量分析中是一个常用的分布。在第六章我们将详细论述。收益率及其分布特征1.31.3.1常见的收益率类型
大多数金融研究都是从资产价格的时间序列开始的,如沪深300指数每天的收盘价、国际原油的每日价格等。但在金融计量上,使用更多的却是资产收益率。其原因是收益率序列统计特性良好,而且具备无量纲等优点。常用的收益率包括:单期简单收益率和多期简单收益率连续复利收益率对数收益率资产组合收益率当期收益率与到期收益率1.单期简单收益率和多期简单收益率
设Pt是t时刻的资产价格。从t-1至t日,持有该资产的投资者,其单期简单毛收益率(1+Rt)为:
与之相对应的单期简单净收益率(simplenetreturn)或简单收益率(simplereturn)Rt为:1.单期简单收益率和多期简单收益率2.连续复利收益率
3.对数收益率
R代码library(xts)###加载包library(psych)>data<-read.csv("E://jrjl/Chapter1/GZMTp.csv",header=T)###读入数据>DATE<-data[,1]>date<-as.Date(DATE)>dat<-xts(data[,2],date)>logR<-log(dat)###对数收益率计算>logr<-diff(logR)>logreturn<-logr[-1,]>date1<-date[-1]>par(mfrow=c(2,2))###可视化>plot(date,dat,main="",lwd=1,xlab="贵州茅台收盘价",ylab="",type="l")>plot(date1,logreturn,main="",lwd=1,xlab="贵州茅台收益率",ylab="",type="l")
4.资产组合收益率
5.当期收益率与到期收益率1.3.2收益率的分布特质
1.随机变量的矩及分布特征1.随机变量的矩及分布特征1.随机变量的矩及分布特征
1.随机变量的矩及分布特征
2.样本矩及分布特征
2.样本矩及分布特征
2.样本矩及分布特征
2.样本矩及分布特征R软件和Python软件介绍1.41.4.1R软件介绍1.4.1R软件介绍
1.4.1R软件介绍
设置工作路径是启动Rstudio要做的第一件事。工作路径的设置常用有两种方法。第一种方法是使用setwd函数,这种方法只能是临时修改路径,即每打开一次R软件就需要修改一次路径;第二种方法是在Tools主菜单下,点击Globaloptions,进一步在defaultworkingdirectory中修改默认工作路径,保存后重新打开软件即可永久改变工作路径,具体可见图1-5。1.4.1R软件介绍
1.4.1R软件介绍
(二)Rstudio基本命令
R软件是专为统计计算和绘图而产生的语言和环境,也是一款面向对象的软件,可以处理多种类型数据。本书选择在RStudio平台进行,其命令行提示符为“”,在打开软件后,在其后面进行相关操作。R函数是R语言的一个基础,而函数封装于相对应的包中,在实践中很多包需自行安装后才可以使用,如下载包“fGarch”,所用到的命令为install.Packages(“fGarch”),其中引号不可省略,否则无法识别,引号中为所需安装的包,同样可以在RStudio的Tools目录下点击installPackages,如图1-6所示,在“Packages(separatemultiplewithspaceorcomma)”中输入需要的包,点击“Install”进行安装,注意在安装过程中要联网,安装后的包需要加载,命令为library()。1.4.1R软件介绍
1.4.1R软件介绍
(三)Rstudio读写命令
Rstudio几乎可以读取所有主流的文件。常用的文件包括以下三种。第一是纯文本文件,其文件扩展名为“.txt”,所用的命令为read.table函数;第二是逗号分割文件,其扩展名为“.csv”,所用命令为read.table函数或者read.csv函数,如果使用read.table函数需要设置sep参数为逗号;第三是excel文件,其扩展名为“.xls”和“.xlsx”,在读取之前要先加载openxlsx包,然后使用read.xlsx读取这两类文件。
在读取之前,若文件在当前目录下,直接输入文件名,若不在当前目录下,需要使用文件的全路径。若读取的数据为网络文件,只需要将read.table的第一个参数改为网络文件具体的地址。
1.4.2Python软件介绍
(一)软件安装
本书在windows系统下载Ananconda并启动AnacondaNavigator,如图1-8所示,可以看到多种Python的多种IDE,若有需要,点击“Install”即可下载。
1.4.2Python软件介绍
Spyder:与RStudio很相似,其界面分为主窗口、历史窗口和输出窗口,分别用于编译、数据存储和输出,大小和位置可以自行调整。JupyterNotebook:可以看作是一种交互式笔记本,便于分步执行和显示结果,具体见图1-9,支持运行多种编程语言,其本质是一个Web应用程序,便于创建和共享程序文档,支持代码实现和可视化。
1.4.2Python软件介绍
(二)基本语法介绍Python和R软件一样,加载os模块,使用os.chdir()可以自行修改工作路径,方便结果的寻找。Python下载模块可以直接在conda中选择,也可以在资源管理器中打开conda,使用命令pipinstallPandas进行下载,在程序运行前下使用命令importpandasaspd加载该模块。
Pythons的变量类型包含数值、字符串、列表、元组和字典,变量赋值所用符号为:“=”,且变量的对象下标是由0开始,在编写程序时要多加注意。Python中的基础模块有NumPy、Pandas和Matplotlib,其中NumPy模块为开源数值计算扩展,可以存储和处理大型矩阵;Pandas模块是基于NumPy的一种工具,纳入了大量库和标准数据模型,主要解决数据分析问题;Matplotlib为Python的2D绘图库,通过各种拷贝格式和跨平台的交互环境生成图形。
1.4.2Python软件介绍
(三)Tensorflow模块
近年来,人工智能在金融领域广泛应用,其中就包含机器学习和深度学习。深度学习是机器学习领域中的一个新方向,在数据挖掘、自然语言处理以及其他领域都取得了很多成果。而Python语言作为实现这一分析的工具,需要使用tensorflow模块。2015年Google以开源形式发布Tensorflow,该模块作为生产级深度学习库,拥有巨大用户群,并且不断地部署和提供模型以及第三方工具和平台。关于该模块的下载,可以通过Anaconda下载并于Python的IDE进行搭载,安装时要注意Python和tensorflow版本相匹配。专题1.5金融数据的可视化
—基于新冠疫情间中美股市波动的对比分析
1.5金融数据的可视化本专题将通过分析比较此次疫情对于中美两国股票市场的影响,说明金融数据的可视化。为此,选择中国沪深300指数和美国标普500指数分别作为中美两国金融市场代表性指标,时间区间为2020年1月1日至2020年12月31日,频率为日度,研究新冠肺炎疫情对中美股票市场的影响。
1.5金融数据的可视化首先,绘制这两种指数的开盘价、最高价、最低价和收盘价的时序图。图1-10左半部分为中国沪深300指数相关指标,很明显这几个数据有很强的相关性,2020年前后,受新冠疫情的影响,我国股市受到了比较大的冲击。
1.5金融数据的可视化1.5金融数据的可视化
接下来对数据进行一个统计性描述(表1.3),通过样本均值和分位数发现:沪深300指数多数时间在3500点至5200点之间浮动,在高位和低位持续的时间较短,这与现实情况相符。标普500指数则从疫情后的2200点低位经过一年的拉升才达到了3800点左右。1.5金融数据的可视化
接下来计算沪深300指数和标普500指数简单收益率和对数收益率,结果如图1-11所示。从图中可发现中美两国代表性股指简单收益率和对数收益率均大致平稳,它们围绕一条轴上下波动,相对而言简单收益率的波动要大于对数收益率的波动。1.5金融数据的可视化
图1-12展示了中美两个指数波动率的时序图。可以清楚地看到,在2020年年初和2020年年中,我国波动率出现了一个显著的上升。而美国在2020年初出现了巨大的波动。特别注意的是,在疫情期间,我国经济整体保持稳定状态
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- GB/T 7727-2025船舶通用术语
- 对急性胰腺炎患者的疼痛护理
- 2025-2026年七年级历史(综合训练)上学期单元测试卷
- 2025年高职农业自动化(温室温控系统)试题及答案
- 2026年中职第二学年(连锁门店运营)门店销售技巧试题及答案
- 2025年高职(人工智能技术应用)机器学习基础试题及答案
- 2025年中职采矿技术(矿山开采与安全管理)试题及答案
- 2026年资料管理(资料借阅管理)试题及答案
- 2025年高职(水产养殖技术)水产养殖环境调控基础试题及答案
- 2025年高职(应用化工技术)化工工艺优化试题及答案
- 吃苦耐劳的课件
- 2024年度江苏省二级建造师之二建机电工程实务练习题及答案
- 2025年大学物理考试热力学第一定律应用试题及答案
- JJF(黔) 76-2024 钢筋弯曲试验机校准规范
- 2022安全阀在线校验规程
- 软件开发工程师:人工智能算法工程师简历
- 美容营销培训课程
- 华为质量管理手册
- 机械加工检验标准及方法
- 充电桩采购安装投标方案1
- 小米员工管理手册
评论
0/150
提交评论