版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
1、R软件及其在金融定量分析中的应用主编:许启发、蒋翠侠制作:侯奇华、王侠英2014年10月编写第4章 金融数据整理与预处理金融数据整理与预处理n 第一节第一节 金融数据库金融数据库n 第二节第二节 金融数据格式金融数据格式n 第三节第三节 金融数据的导入金融数据的导入n 第四节第四节 金融数据的预处理金融数据的预处理第一节 金融数据库n金融数据与金融数据库金融数据与金融数据库金融数据,是金融定量分析的基础或原材料,只有及时、精确、全面、结构合理并且兼容性高的数据库才能够有效地实现金融定量分析,提高金融定量分析的准确性与可靠性。金融数据库用户自己收集 专门收集的金融数据 多元化第一节 金融数据库n
2、国外金融数据库概况国外金融数据库概况Bloomberg 全球最大 / 数据品种及咨询全面,数据质量高Datastream 范围广,形式多样 / 数据来源包括本地政府CRSP 史上最大最全面股票数据库之一Compustat 搜集了全世界活跃与不活跃公司的市场信息以及各种金融统计数据的数据库第一节 金融数据库n国内国内金融数据库概况金融数据库概况万得(万得(Wind)锐思锐思(RESSET)国泰安国泰安(CSMAR)巨潮巨潮恒生聚源恒生聚源财财汇汇第一节 金融数据库n金融数据库数据主要内容金融数据库数据主要内容本节将以国泰安数据库为例详细说明金融数据库中的内容。国泰安数据库的内容包括股票、上市公司
3、、基金、债券、衍生市场、经济研究、行业研究、货币市场、海外研究、板块研究、市场咨询、专题研究、科技金融研究等系列。选取上市公司、股票、债券、基金四个部分进行重点阐述。第一节 金融数据库n金融数据库数据主要内容金融数据库数据主要内容上市公司财务上市公司财务报表报表数据库将报表分为四类即:资产负债表文件、利润表文件、采用间接法的现金流量表文件以及采用直接法的现金流量表文件。股票股票个股回报率、市场回报率和综合市场回报率债券债券债券的基本信息、交易数据以及上证债券指数的交易数据等基金基金第一节 金融数据库n金融数据库数据主要内容金融数据库数据主要内容基金基金 开放式基金招募说明书、上市公告书、扩募说
4、明书、定期报告(年度报告、中期报告、季度报告、投资组合公告、基金资产净值公告)、临时报告和法律、行政法规以及中国证监会规定应予披露的其他信息资料。 封闭式基金招募说明书、上市公告书、扩募说明书、定期报告(年度报告、中期报告、投资组合公告、基金资产净值公告)、临时报告和法律、行政法规以及中国证监会规定应予披露的其他信息资料。第二节 金融数据格式nXLS、XLSX格式格式xls格式就是Microsoft Excel2003工作表。xls文件可以使用Microsoft Excel打开。通过使用Excel的“另存为”功能,可以将xls格式的表格转换为xml格式、html格式、txt格式以及csv格式等
5、。xls格式及其转换格式都可以使用R软件对应的包或函数来读取。xlsx格式是Microsoft Office EXCEL 2007工作表的扩展名。大部分的R数据导入都可以用xlsx格式来完成。第二节 金融数据格式nCSV格式格式纯文本,使用某个字符集,比如ASCII、Unicode、EBCDIC或GB2312。由记录组成(典型的是每行一条记录)。每条记录被分隔符分隔为字段(典型的分隔符有逗号、分号或制表符;有时分隔符也包括可选的空格)。每条记录都有同样的字段序列。用R来读取csv格式的数据非常方便,可以使用read.table函数来读取。第二节 金融数据格式nTXT格式格式txt是微软在操作系
6、统上附带的一种文本格式,是最常见的一种文件格式,早在DOS时代应用就很多,主要存文本信息,即文字信息,大多数的软件都可以查看txt格式的信息。用R来读取txt格式的数据同样也可以使用read.table函数来读取。如果使用Rstudio,可以在菜单栏Tools中选择“import dataset”,也可以简单地实现txt文件读取。第二节 金融数据格式nXML格式格式XML,即可扩展标记语言,标准通用标记语言的子集,一种用于标记电子文件使其具有结构性的标记语言。XML不仅可以提供标准的数据内容,而且可以提供更加复杂的数据结构。XML包提供了读取和载入XML格式文件的大部分功能,要读取一般形式的X
7、ML格式文件上的信息,只需要加载XML包,输入readKeyValueDB(/RSXML/plist.xml)即可实现读取。第二节 金融数据格式nHTML格式格式HTML,即超文本标记语言,标准通用标记语言下的一个应用。是为“网页创建和其它可在网页浏览器中看到的信息”设计的一种标记语言。HTML被用来结构化信息例如标题、段落和列表等,也可用来在一定程度上描述文档的外观和语义。HTML可以直接运行,所以我们可以在不联网的情况下直接读取HTML格式的数据。第二节 金融数据格式n从其他统计软件导入从其他统计软件导入由R的核心团队编写的foreign包提供了
8、其他统计软件系统数据导入的工具,以及导出等功能,帮助处理其他软件的数据。若要读取SPSS软件中名为“Data.sav”的数据,R代码演示如下: library(foreign) (z (x (x x x1 11 12 13 14 15第三节 金融数据的导入n从控制台从控制台输入数据输入数据 在在R中中演示演示数组的输入数组与向量本质的区别在于数组是多维的,向量是一维的。可以用array()函数来生成数组,其代码如下: x a print(a) ,1 ,2 ,3 ,41, 1 4 7 102, 2 5 8 113, 3 6 9 12第三节 金融数据的导入n从控制台从控制台输入数据输入数据 在在R
9、中演示中演示数据框的输入R代码演示如下: time AAPL.Volume AAPL.Adjusted AAPL print(AAPL)timeAAPL.VolumeAAPL.Adjusted12014-2-2410318200527.5522014-2-258284000 522.0632014-2-269864900 517.3542014-2-2710781500527.6752014-2-2813284600526.24第三节 金融数据的导入n从控制台输入数据从控制台输入数据 在在R中中演示演示列表的输入R代码演示如下: time AAPL.Volume AAPL.Adjusted m
10、ylist print(mylist)$time1 2014-2-24 2014-2-25 2014-2-26 2014-2-27 2014-2-28$volume1 10318200 8284000 9864900 10781500 13284600$adjusted1 527.55 522.06 517.35 527.67 526.24第三节 金融数据的导入n上市公司财务报表信息上市公司财务报表信息读取读取 在在R中中演示演示运用剪切板这种方法是将所需读取的EXCEL表格数据打开,选中所需的数据区域,复制区域内的内容,然后使用read.delim函数R代码演示如下: data print(
11、data) 第三节 金融数据的导入n上市公司财务报表信息上市公司财务报表信息读取读取 在在R中中演示演示转换格式可以将EXCEL的文件通过其文件菜单中的“另存为”功能,将其另存为txt格式然后再读取转换后的txt文件。R代码演示如下:datadatalibrary(xlsx)datadata getSymbols(AAPL, from=2014-01-01,to=2014-07-31)1 AAPL head(AAPL)也可以用代码来代替公司简称,以工商银行的股票为例。R代码演示如下: PAYH tail(PAYH)第四节 金融数据的预处理n时间序列时间序列数据预处理数据预处理 在在R中中演示演
12、示数据合并以苹果(AAPL)和谷歌(GOOG)为例进行说明,样本区间为:2014-03-012014-05-31,R代码演示如下: library(timeSeries) # 加载时间序列包 library(tseries) # 加载时间序列包 library(RODBC) # 加载数据连接包 library(quantmod) # 加载金融数量建模包 # 1. process time series data # (1) read and merge data s getSymbols(s, from=2014-03-01,to=2014-05-31)
13、 # 同时获得两支股票第四节 金融数据的预处理n时间序列时间序列数据预处理数据预处理数据合并1 AAPL GOOG start(AAPL)1 2014-03-03 end(AAPL)1 2014-05-30 class(AAPL)1 xts zoo dim(AAPL)1 63 6 dim(GOOG)1 45 6第四节 金融数据的预处理n时间序列时间序列数据预处理数据预处理数据合并 assets dim(assets)1 45 12这里,将合并后的信息保存在assets中。在merge.xts函数中,使用了参数“all=FALSE”,得到合并后的样本量为45。如果使用参数“all=TRUE”,将
14、得到样本量为63。不过,此时对象assets中的GOOG变量前期若干取值缺失,将以NA码来填充。第四节 金融数据的预处理n时间序列时间序列数据预处理数据预处理 在在R中中演示演示子集选择R代码演示如下: # (2) subset data assets assets2014-05 # 选择行 AAPL.Close GOOG.Close2014-05-01 591.48 531.352014-05-02 592.58 527.932014-05-29 635.38 560.082014-05-30 633.00 559.89第四节 金融数据的预处理n时间序列时间序列数据预处理数据预处理子集选择
15、assetsstart(assets), # 寻找第一条记录 AAPL.Close GOOG.Close2014-03-27 537.46 558.46 assetsend(assets), # 寻找最后一条记录 AAPL.Close GOOG.Close2014-05-30 633 559.89 subset(assets, (assets,1600) & (assets,2 # (3) sample randomly and sort data assets.ts class(assets.ts)1 timeSeriesattr(,package)1 timeSeries asse
16、ts.samp dim(assets.samp)1 40 2 print(assets.samp)第四节 金融数据的预处理n时间序列时间序列数据预处理数据预处理随机抽样GMT AAPL.Close GOOG.Close2014-04-29 592.33 527.702014-04-23 524.75 526.942014-05-28 624.01 561.682014-03-28 536.86 559.99 sort(assets.samp)GMT AAPL.Close GOOG.Close2014-03-27 537.46 558.462014-03-28 536.86 559.992014
17、-03-31 536.74 556.972014-04-01 541.65 567.162014-04-02 542.55 567.002014-04-04 531.82 543.14第四节 金融数据的预处理n时间序列时间序列数据预处理数据预处理 在在R中中演示演示数据补齐R代码演示如下: # (4) align data assets.ali dim(assets.ali)1 47 2 print(assets.ali)GMT AAPL.Close GOOG.Close2014-03-27 537.46 558.462014-03-28 536.86 559.99第四节 金融数据的预处理n时
18、间序列时间序列数据预处理数据预处理 在在R中中演示演示频率转换R代码演示如下: # (5) change frequency assets.m print(assets.m) assets.Open assets.High assets.Low assets.Close三月 2014 537.46 537.46 536.74 536.74四月 2014 541.65 594.09 517.96 590.09五月 2014 591.48 635.38 585.54 633.00第四节 金融数据的预处理n时间序列时间序列数据预处理数据预处理 在在R中中演示演示滚动窗操作R代码演示如下: # (6) roll data rollapply - function(x, by, FUN, .)+ ans - applySeries(x, from=by$from, to=by$to, by=NULL, FUN=FUN, format=xfo
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 2026年裂缝发育脆弱岩层描述为布满裂纹玻璃案例
- 外交和领事关系法的基本制度
- 2026年网络安全事件应对培训
- 气道净化护理的并发症预防与处理
- 包皮术后疼痛缓解技巧
- 小学语文 3 四个太阳教案
- 安徽省阜南县2025-2026学年九年级上学期英语期末试卷(含答案及听力原文无听力音频)
- 宠物护理新媒体平台运营
- 妊娠巨吐的孕期护理播客
- T∕GDACM 0153-2025 中医技术感染预防规范
- 有机试剂工安全检查知识考核试卷含答案
- 2025广东珠海市中西医结合医院招聘聘用合同制工作人员27人(第二批)笔试历年典型考题及考点剖析附带答案详解试卷2套
- 2026年温州永嘉县国有企业面向社会公开招聘工作人员12人考试参考题库及答案解析
- 2026广东东莞农商银行总行岗位社会招聘考试参考试题及答案解析
- 《耳鼻喉科耳部手术诊疗指南及操作规范(2025版)》
- 航空航天飞控系统设计手册
- 瓷砖销售市场营销推广方案
- - 育才中学2026学年春季第二学期初二年级地理实践活动与知识应用教学工作计划
- 电信诈骗安全教育培训课件
- 2026年安徽粮食工程职业学院单招(计算机)测试模拟题库附答案
- 肥胖课件之针灸治疗
评论
0/150
提交评论