




已阅读5页,还剩64页未读, 继续免费阅读
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
武汉理工大学硕士学位论文 摘要 统计软件属于一类重要的应用软件,开发国产的统计计算软件对于推 动科学计算的普及、推动经济决策的科学化、推动民族软件产业的发展, 都有重要的意义。 本文在童恒庆教授的统计分析软件的基础上,研究软件与数据库、数 据仓库的接口技术,实现了统计分析软件与数据库、数据仓库的通用接口。 本文作者综合数据库、数据仓库及其接口技术、编程语言等,成功解 决了软件访问多种类型数据库中的数据的问题,以及数据仓库的通用接口 的实现,另外讨论了数据库与数据仓库下统计分析的具体过程。该统计分 析软件可以更广泛的应用于各个领域了。 关键词:数据库接口技术;数据仓库接口技术:数据挖掘;统计学。 墓堡里三查兰堡主堂垡造塞 a b s t r a c t s t a t i s t i c a lc a l c u l a t i n gs o f t w a r ei sak i n do f i m p o r t a n ta p p l i c a t i o ns o f t w a r ea n dt h e d e v e l o p m e n t o fd o m e s t i cs t a t i s t i c a l c a l c u l a t i n g s o f t w a r ew i l l c o n t r i b u t e t o t h e u n i v e r s a l i t yo f s c i e n c ec a l c u l a t i o ns c i e n t i f i c ,e c o n o m yd e c i s i o na n dt h ed e v e l o p m e n to f n a t i v es o f t w a r e b a s e do nt h es t a t i s t i c a l c a l c u l a t i n g s o f t w a r e p r e s e n t i n ga n dd e s i g n i n gb yp r o f h e n g q i n gt o n g ,t h i s t h e s i s m a i n l y r e s e a r c h e so nt h ei n t e r f a c e s a m o n gd e s k t o p a p p l i c a t i o n s ,d a t a b a s ea n dd a t aw a r e h o u s ea n da i m sa tp r o m o t i n ga n di m p l e m e n t i n g g e n e r a li n t e r f a c e sr e f e r r i n gt oa b o v e a u t h o r s y n t h e s i z e s d a t a b a s e ,d a t aw a r e h o u s ea n d i t si n t e r f a c e t e c h n o l o g y , p r o g r a m m i n gl a n g u a g e ,e t c ,r e s o l v e sa b o v e - m e n t i o n e dp r o b l e m s ,m e a n w h i l e ,a u t h o r i m p l e m e n t s t h es o f t w a r et oa c c e s sh e t e r o s t r u c t u r ed a t a b a s e so f a l lk i n d sa n dr e a l i z e st h e g e n e r a li n t e r f a c e so f t h ed a t aw a r e h o u s ei nc o m m o nr i s es u c c e s s f u l l y , a l s od i s c u s st h e s t a t i s t i c s a n a l y s i sp r o c e s sb a s e do nd a t a b a s ea n dd a t aw a r e h o u s e b yt h i sw o r k ,t h e s o f t w a r en o wc a ne x t e n s i v ei t sa p p l i c a t i o nf i e l d se a s i l y k e y w o r d :d a t a b a s ec o n n e x i o n t e c h n o l o g y ;d a t a w a r e h o u s ec o n n e c t i o n t e c h n o l o g y ;d a t am i n i n g ;s t a t i s t i c s i i 武汉理工大学硕士学位论文 第1 章引言 1 1 课题研究的目的和意义 数据分析软件主要完成概率统计计算、运筹优化计算、质量管理、经 济预测与决策、代数计算、微分方程数值计算、图像数据分析计算、数据 校验、小波分析、大偏差分析、数据挖掘等数据分析计算任务,以概率统 计计算为主。本项目不仅提供全面系统的通用型软件,而且提供大型计算 函数库,它可以由用户方便地加工成专用分析计算功能模块或专用嵌入式 软件。项目意义主要表现在如下4 个方面。 1 ) i t 产业基本上是作数据变换与传输的工作,在其基础上的数据分析 工作显得尤为重要 良好的数据分析功能模块嵌入信息传输系统,可以使信息传输更加安 全有序,管理层对信息流的基本特征更加心中有数。 声音识别系统的主要数学原理是相关分析、聚类分析与判别分析,建 立在大型数据库和数据挖掘基础上的大型声音识别系统,对国家安全具有 重要的意义。 国际互联网络在给人们获取无限信息带来方便的时候,也给社会带来 了不少麻烦,对互联网络信息流进行统计分析十分重要。人们已经能够在网 络关键处设立过滤器和分析设备,建立在统计分析上的过滤分析工作将会 做得更好。 2 ) i t 产业之外,工业、农业、地质、水文、地震分析预报、医药卫生、 人口控制、金融证券、保险、经济分析与预测等几乎所有的现代经济领域 和科学技术领域都需要做数值计算和数据分析( 尤其是统计分析) 工作,都 需要做数据分析计算软件 工业统计、农业统计、卫生统计、人口统计等等,都是普遍的日常性 武汉理工大学硕士学位论文 的工作,都需要统计计算软件。 数学在地质科学领域处于相当重要的位置,地质数学已经成为地质科 学界重要的研究领域和子学科,数理统计学在其中占据重要的位置。地质 数学离不开数据分析软件。 医药筛选工作、病因分析工作、对于保护人类健康至关重要,而这些 工作离不开数据分析计算软件。 金融证券分析所需要的数学工具越来越复杂了,金融数学已经成为数 学界的一个重要的跨学科的热门研究领域。其中既有许多计算工作,也提 出许多新的计算问题,例如组合证券最优化的大规模数据计算问题。这些 都离不开数据分析计算软件。 经济预测和决策的科学化与定量化,是现代经济研究工作的发展方向, 对于保证经济的正常运行十分重要。经济预测的数学模型也越来越复杂, 有线性的、非线性的,有非参数的、半参数的、联立方程组的,有动态的, 还有混合的。新的经济预测与决策、计量经济学的计算问题,需要数据分 析计算软件。 3 ) 相对于文字处理( 如w p s ,w o r d ) ,数字处理软件对于经常需要数字 处理的工作的部门同样非常重要,而目前的数字处理软件( 如e x c e l 等) 几 乎全部为国外产品 数字处理工作包括数据特征的取得、数据的关系运算、数据的查询、 数据的图像显示、数据适合模型的选择、数据校验、数据的修正补充等等。 建立在数据仓库和数据挖掘技术基础上的数据处理工作,在今天信息爆炸 时代显得尤为重要。 4 ) 积极开发国产大型数据分析计算软件,对于我国的经济决策、技术 进步、科学研究、高等教育的相关工作,对于确保国家和单位的数据安全, 对于确保数据分析工作独立自主地紧跟科研工作世界前沿水平,都有重要 的意义 目前美国有9 多种流行的统计计算软件,主导软件是s a s ,s a s 软件容 2 武汉理工大学硕士学位论文 量大( 包括数理统计、运筹学、质量管理、s a s 语言平台、数据库系统、说 明文字等,通用软件光碟约2 0 0 m ) ,历史久,权威性高,但是它的基础部分 是7 0 年代开发的,需要用户编程,即使已经熟悉统计学的用户也需要掌握 s a s 软件,还需要单独学习培训,这并不符合最新的软件设计思想。s a s 软 件价格也比较高,通用软件光碟初次购买每套需要人民币6 0 0 0 元,以后每 年仍需交人民币1 7 0 0 元,中小用户难以接受。国家统计局已经斥资购买了 s a s 软件的本系统使用权。但是由于s a s 软件的学习使用困难,湖北省统计 局、武汉市统计局都愿意使用我们研制的中文菜单统计计算软件。 美国其他几个统计软件如s p s s 、t s p 、s t a t e 等是采用菜单傻瓜式的操 作,但是内容量小,专业水平不高,例如它们的回归模型一般不超过1 0 个, 而童恒庆教授研制的软件里回归模型有4 0 多个。美国这些软件都是英文。 正如我国的计算机界正在研制有完全知识产权的操作系统、c p u 一样,我们 也需要研制有完全知识产权的数据分析计算软件和数字处理软件。 1 2 课题技术国内外发展概况及水平分析 由于数值计算软件每一模块每一子程序都需要很深的数学知识,并且 大部分内容需要对数学专业前沿理论研究领域的透彻理解,它的研制只有 依托高等学校。童恒庆教授研制的中文菜单傻瓜式大型统计计算软件,研 制前期工作较好,已经掌握软件制作的主要技术细节,初步形成产品,需 要解决的问题有把握通过技术攻关,软件市场前景良好。目前s a s 软件在 国内大力开拓市场,有的单位在积极办班推广s a s ,我们的国产统计计算软 件如果不能尽快完善成熟,将失去市场份额而夭折,所以尽快立项资助以 期尽快形成竞争力强的产品具有迫切的意义。 我国对于f o r t r a n 、t u r b oc 的数值计算在若干年前已经形成初步的函 数库,近几年童恒庆教授研制了对c + + 数值计算函数库已经基本上建立a 武汉理工大学硕士学位论文 1 3 研究开发目标完成后的技术水平及技术指标 本课题旨在瞄准软件市场,赶超世界水平,立足九十年代,博采各家 之长,取代进口产品,填补国内空白。软件从内容到技术和技术指标都有 非常明确的赶超目标:s a s 。比s a s 的改进之处在于:面向对象编程,菜单 傻瓜式操作,无需懂得编程语言:即时提示,无需单独的厚厚说明书;显 示中间计算过程,有利于解释问题及计算结果;中文,无需翻译。 软件可以对国内已经出版的数理统计学、运筹学、质量管理的权威著 作中需要计算的基本内容进行菜单傻瓜式计算和图像显示,同时,我们的 函数库和软件将要包含我们自己在国际杂志上发表的许多研究成果,这些 成果处于本研究领域国际前沿水平,例如我们提出了半参数回归模型族与 曲线预测的概念,并构思了比较完整的实现方法,解决了一系列曲线预测 的基本问题;提出了非参数经济系统的概念及其状态密度曲线预测问题: 在回归计算中引进并改进了p o w e l l 算法:提出了评估模型与凸集间的交互 投影算法等等。 1 4 本文简要内容 在已经开发成功的统计软件的基础上完善这样的数据分析软件( 研究 在数据库与数据仓库下的统计分析问题) 。 本文先介绍软件的主要功能和计算过程,在此基础上引入数据库与数 据仓库的接口问题,在第三章中,主要介绍数据库接口技术及其实现,其 中主要介绍了数据库数据存储格式转换为文本文件格式的过程,通过本模 块,原本不能访问数据库数据的软件可以访问不同数据库格式的数据,如 o r a c l e 、s y b a s e 、m i c r o s o f ts q ls e r v e r 以及为任何符合o d b c 的数据源提 供了一致的a p i 接口,这意味着访问上述任何一种数据库格式的数据无需 修改源代码。另外,介绍了在数据库下的统计分析过程,通过对证券投资 风险的回归分析,以具体示例讨论了数据库下的统计分析过程。第四章主 要介绍数据仓库的过程、组件、接口技术、设计过程、数据仓库的数据转 4 武汉理工大学硕士学位论文 换、以及数据分析前端工具。然后在数据仓库的接口技术的分析的基础上 主要介绍数据仓库的通用查询接口的实现过程,可以将查询的结果数据保 存为文本文件格式的数据,或者是数据库数据。在此基础上,还着重讨论 了数据仓库下的几种分析工具,作为本文讨论的重点的数理统计分析软件 是数据仓库下其他几种分析( o l a p 、数据挖掘等) 工具的有益补充,使得 数据仓库下的分析功能更加完善。 武汉理工大学硕士学位论文 第2 章软件系统简介 2 1 系统的主要功能 本系统的基本功能:数值分析、多元分析、回归分析、时序分析、 显示数据图像。由用户输入原始的计算数据文件和运行时参数,通过系统 的计算,将结果文件保存到存储器,并且以友好的界面呈现在眼前。 2 2 系统的数据处理过程 由于本文主要是研究软件系统关于数据库与数据仓库的接口问题,所 以,主要从数据的输入入手,包括例资料的计算、文本文件数据的计算、 数据库数据的计算、数据仓库数据的计算: 1 、例资料的计算 查找到所需要的菜单,点击开始计算的按纽即可。 此时在数据输入框中自动显示的例数据文件,在参数控制框中自动显示 的示例控制参数集。每个程序都准备好了一个例子,以便用户照葫芦画飘。 2 、文本文件数据的计算 查找到所需要的菜单,确定使用自己的数据文件,在数据输入框中自己 输入数据( 或者选择已有的数据文件) ,修改计算控制参数集( 屏幕上有控 制参数的意义与选择范围的提示) ,然后点击开始计算的按钮即可。 3 、数据库数据的计算 用户先进入数据库数据的导入菜单,在这个功能模块中,在数据库框 中选择所要计算的数据库名称,在下面的数据库表中选择所要计算的数据 库表,可以对数据库表进行适当的编辑,然后进行转换,将所选择的表数 据转换为文本文件格式的数据( 即本软件系统能识别的数据文件格式) ,最 后,在计算控制参数集中做相应的修改,就可以进行计算了。 6 武汉理工大学硕士学位论文 4 、数据仓库数据的计算 先启动多维数据库查询系统,然后连接o l a p 服务器,提取立方体元数 据,接着进行查询的建立和执行m d x ,然后将查询的结果保存到指定数据库 或者直接转换到文本文件中,输入到统计分析软件进行统计分析。 7 武汉理工大学硕士学位论文 第3 章数据库下的统计分析 3 1 数据库接口技术 o d b c 开放式的数据库连接,是m i c r o s o f tw i n d o w s 开放服务体系 的一部分,是数据库访问的标准接口。它建立一组规范,并提供一组对数 据库访问的标准a p i ( 应用程序编程接口) ,使应用程序可以应用o d b c 提供 的a p i 来访问任何带有o d b c 驱动程序的数据库。o d b c 已经成为一种标准, 目前所有关系数据库都提供o d b c 驱动程序,但o d b c 对任何数据源都未作 优化,这也许会对数据库存取速度有影响;同时由于o d b c 只能用于关系数 据库,使得很难利用o d b c 访问对象数据库及其他非关系数据库。使用o d b c 连接数据库时,提供了三种d s n :用户d s n 、系统d s n 、文件d s n 。用户d s n 只能用于本用户,即建立此d s n 的用户;系统d s n 和文件d s n 之间的区别 只是在于连接信息的存放位置,系统d s n 存放在o d b c 存储区里,而文件d s n 放在一个文本文件中。 推出o d b c 之后,微软又推出了o l ed b 。0 l ed b 是一个底层的数据访问 接口,它基于c o m 接口。o l ed b 对所有文件系统包括关系数据库和非关系 数据库都提供了统一的接口。这些特性使得o l ed b 技术比o d b c 技术更加 优越。现在微软已经为所有o d b c 数据源提供了一个统一的o l ed b 服务程 序,叫做o d b co l ed bp r o v i d e r 。 现在一些基于w e b 数据库的软件开发大多采用a d o ( a c t i v e xd a t a o b j e c t ) 技术。这是微软最新的数据访问技术,用来同新的数据访问层o l e d bp r o v i d e r 一起协同工作。它是一个应用程序层次的界面,与数据库通信 时还是用o l ed b 。a d o 封装了o l ed b 中使用的大量c o m 接口,对数据库的 操作更加方便简单。 同时其他的数据库接口还有s u n 公司的j d b c j a v ad a t a b a s e 8 武汉理工大学硕士学位论文 c o n n e c t i v i t y ( j a v a 数据库连接) 、j d b c o d b cb r i d g e 。它们主要应用用于 j a v a 程序和j s p 程序中,前者可用于访问提供j d b c 驱动程序的数据库,而 后者可访问所有带有o d b c 驱动程序的数据库。 3 2 数据库接口的实现 1 、转换数据库数据为文本文件软件的设计 由于原有的统计分析软件与数据库的接口存在很多的不足,基本上不 能够从数据库中获得数据,而是从文本文件中获取数据。在初始阶段,编 写一个小型软件将数据库中的数据转换为原有的统计分析软件专用数据格 式。该软件的主要作用是将各种不同类型的数据库中的数据转化为文本数 据格式,并存贮为标准的文本数据格式文件,这样原有的统计分析软件就 可以对该文本数据文件进行统计分析。下面主要介绍该软件的实现方法和 实现思路。 考虑到统计分析的数据要有一定的代表性,所以应该只提取数据库中 的相关数据,因此软件应该将数据库中的有用的数据提取出来,然后将提 取出来的数据转化成文本数据文件,以便统计分析软件的识别和使用。 由于在此阶段,并没有使用到数据挖掘的相关技术,所以该软件在提 出数据的过程中基本上是通过用户的需要来选择数据库中的相关数据的。 具体的实现方法是用户通过软件界面上的选择和查询选择项来选择数据库 中的数据的,然后该软件从数据库中查询符合用户设置的查询条件的数据, 并转化成文本文件,然后存贮到具体的存贮介质上。该软件的实际基本流 程如下: 9 武汉理工大学硕士学位论文 l 转换为文本数据文尊,并存贮到存贮介质上 冈 i - j 1 0 武汉理工大学硕士学位论文 2 、软件的数据库检索 由于要实现将不同类型数据库的数据转为文本数据文件,要求该软件 能够检索出本机或者网络上的各种类型的数据库,并可以将这些数据表中 的数据表列举出来以供用户选择,当然用户可以选择特定类型数据库的数 据表来转换为文本数据文件。 该软件在程序启动时,是通过检测数据库别名来检索数据库的,如果 一个数据库已经注册到系统中,则该软件可以自动检测到该注册的数据库 的别名,并将该数据库别名添加到软件界面上的数据库列表中以供用户选 择,当然,如果一个数据库没有注册,用户可以直接选择该数据库源文件, 软件可以根据该数据库源文件的数据库扩展名和数据库驱动程序来识别该 数据库中的数据表,并将该数据库中的数据表添加到软件界面中的对应的 数据库的数据表列表中。 3 、将数据库中的数据格式转换的过程 该软件的主界面如下 在该软件启动时,可以自动检测到所有注册的各种类型的数据库的别 l l 武汉理工大学硕士学位论文 名,并将这些数据库别名添加到数据库列表选项中,如下图所示 在该列表中选择某一数据库,例如选择列表中的d b d e m o s 数据库,该 数据库为通过o d b c 注册的p a r a d o x7 类型的数据库别名,选择了该数据库 后,数据表列表中自动的将该数据库对应的数据表添加到数据表列表中, 如下图所示: 当用户选择了其中的某一个表后,软件将在界面上显示该表中的所有 记录和该表中的记录数目。如图所示: 武汉理工大学硕士学位论文 此时用户可以设置需要转换数据的条件,该条件可以组合选择。具体 的条件用户可以按照需要来设置。在设置条件时,可以设置选择全部记录 还是部分记录,也可以设置是模糊查询还是精确查询,用户还可以选择部 分字段进行转换。 用户设置了转换条件后,可以先通过转换预览来查看转换后的文本文 件的结构和内容,如下图所示: 转换后文本文件的内容和结构是统计分析软件能识别的文本文件格 式,如果用户对转换后的内容满意,则可以将转换后的文本文件存贮到相 关的存贮介质。 以上是以一个数据库中的一个数据表为例说明了将数据表中的部分或 者全部数据转换为统计分析软件可以识别的文本文件的基本过程。当数据 库中的数据转换为文本文件后,统计分析软件就可以读取该文本文件进行 统计分析,从而实现了统计软件和数据库的简单接口,使得原有的统计分 析软件在适用性和可操作性上有了很大的改进,当然由于没有使用到数据 仓库和数据挖掘等高级技术,使得统计分析软件和数据库的接口仍然存在 不足的地方,需要进一步的改进和完善,因此,后面的介绍中将使用数据 仓库技术来实现统计分析软件和数据仓库中数据的接口。下面介绍数据库 下的统计分析具体过程。 武汉理工大学硕士学位论文 3 3 数据库下的统计分析 下面先介绍资本资产定价模型( c a p m ) 与证券投资风险回归分析相关概 念,然后从具体数据库中导出数据来进行统计分析。 3 3 1 资本资产定价模型( c a p _ ) 与证券投资风险回归分析 股票投资风险一般指投资的未来收益的不确定性,即实际收益率可能 偏离预期收益率的幅度。1 9 5 2 年,芝加哥大学的h m a r k o w i t z 教授在其发 表的资产组合选择一文中,首次采用股票收益率历史资料的方差作为 度量投资风险的指针。他将投资风险分为系统风险与非系统风险两类。系 统风险如购买力风险、利率风险、政策风险、市场风险等,与证券市场的 整体运动相关联,不能通过投资分散化加以消除。非系统风险如公司破产 风险、流动性风险、违约风险、管理风险等,可以通过投资分散化即同时 投资于多种股票而加以削弱。在投资者总是期望效用最大化的假设基础上, m a r k o w i t z 建立起投资决策的均值( 收益) 一方差( 风险) 模型。在这个模型 里,复杂的投资决策问题被简化为均值、方差的二维选择,即在相同的期 望收益条件下,投资者应选择风险最小的证券组合;而在相同的投资风险 下,投资者应选择预期收益率最大的证券组合。 w s h a r p e 教授在m a r k o w i z 均值一方差模型基础上建立了均衡的证券 定价理论,即著名的资本资产定价模型( c a p i t a la s s e tp r i c i n gm o d e l ) , 简称c a p m 。它可以简要推导如下( 仔细的经济假设这里未能述及) 。 设证券a 、b 的收益率分别为r a 与r b ,其方差( 风险) 分别为盯j 与盯;, 它们的投资组合p 的收益率为 = x _ + x b b ( 3 1 ) 这里x a + x b = l ,x a 与x b 分别为a 与b 的投资比例。使用概率论基本公 式:e ( a x + b y ) = a e x + b e y ,d ( a x + b y ) = a 2 d x + b 2 d y + 2 a b c o v ( x ,y ) ,则该组合的 期望收益率与风险为: e 。= x e _ + 工b e 3 2 武汉理工大学硕士学位论文 盯:= x j 盯j + x 刍2 + 2 x j x 口p 们盯 盯口 ( 3 _ 3 ) 当r a 与r b 完全正相关( pa b = i ) 或完全负相关( pa b = 一1 ) 时, 仃,= l x 一盯j 工8 盯口i ( 3 4 ) 在平面直角坐标系( op ,e ( r p ) ) 上,a ,b 是两个固定的点,它们的横 坐标代表它们的风险,纵坐标代表它们的收益。( 3 2 ) 与( 3 4 ) 结合,令参 数0 = x a ,x b = l 一0 ,则投资组合p 的收益与风险随0 变化,为经过a ,b 两点的直线段。 f 图3 1 线段与e ( r p ) 轴的交点f 为无风险组合的收益。若r a 与r b 不相关,p a b = o , 则 r e ( r p ) = o e ( r a ) + ( 1 一o ) e ( r b ) ( 3 5 ) 【盯,: 0 2 口。2 + ( 1 - 口) 2 盯; ( 3 6 ) 为一条经过a 、b 的曲线。此时一般不可能达到无风险收益,但可以确定最 小风险收益率在c 点( 见图3 2 ) 。 e ( r 口) 武汉理工大学硕士学位论文 图上可见,b 点风险小收益率低,a 点风险大收益率高,b 与a 的组合 可以创造出比b 点还低的风险,却有较b 点高的收益。 现在考虑有一无风险证券f ,其收益率r f 在f 点。将f 与证券组合p 再组合起来,则任何一个明智的组合都将位于f 点到曲线a c b 的切线上( 图 3 3 ) 。这从比较切线f m 与任一割线f d 即知。 e ( r d ) 图3 3 这条切线称之为资本市场线,其点斜式方程为 e ( ) = r r + 盯p ( 3 7 ) 以m 点坐标代入可求得切线斜率为 l :墨虹! 二尘 ( 3 8 ) ? o u 另一方面,m 作为证券a 与b 的证券组合,它已成为一个衍生的证券, 它可以与a 与b 的另一个衍生证券再组合起来,有参数方程 re ( 0 ) = 8 e “) + ( 1 一目) e ( ) ( 3 9 ) 。盯,:6 9 :砰+ ( 1 一目) z 盯矗+ 2 口( 1 一口) p 。吼盯。廿 ( 3 1 0 ) 它在m 点的切线斜率为( 参数式方程导数公式华= 羔) 1 6 武汉理工大学硕士学位论文 j 到:墨盟二垒虹21 打p 乙( 耐一( 1 - 口) 而+ ( 1 2 0 ) p m 盯,仃”) 7 c r p l ( 3 1 i ) :磐兰盟:丝立堕 一o - m p 耐u | 。hp 姒u i u m 它与( 3 8 ) 求得的斜率应相等,即 墨! 鱼! 二垒:生堡2 二墨! 垒! ( 3 1 2 ) o mp m o l o 推理得: e ( ,i ) 一r f = p w ! l ( e ( ) 一乍) ( 3 1 3 ) a 盯 因为c o y ( r i ,r m ) = pi m oiam ,所以若以bi 记上式右边系数,则 届:p 旦:c o v ( r f r u ) ( 3 1 4 ) 盯 ,o t o m 而我们推导得的结果( 3 1 3 ) 成为 e ( ) 一r p = 届( e ( ,k ) 一r e ) ( 3 1 5 ) 进一步将上式写为 e ( ) = r v = 届( e ( ) 一o ) ( 3 1 6 ) 或 e c r , ) = 屈e ( ) + ( 1 一属) r r ( 3 1 7 ) 这些式子就是c a p m 的数学表述,都有非常丰富的经济学解释,这里不 能仔细描述。简要说来,它们表示证券i 承担风险得到的报酬为市场组合 承担的风险得到的报酬的比例数bi 正好是证券i 对市场组合风险的贡献 率。系数9i 用来度量单个证券i 的风险,度量证券i 为有效证券组合带来 相应的效益,有着特别重要的意义。 下面考虑b 系数的估计问题。一般我们考虑证券i 的收益率r i 与市场 组合收益率州之间的线性关系,加上误差项,便引入了一元线性回归模型 = a 。+ 6 j + ,e ( 岛) = 0 ,c o v ( r u ,占。) = 0 ( 3 1 8 ) 两边取数学期望得: 武汉理工大学硕士学位论文 e ( ) = 口,+ 屈e ( ) ( 3 1 9 ) 可见 a 。= 七一屈o ( 3 2 0 ) 这里( 3 1 9 ) 正是c a p m 所表述的内容,它给我们提供t n 定b 系数的办法。 对( 3 1 8 ) 进行了t = l ,2 ,t 次观测得 矗= a n + 尻r m , + s l t ,t = 1 , 2 ,t ( 3 2 1 ) 其中第i 种个股收益率r i t 可如下计算 r i , = ( 只一只( h ) + 仇) 只( h ) ,t = l ,t ( 3 2 2 ) 其中p i t ,p i ( t - 1 ) 分别表示股票i 在第t 个时段与第t - 1 个时段的收盘价, d i t 为第t 个时段的股利收入。股票市场组合收益率r m t 可取股票综合指数 按下式计算 r u , = ( 一- 1 ) l i ,t = 1 ,t ( 3 2 3 ) 式中i t 与i t - i 分别为第t 个时段与t - 1 个时段的股市综合指数。有了r i t 与r m t 的资料,我们就可以按一元线性回归的办法计算出bi 的估计值了。 按照c a p m 的理论,在回归模型 ,= 口+ 属,k + 岛,e ( 毛) = 0 ,d ( e i ) = 盯。 ( 3 2 4 ) 中,系数属不仅度量了证券i 对证券组合的收益关系,而且度量了证券i 的系统风险与随机风险。事实上,对上式两边取方差得 砰= 所2 + 盯2 ( 3 2 5 ) 即表示证券i 的风险仃? 分解为两部分,系统风险群盯磊与非系统风险盯2 。 它们都是可以测定的。 3 3 2 数据库下的统计分析的过程 从证券投资数据库中提取1 9 9 6 年上证a 股数据表作实证研究。下面表 中前5 列分别位四川长虹、青岛海尔、延中实业、永生制笔、嘉丰股份的 股票价值走势,最后一列是上证a 股综合指数。按年底收益率排序,四川 武汉理工大学硕士学位论文 长虹为第一名,青岛海尔为第二名,延中实业是中游,第1 1 9 名,永生制 笔为第2 0 2 名,嘉丰股份是下游,第3 0 1 名。全年5 1 周,5 1 组资料。 1 9 9 6 年上证a 股表 表中前五列分别为四j i i 长虹、青岛海尔、廷中实业、永生制笔、嘉丰 股份的股票价值走势,最后- - n 是上证a 股综合指数。按年底收益率排序, 四川长虹为第一名,青岛海尔为第二名,延中实业是中游,第1 1 9 名,永 生制笔第2 0 2 名,嘉丰股份是下游,第3 0 1 名。全年5 l 周,5 1 组数据。 通过数据库转换接口可以直接选取四川长虹和上证a 股两列数据进行 转换如下:( 保存为文件l 1 0 1 2 d ) y 数据列 x 数据列 四川长虹 1 0 0 0 0 0 0 1 0 0 3 5 0 0 9 9 6 4 0 0 9 8 2 5 0 0 1 0 1 8 4 0 0 1 0 2 7 6 0 0 1 0 7 1 7 0 0 上证a 股 5 6 9 7 6 8 0 5 5 0 1 7 5 0 5 6 2 6 8 5 0 5 3 6 4 4 8 0 5 4 1 7 8 0 0 5 5 3 7 9 0 0 5 4 1 7 7 8 0 1 9 武汉理工大学硕士学位论文 1 1 4 5 2 0 0 1 1 4 5 8 0 0 1 1 8 3 8 0 0 1 1 6 3 9 0 0 1 1 6 3 4 0 0 1 1 9 9 6 0 0 1 2 2 6 1 0 0 1 5 3 1 7 0 0 1 6 1 4 0 0 0 1 5 7 5 8 0 0 1 7 1 7 9 0 0 1 7 5 0 7 0 0 1 8 0 3 7 0 0 2 1 9 4 4 0 0 3 0 1 ,4 o 3 2 5 2 7 0 0 3 4 6 1 8 0 0 3 8 5 9 7 0 0 4 1 2 6 0 0 0 3 9 2 4 0 0 0 3 9 8 8 7 0 0 3 7 2 3 6 0 0 3 8 4 4 6 0 0 3 8 0 3 0 0 0 3 6 4 1 3 0 0 3 9 4 1 4 0 0 3 9 2 6 5 0 0 3 8 2 6 9 0 0 4 0 1 6 4 0 0 5 0 3 8 4 0 0 4 9 6 0 2 0 0 4 9 5 4 9 0 0 4 8 1 1 2 0 0 4 8 5 7 0 0 0 4 6 6 2 1 0 0 4 9 9 8 2 0 0 4 4 8 8 6 0 0 4 5 6 6 3 0 0 4 4 4 8 2 0 0 4 8 6 3 7 0 0 5 2 6 3 2 0 0 4 6 5 6 2 0 0 4 8 2 4 2 0 0 4 8 1 5 1 0 0 6 0 3 0 9 6 0 5 9 3 6 9 6 0 5 8 0 5 4 9 0 5 9 0 1 7 0 0 5 8 5 5 8 3 0 6 0 4 4 8 3 0 6 0 6 9 3 5 0 6 4 8 9 2 3 0 7 4 0 7 2 3 0 6 7 5 1 3 0 0 6 9 2 5 0 0 0 7 4 2 2 7 5 0 6 6 5 3 0 0 0 6 6 9 1 6 4 0 7 6 0 。1 9 5 0 8 1 2 3 1 4 0 8 3 1 7 0 9 0 8 4 0 9 5 7 0 8 2 0 6 1 5 0 8 3 3 2 5 4 0 8 9 8 0 7 7 0 8 8 6 4 9 9 0 8 8 6 3 6 6 0 9 3 4 9 5 9 0 8 9 4 2 3 2 0 8 3 9 7 9 2 0 8 5 0 4 3 6 0 8 3 5 1 2 6 0 8 1 5 4 4 4 0 8 5 1 4 1 7 0 9 3 2 2 0 5 0 9 0 8 7 0 3 0 9 6 6 7 1 1 0 9 9 1 6 7 7 0 1 0 5 4 3 6 5 0 9 7 9 3 9 2 0 9 7 1 8 6 5 0 1 0 0 2 9 2 9 0 9 9 6 6 1 6 0 1 1 1 1 6 0 8 0 1 2 8 9 1 1 1 0 1 0 5 0 0 0 9 0 9 3 8 5 7 7 0 9 7 5 2 8 9 0 将转变后的数据文件导入到统计软件中,输入相应的参数,观测数据 点为5 1 ,该时期该个股股利收入为0 。显示收益率如下 武汉理工大学硕士学位论文 下图 个股收益率 0 0 3 5 0 0 7 1 0 1 4 0 股市收益率 一0 3 4 4 0 2 2 7 一。0 4 6 6 1 1 5 3一1 8 5 5 0 3 6 1 一1 0 6 1 0 0 1 90 3 9 1 现在作线性回归显著检验,计算t ,f 统计量,相关系数r 输入参数显著性水平0 1 ,自变量x = 0 0 1 3 0 计算回归方程:y = 0 0 2 7 9 + 0 5 5 6 4 x 残差平方和q = 0 2 9 1 7 误差平方的估计:0 0 0 6 0 标准方差= 0 0 7 7 2 t 统计量:3 3 3 4 7t 临界值:1 2 9 9 f 统计量:1 0 8 9 3 0f 临界值:2 8 1 3 相关系数r :0 4 3 0 1r 临界值( 0 0 1 ) 0 0 0 0 1 4 线性回归预测显著性水平:0 1 0 0 下面是四川长虹数据对上证a 股综合指数的计算过程。拟合效果图如 在文件l 1 0 1 2 d 里,第一列存入四川长虹的股票价值走势,第二列存入 上证a 股综合指数。程序先分别按公式( 3 2 2 ) - 与( 3 2 3 ) 计算各自收益率。在 本次测算中,一律取股利收入为0 。程序将两列收益率资料作一元线性回归: = a n + 反r m , + 岛,t = 1 , 2 ,5 l 2 1 武汉理工大学硕士学位论文 算出,尼, 取c r 2 = n - l 1 宝t = j ( 一t ) 2 ,仃”2 = i j l 喜( 一2 ) , 仃? 2 丢了善( 一名) 2 ,7 2 寺善“2 善,柏2 南,从而测得四 川长虹股票在1 9 9 6 年的系统风险为0 0 0 1 3 5 ,非系统风险为0 0 0 5 9 5 ,个股 总风险为o 0 0 7 3 0 ,系数为0 5 5 6 4 1 ,个股平均周收益率为o 0 3 5 1 ,上证 所市场平均周收益率为0 0 1 2 9 5 。 我们将5 个个股的测定结果列表如下: 四j i 【长虹青岛海尔延中实业 永生制笔嘉丰股份 系统风险所以 0 , 0 0 1 3 50 0 0 1 8 9 0 0 0 2 4 30 0 0 0 7 90 0 0 2 2 8 非系统风险盯2 0 0 0 5 9 5 0 0 0 3 4 10 0 0 4 8 80 0 0 3 4 10 。0 0 3 7 2 个股总风险盯? 0 0 0 7 3 00 0 0 5 3 00 0 0 7 3 1 0 0 0 4 2 00 0 0 6 0 0 p 系数 0 5 5 6 4 10 6 5 8 5 50 7 4 6 9 00 4 2 5 6 90 7 2 3 3 7 个股平均周收益率f 0 0 3 5 1 0 0 0 3 2 1 50 0 1 1 7 40 0 0 5 4 6- o 0 0 0 4 1 市场平均周收益率 0 0 1 2 9 50 0 1 2 9 50 0 1 2 9 5 0 0 1 2 9 50 0 1 2 9 5 无风险收益率r f 0 0 6 2 8 90 0 6 9 1 00 0 0 8 2 90 0 0 0 1 70 0 3 5 4 3 这些资料严格满足两个方程。 e ) = + 属( e ( ) 一) 砰= 仃2 + 所矗 需要注意之点是,无风险收益率在个股之间是有差别的,简单地取作 银行利率将影响测算的准确性。其次,我们注意到投资者最关心的个股收 益率是由综合因素决定的,不能简单地认为它取决于哪一两个指针。 有了这些基本资料,你就可以结合自己的证券知识与风险偏好,利用 c a p m 模型,确定自己的投资组合。 上面的例子说明只需要把数据库中需要进行分析的数据导入统计分析 软件中,就能进行所需要的统计分析,而且统计分析的结果以相应的统计 分析图形来直观说明,有利于我们更广泛利用现有数据库中的数据来进行 必要的统计分析。 武汉理工大学硕士学位论文 第4 章数据仓库下的统计分析 数据仓库并非是一个仅仅存储数据的简单信息库,数据仓库实际上是 一个“以大型数据管理信息系统为基础的、附加在这个数据库系统之上的、 存储了从企业所有业务数据库中获取的综合数据的、并能利用这些综合数 据为用户提供经过处理后的有用信息的应用系统”。如果说传统数据库系 统的重点与要求是快速、准确、安全、可靠地将数据存进数据库中的话, 那么数据仓库的重点与要求就是能够准确、安全、可靠地从数据库中取出 数据,经过加工转换成有规律信息之后,提供给管理人员进行分析使用。 通过数据仓库可以从中提取很多有用的数据,并通过这些数据来分析 决策模型,将数据仓库的有用数据进行提取,输入到现有统计分析计算软 件中去,可以得到更加直观的效果,供数据仓库分析人员进行统计分析。 下面先了解一下数据仓库的过程便于进行与统计分析计算软件的接口 实现,在此基础上提出对数据仓库中数据进行分析的几种技术及其比较。 4 1 数据仓库过程( d a t aw a r e h o u s jn gp r o o e s s ) 从信息技术的观点来看,数据仓库关心的是在一个组织机构中将适当 的信息传送到适当的个人手中。这是一个正在进行的过程,而不是以前的 解决方案,并且需要不同的方法以满足面向事务系统开发工作的需求。 数据仓库是数据的集合,以对那些面向主题的、集成的、时间不同的、 非易失性的决策的管理工作给以支持。数据仓库关注的是概念( 如销售) , 而不是过程( 如提供发票) 。它包括从多种处理系统收集到的有关某一概念 的所有相关信息。信息进行定期收集和存储,并且是相对稳定的。 通过一致命名约定、测量、物理属性和语义,数据仓库对操作数据进 行集成。在数据仓库物理设计的第一步是确定应包括哪些主题领域,并开 发一套意见一致的定义集。这需要约见最终用户、分析员、高级管理人员, 武汉理工大学硕士学位论文 以了解所需信息的范围,并给出相应文档。在将逻辑处理转化成物理数据 仓库之前,必须对相关问题有彻底的了解。 在物理设计之后,是在运作系统基础上产生数据仓库。因为运作系统 和数据仓库包含不同的数据类型,所以将数据载入数据仓库需要进行数据 的转换:汇总、转换、解码、去除非法数据等等。这些过程需能自动完成 以便在变化的基础上也能完成:经常需要对源数据进行抽取、转换和移动 以满足数据仓库的商业需求。 在运作系统中,当存取数据时,数据应具有数值,并且数据是精确的。 例如,一个订单输入系统总是为手头存有的每一产品提供当前价格。这样 仅仅是时间稍有差别的两个查询所获得的价格就有可能不同。在数据仓库 中,数据表示在很长一段时期收集到的信息,作为某一特定时间点来讲是 精确的。因此,数据仓库包含有关商业关键领域的一系列“快照” ( s n a p s h o t ) 。 最后,信息用于浏览、分析和报告。有许多有助于分析的工具( 从简单 的用于写报表的程序到高级的用于数据挖掘的程序,包括我们所要使用的 数理统计分析软件) 。最后,分析程序使数据仓库过程的最终结果和数据仓 库设计的修改都能适应新的要求,并提高系统性能或允许进行其它新类型 的分析。由于这些变化,处理过程会重新开始,并延伸到数据仓库的整个 生命周期。 2 4 武汉理工大学硕士学位论文 4 2 数据仓库体系结构 目前已提出了许多方法,来简化在变化的基础上
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 汽修店一站式设备管理制度
- 海尔空调公司内部管理制度
- 烟草公司生活用品管理制度
- 物业公司各个制度管理制度
- 特殊学校专用设备管理制度
- 电力公司信息机房管理制度
- 监理检测仪器设备管理制度
- 租赁公司员工客户管理制度
- 水资源利用效率与生态系统服务功能关系研究-洞察阐释
- 环境数据驱动的生态安全预警系统-洞察阐释
- 2024 - 2025学年人教版三年级下册美术期末考试试卷及答案
- 上海嘉定区2025年公开招聘农村(村务)工作者笔试题带答案分析
- 2025长城汽车人才测评答案
- 幼小衔接写字教学安排
- 2025四川省安全员B证考试题库
- 消防工程专项竣工验收监理质量评估报告
- 驾驶员安全月试题及答案
- 科技创新与中国特色社会主义理论的结合心得体会
- 反假币上岗资格证书培训考试题库
- 2024年中考模拟试卷道法(北京卷)
- 2025届高考英语复习读后续写练习:纸报停刊后少年开启邻里简报之路+课件
评论
0/150
提交评论