




已阅读5页,还剩66页未读, 继续免费阅读
(计算机应用技术专业论文)基于灰色理论的数据挖掘在股票分析中的应用.pdf.pdf 免费下载
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
摘要 股市行情受到政治、经济、社会文化等多方面因素的影响,其内部规律非常复杂, 采用传统的预测技术预测效果并不理想。 针对股价( 股指) 具有非线性特性、股价数据具有高噪声特性等这样的问题,本研究 试图将数据挖掘技术和传统的灰色系统理论结合,应用基于灰色系统理论的数据挖掘 ( 称之为灰色数据挖掘) 技术来指导股票分析研究。 目前数据挖掘及灰色系统理论在证券分析中的应用,国内外学者做了不少研究,但 研究还不够深入,对实际应用有指导意义的研究还在不断的探索中。灰色数据挖掘作为 一种新的尝试和探索,本文在总结前人成果的基础上,应用一些成熟的数据挖掘技术并 结合灰色系统理论,对构建灰色数据挖掘体系作了深入的探索。作者将神经网络和g m 模型相结合构建了灰预测模型,对灰预测模型中的灰色神经网络模型进行了改进,并将 其应用在股票指数和股票价格预测中,做了实证的应用研究,得出了一些有意义的结论。 除此之外,还在灰关联模型、灰聚类模型的构建与算法上做了一些探索性的研究,为今 后在股票分析应用的研究奠定了基础。 这些研究既是对灰色数据挖掘应用的探索,也是对传统数理统计技术在证券分析中 应用的有益补充。 关键词:灰色系统理论;数据挖掘;灰色数据挖掘;股票预测 a b s t r a c t t h es t o c km a r k e ti si n f l u e n c e db yp o l i t i c a la n de c o n o m i ca n dc u l t u r a lf a c t o r s , t h ei n t e r n a ld i s c i p l i n ei s v e r yp r o f o u n d ,s ot h ep r e d i c t i o n r e s u l t so ft r a d i t i o n a l p r e d i c t i o nt e c h n o l o g ya r eu n s a t i s f i e d f a c i n gt h ee x i s t i n gp r o b l e m si ns t o c km a r k e tp r e d i c t i o n ,s u c ha st h en o n l i n e a r p r o p e r t ya n dh i g hn o i s ep r o p e r t yo fs t o c kp r i c e ( s t o c ki n d e x ) t h i sp a p e ra t t e m p t st o i n t e g r a t et r a d i t i o n a lg r e ys y s t e mt h e o r i e si n t od a t am i n i n ga n da p p l yt h el l e wh y b r i d m e t h o d ( m o d e l s ) w h i c hc a l l e di tg r e y d a t am i n i n gt od i r e c to u rs t o c ka n a l y s i s n o w ,g r e ys y s t e mt h e o r i e sa n dd a t am i n i n ga p p l i c a t i o nh a v ea c c o m p l i s h e d m a n ya c h i e v e m e n t s a th o m ea n da b r o a d ,a n dt h er e s e a r c hi sa l s oo n g o i n ga n d e x p l o r a t i n go ng u i d i n gp r a c t i c a la p p l i c a t i o n f o rg r e y d a t am i n i n gi san e wa t t e m p t t oe x p l o r e ,t h i sp a p e rw i l ti m p r o v e dt h ec o n c e p to fg r e y d a t am i n i n ga n dd e e p l y e x p l o r a t e d t h eb u i l do fg r e y d a t am i n i n gs y s t e m t h e p a p e r n o t o n l y b u i l d g r e y n e u r a l n e t w o r km o d e lc o m p o s e dn e u r a l n e t w o r km o d e lw i t hg mm o d e l ,b u ta l s o i m p r o v eg r e yp r e d i c t i o nm o d ea n da p p l yi m p r o v e dg r e y - n e u r a l n e t w o r km o d e li n s t o c kp r e d i c t i o na n dd r a w s o m em e a n i n g f u lc o n c l u s i o n s i na d d i t i o n ,t h ep a p e r i m p r o v eg r e ya s s o c i a t i o nm o d e la n dg r e y c l u s t e rm o d e lo fe x p l o r a t i o n ,s oi tw i l la p p l y i ns t o c kp r e d i c t i o nf r o mn o wo n ib e l i e v em ys t u d i e sa r en o to n l ya p p l i c a t i o ne x p l o r a t st ot h eg r e y - d a t am i n i n g , b u ta l s oa ? r i s e f u lc o m p l e m e n t a r i t yt ot r a d i t i o n a ls t a t i s t i c si ns e c u r i t i e sa n a l y s i s k e yw o r d s :g r e ys y s t e mt h e o r y ;d a t am i n i n g ;g r e y d a t am i n i n g ; s t o e kp r e d i e t i o n l l 长沙理工大学 学位论文原创性声明 本人郑重声明:所呈交的论文是本人在导师的指导下独立进行研究所取得的 研究成果。除了文中特别加以标注引用的内容外,本论文不包含任何其他个人或 集体已经发表或撰写的成果作品。对本文的研究做出重要贡献的个人和集体,均 已在文中以明确方式标明。本人完全意识到本声明的法律后果由本人承担。 作者签名 日期:加年牛月日 学位论文版权使用授权书 本学位论文作者完全了解学校有关保留、使用学位论文的规定,同意学校保 留并向国家有关部门或机构送交论文的复印件和电子版,允许论文被查阅和借 阅。本人授权长沙理工大学可以将本学位论文的全部或部分内容编入有关数据库 进行检索,可以采用影印、缩印或扫描等复制手段保存和汇编本学位论文。 本学位论文属于 1 、保密口,在年解密后适用本授权书。 2 、不保密团。 ( 请在以上相应方框内打“4 ”) 作者签名 彭夹 日期:孙6 年4 月日 导师签名:j - 社( ;日期:,缛中月2 日 i 1 1 研究背景 第一章绪论 证券是指各类记载并代表一定权力的法律凭证,它用以证明持有人有权依其 所持凭证记载的内容取得相应的权益。股票、债券、基金、提单、票据、保险单、 存款单等都是证券。r , 广义的证券分为证据证券、凭证证券及有价证券等,狭义的证券则是指有价 证券。有价证券是指代表一定的财产权、可自由让渡的证券,即表明证券持有人 根据券面所载财产内容可以行使权力的证券。一般是指货币证券和资本证券,更 多的时候又专指股票、债券之类的资本证券。 证券市场是指证券发行和买卖的场所。股票市场是证券市场的重要组成部 分,在证券市场体系中居重要地位。、因此本人在此文中把重点放在对股票市场的 研究上,针对股票的指数和股票价格选择基于灰色系统理论的数据挖掘模型进行 预测。 、 股票市场是一个典型的具有大量相互作用因素的强涨落复杂系统。理解这样 的动态复杂系统,是当前科学面临的一个重大挑战。理解股票市场的困难,不仅 在于它的内部因素的复杂性,更在于有许多难以捉摸的外部因素。即使是同一国 家甚至同一地域的两个市场,这些外部因素都可能有明显的不同。但股票市场的 某些观察量,如交易价格、成交量、交易频率和市场指数值的统计性质对于完全 不同的股票市场看起来却有令人惊讶的相似性。这意味着股票市场作为复杂动态 系统可能存在“普适”的行为与规律。如果能够找到这种“普适”的规律,肯定 对股票市场上的投资者有所帮助。 股票是市场经济的产物,股票的发行与交易促进了市场经济的发展。股票自 1 7 7 3 年在英国率先发行,至今已有二百多年。我国于1 9 8 5 年发行第一支股票, 现已拥有沪、深两大证券交易所,上百家证券公司,3 0 0 0 多个证券营业部,7 0 0 0 多万证券投资者。9 0 年代以来,计算机技术尤其是数据库技术和网络技术在股票 市场中得到充分应用,使得作为证券市场重要组成的股票市场更加蓬勃发展起来, 逐步成为证券业乃至整个金融业必不可少的组成部分,显示出强大朐生命力。 由于股市行情受经济、政治、社会文化等因素( 如发彳亍公司的经营状况和财务 状况、新股上市、利率水平、汇率变动、国际收支、物价因素、经济周期、经济 政策等) 的作用,其内部规律非常复杂,变化周期无序,同时我国资本市场投资者 结构具有特殊性,个人投资者的比例高达9 9 ,投资者个人心理状态不同,对股 票交易的行为可产生直接的影响,从而导致股价波动,使股价走势变幻莫测,难 j 、 以把握。 。 相对于机构投资者而言,个人投资者风险承受能力差,专业水平低,人数众 多,这对投资咨询服务的频度、强度、个性化和专业化提出了更高的要求。股民 尤其是非职业股民由于受时间、空间的限制,往往无法长期关注股市动态和发展。 所有这些都给股市预测提出了新的课题。股市预测是指以准确的调查统计资 料和股市信息为依据,从股市的历史、现状和规律出发,运用科学的方法,对股 市未来发展前景的测定。 股市预测梭不同的标准可以有不同的分类。按涉及的范围不同可分为:指数 预测和个股预测;按预测时间长短不同可分为长期预测、中期预测和短期预测; 按预测方法的不同可以分为定性预测和定量预测等等。 作为市场经济重要特征的股票市场,从诞生的那天起就牵挂着数以千万投资 者的心。高风险高回报是股票市场的特征,因此投资者们时刻在关心股市、分析 股市、试图预测股市的发展趋势。一百多年来,一些分析方法随着股市的产生和 发展逐步完善起来,如道氏分析法、k 线图分析法、柱状图分析法、点数图分析 法、移动平均法,还有形态分析法、趋势分析法、角度分析法、神秘级数与黄金 分割比螺旋历法、四度空间法等,随着计算机技术在证券分析领域的普及与应用, 不断推出新的指标分析法”1 。然而,严格讲这些方法仅仅是分析手段,还不能直 接预测股市的动态。此外,人们也试图用回归分析等统计手段建立模型来预测股 市。然而,利用传统的预测技术进行股市预测有一个最根本的困难,那就是待处 理的数据量非常巨大。由于股市的行情受到政治、经济等多方面因素的影响,其 内部规律非常复杂,某些变化规律的周期可能是一年甚至是几年,因此需要通过 对大量数据的分析才能得到,而传统的预测技术预测效果并不理想。 在信息爆炸的今天,人们迫切需要一种方法从大量的数据信息中提取并找到 有用的信息,数据挖掘技术就是在这种情况下诞生的。近十年问,数据挖掘技术 的研究工作取得了很大的进展,各种数据挖掘技术的应用极大地推动了人们分析、 处理大量的数据信息的能力,并为人们带来很好的经济效益,可见数据挖掘技术 在股市预测中将会有很大饷潜力,并且数据挖掘在证券行业得到了最全面的应用。 本论文选择骰票投资分析这。领域来研究,将灰色系统理论与数据挖掘技术相结 合建立对股票指数和股票价格的预测模型,并用实例进行分析。 社会、经济、农业、工业、生态等许多系统,是根据研究对象所属的领域和 范围命名的。但在控制理论中,人们常用颜色酌深浅形容信息的明确程度,如用 “黑”表示信息未知_ ,用“白”表示信息完全明确,用“灰”表示部分信息明确、 部分信息不明确。相应地,信息完全明确的系统称为白色系统;信息完全不明确的 系镜称魄糅氇系统;部盼信息明确、鄣分桔。息不明确的系统称为灰色系统。嘲。- , 灰色系统理l 谂的研究对象器- “都分信惠已知、部分信息未知”的“贫信息” 不确定系统,它通过“部分”已知信息的生成、开发,实现对现实世界的确切描 述和认识 。 :一 在人们的社会、经济活动或科研活动中,会经常遇到信息不完全的情况。股 票市场是一个j 典型的具有大量相互作用因素的强涨落复杂系统,有很多内部和外 部因素的信息不可知的情况。本论文将灰色系统理论与数据挖掘技术相结合应用 是本着取长补短的原则,因为大家知道数据挖掘所挖掘的数据是大量存在于数据 库、数据仓库、外部源文件中的海量历史数据了j 商对予那些样本数据量不大或有 残缺、样本数据整体上规律相当复杂,但在某一时间或空间内却呈现出有很强规 律的数据缺乏有效韵方法”,:灰色系统理论却可以弥补数据挖掘的这一缺陷。那 么为什么不单方面应用灰色系统理论到证券分析中呢? 因为灰色系统理论本身就 存在很多缺陷,只能适用于小样本、贫信息的不确定系统,对于那些缺乏规律性 ( 或者通过算子处理后仍然缺乏规律) 的数据表现很差。特别是针对波动性规律 的股票市场数据,应用的精确程度很低,但是数据挖掘领域的很多技术可以克服 这个问题。所以基于灰色系统理论的数据挖掘的思想精髓就是将灰色系统理论的 优点作用于数据挖掘领域,两者优势互补,使得发现的知识更加有效可信。 j 。 。 , 一 i 1 2 国内外研究综述 。 l_ 一 。 1 2 一预测方法综述 。 | 随着预测科学的发展和客观需要的增加,预测对象所涉及的领域非常广泛, 按预测对象的不同可分为社会预测、经济预测、科学预测、技术预测和军事预测 等领域;依据预测研究方法的不同,预测可分为定性预测、定量预测和模糊预测; 按预测的范围,预测可分为宏观预测、中观预测与微观预测;根据预测未来时间的 长短,可分为超短期预测、短期预测、中期预测和长期预测。 预测方法犬体上分为定性预测法、时间序列预测法和因果模型预测法。定性 预测法是在数据资料掌握不多的情况下,依靠入的经验和分析能力,用系统的、 逻辑的思维方法,把有关资料加以综合进行预测的方法。定性预测法包括特尔斐 法、主观概率预测法、。判断预测法等方法。时间序列预测法是依据预测对象过去 的统计数据,一找到其随时间变化的规律,建立时序模型,以判断未来数值的预测 方法,其基本忌_ 恩j 髫芷去的变化规律套持续至0 未莱:即未来是过去的延伸。时间 序列预测法包净曾时间序列平滑法、趋势外推法:季节变动预测法等确定型时间序 列韵预测方法和马尔柯夫法、随机型时问序麴的预测方法。因果模型预测法是把 所要领铡刮对篆耐其他有关因素联系起来进行分析,制定诬揭示因桌关系的模型, 然后根据模型进行预测。因果模型预测法包括回归分析预测法、经济计量模型法、 投入产出预测法等。由于时间序列预测法和因果模型预测法都是以统计资料为依 据,应用统计方法进行预测的,所以有时两者统称为统计预测。 到目前为止,已有近二百多种预测方法。1 9 8 7 年,l a p e d e s 和f a r b e r 首次将 神经网络引入到预测领域中,无论是从思想上,还是技术上都是一种拓宽和突破。 它解决了传统预测模型难以处理高维非线性、偏重定量指标、难以处理定性指标、 缺少自适应和自学习能力的预测问题。 1 2 2 股票分析预测方法综述 影响股票市场价格变化的根本原因和直接原因都是供求关系的变化。因此, 不同的专家有不同的见解,可分为两派,即基本分析派和技术分析派。 基本分析派认为影响股价的主要原因是基本因素,因此他们注重发行公司的 经营特征、经营状况、财务状况以及股利派发、管理决策、销售环节、竞争力等, 还注重研究社会的经济指标、经济政策以及与经济有关的政治因素等。技术分析 派则认为影响股价的主要因素是技术因素,因而他们注重研究影响股价变化的心 理因素。技术分析方法近些年来发展很快,特别是随着计算机的普及,各种分析 方法越来越多。技术分析法可以分为图像分析方法和统计分析方法,图像分析法 以图像为分析工具,统计分析法是对价格、交易量等市场指标进行一定的统计处 理。就股价走势预测的基本目标而言,技术分析派所采取的方法在预测股价的短 期趋势特别是在旧趋势向新趋势变化方面优于基本分析方法,而在预泐股价长期 趋势方面,基本分析法却优于技术分析方法。 因此,针对股票市场表现出的不同特点,人们提出了多种多样的分析和预测 方法,常用的分析和预测方法有下述几种1 ) 证券投资分析方法。这是市场分析家 常用的方法。2 ) 时间序列分析法。这种方法主要是通过建立股价及综合指数之间 的时间序列相关辩识模型,如自回归移动平均模型、齐次非平稳模型等来预测未 来变化。3 ) 其他预测方法。如专家评估法和市场调查法等定性方法、季节变动法、 马尔柯夫法和判别分析法等定量预测方法。4 ) 神经网络预测法。神经网络是一种 最新的时间序列分析方法。 传统的预测方法大都采用线性模型来近似地表达预测对象的发展规律。如最 常用的自回归移动平均模型预测,就是在时间序列平稳的假设基础之上,对其建 立线性模型,然后采用模型外推的方法预测其未来值。然而这些方法只适用于平 稳时间序列的预测。而实际应用中的时间序列往往是高度非平稳的时间序列,传 统的预测方法无法取得很好的效果。r e f e n e s 等人将神经网络预测方法和多重线性 回归方法在股票市场预测中的应用进行了比较研究,指出神经网络的平滑内插特 4 性使其能较好的拟合数据并能更好地泛化,其预测精度比统计预测方法有较大的 提高。d u r r a 和m a r q u e z 等人曾将神经网络与线性回归这两种方法做过比较,其 结论是神经网络能得到与线性回归相近或更好的结果。 目前数据挖掘以及灰色系统理论在股票分析中的应用,国内外学者都作了不 少研究,但是研究的层次还不够深入,所用到的挖掘方法也很有限,实际应用就 更少了。将一些成熟的数据挖掘技术结合灰色系统理论,在总结前人的成果的基 础上,提出了灰色数据挖掘的概念是作者本人的一种新的尝试和探索。 1 2 3 股价( 股指) 预测存在的问题 目前,股价( 股指) 预测存在以下问题: 1 股价( 股指) 的非线性特性 股价( 股指) 自身以及影响股价( 股指) 的各变量之间呈现非线性特性,因此要求 有强大的处理非线性问题的能力。已有的比较成熟的技术大多是解决线性问题和 单变量非线性问题。对于复杂的、一般的多变量非线性问题缺乏有效的分析工具。 确定性的线性关系只能产生简单的行为,确定性的非线性关系能产生混沌。股价 ( 股指) 系统是一个多变量非线性问题。虽然非线性数学、耗散结构理论、协同学 为描述非线性动力学系统提供了一些工具,但实际应用于股价( 股指) 实证分析仍 有不少问题。 2 股价数据的高噪声 股票指数编制的不合理性、机构大户的造市行为,以及诸多外在因素的冲击 影响而造成股市的强烈波动,使得股价( 股指) 表现为高噪声且存在许多“奇异点”。 “奇异点”的存在会大大影响系统性能,导致求解过程振荡甚至无法收敛。在线 性条件下,可设计各种滤波器将其滤除,但在非线性条件下却不能轻率处理,因 为它( 们) 可能代表一类模式或结构变化的先兆。数据的这种特性要求系统具有较 强的鲁棒性。 3 股票系统的主体是具有主观能动性的投资者 投资者商业行为的复杂性和对未来事件的影响能力使得预测误差相当大,并 且随着时间的增加而急剧升高。与其他物理系统不同,在股票系统中,对样本数 据的最好匹配并不能保证最好的预测,即建模数据的最小误差准则并不是提高预 测精度的最好准则,一种预测方法过去和现在的表现不能说明未来的预测结果。 1 3 主要研究内容 由于股市预测中存在着这样一些问题,如股价( 股指) 具有非线性特性、数据 具有高噪声特性等。对于股市预测来说,传统的预测技术预测效果并不理想,而 近十年间数据挖掘技术的研究工作取得了很大的进展,各种数据挖掘技术的应用 极大地推动了人们分析、处理大量数据信息的能力。因此,本文将一些成熟的数 据挖掘技术结合灰色系统理论,在总结前人的成果的基础上,提出了灰色数据挖 掘模型在股市预测中的应用,以便更好地进行股市预测。 证券分析工具是进行证券投资的有力工具。我国股票市场上最早使用的分析 软件是从台湾引进的钱龙。此后,市场上相继出现了多种分析软件,如证券之星、 大富翁、大智慧、南方证券等等,多达几十种。不过这些分析软件大都以钱龙风 格为基础,就分析功能上看基本上雷同。主要有两个功能,一是“记录信息”,例 如记录每天的行情数据、个股的财务报表相关信息;二是“处理信息”,包括“画 技术图表”、计算技术指标、按指标排序和按条件选股。经过处理的信息使用方便, 但信息的处理方式还很简单。这中间,除了按条件选择股票的功能之外,软件缺 乏智能功能。虽然像南方证券这样的分析软件中有个数据挖掘模块,但其数据挖 掘的功能比较简单,缺乏交换性能。 现在的分析软件的不足之处还有就是没有验证功能。假设用现在的分析软件 进行选股,选股条件是人们根据自己的要求输入的,这些输入的条件是否合理还 是个问题。由此可知,根据这些条件选出的股票其意义不大。从理论上讲,任何 方法都不可能是永远有效,都应该随时间和环境的改变而进行相应的修正。软件 的“验证功能”将提供根据环境改变对策的依据。 目前国内让人满意的智能型软件还没有出现。在这种情况下引入数据挖掘特 别是在灰色系统理论的指导下进行股票分析的研究是有探索性的。 1 4 本章小结 股票市场是证券市场的重要组成部分,高风险高回报是股票市场的特征,因 此投资者们时刻在关心股市、分析股市、试图预测股市的发展趋势。由于股票市 场是一个典型的具有大量相互作用因素的强涨落复杂系统,有很多内部和外部因 素的信息不可知的情况。对于股市预测来说,应用传统的预测技术预测效果并不 理想,而近十年间数据挖掘技术的研究工作取得了很大的进展,各种数据挖掘技 术的应用极大地推动了人们分析、处理大量数据信息的能力。面对这种情况,引 入数据挖掘特别是在灰色系统理论的指导下进行股票分析的研究,本着两者取长 补短的原则是有创新意义的。 6 第二章基于灰色理论的数据挖掘分析 在股票分析中,利用数据挖掘工具作股指( 价) 方面的预测也有很多,灰色 系统模型也可以用作预测,下面就数据挖掘和灰色系统在股票分析中的现状以及 不足之处作了详细的分析,本着取其长补其短的思想原则,将灰色系统理论引入 成熟的数据挖掘技术中。 2 1 数据挖掘在股票分析中的应用现状 2 1 1 数据挖掘原理与技术 1 数据挖掘的定义 数据挖掘( d a t am i n i n g ) ,也叫数据开采,数据采掘等,就是从大量的、不完 全的、有噪声的、模糊的、随机的实际应用数据中,提取隐含在其中的、人们事 先不知道的、但又是潜在有用的信息和知识的过程。 企业里的数据量非常大,而其中真正有价值的信息却很少,因此从大量的数 据中经过深层分析,获得有利于商业运作、提高竞争力的信息,就像从矿石中淘 金一样,数据挖掘也因此而得名。这种新式的商业信息处理技术,可以按商业既 定业务目标,对大量的商业数据进行探索和分析,揭示隐藏的、未知的或验证已 知的规律性,并进一步将其模型化。 在较浅的层次上,它利用现有数据库管理系统的查询、检索及报表功能,与 多维分析、统计分析方法相结合,进行联机分析处理( 0 l a p ) ,从而得出可供决策 参考的统计分析数据。在深层次上,则从数据库中发现前所未有的、隐含的知识。 o l a p 的出现早于数据挖掘,它们都是从数据库中抽取有用信息的方法,就决策 支持的需要而言两者是相辅相成的。o l a p 可以看作一种广义的数据挖掘方法, 它旨在简化和支持联机分析,而数据挖掘的目的是使这一过程尽可能自动化。 数据挖掘与传统的数据分析( 如查询、报表、联机应用分析) 的本质区别是数 据挖掘是在没有明确假设的前提下去挖掘信息、发现知识( 也包括大量的不公开的 数据) 。数据挖掘使数据库技术进入了一个更高级的阶段。数据挖掘是要发现那些 不能靠直觉发现的信息或知识,甚至是违背直觉的信息或知识,挖掘出的信息越 是出乎意料,就可能越有价值。能够比市场提前知道这种信息,提前做出决策就 会获得超额利润。 , 数据挖掘基于的数据库类型主要有关系型数据库、面向对象数据库、事务数 据库、演绎数据库、时态数据库、多媒体数据库、主动数据库、空间数据库、遗 留数据库、异质数据库、文本型、i n t e r n e t 信息库以及新兴的数据仓库 ( d a t a w a r e h o u s e ) 等m 。而挖掘后获得的知识包括关联规则、特征规则、区分规则、 分类规则、总结规则、偏差规则、聚类规则、模式分析及趋势分析等。 数据挖掘是一门交叉学科,它把人们对数据的应用从低层次的简单查询,提 升到从数据中挖掘知识,提供决策支持。见如下图2 1 所示。 图2 1数据挖掘与其他学科的关系 2 数据挖掘技术的特点 数据挖掘技术具有以下特点: ( 1 ) 处理的数据规模十分庞大,达到g b 、t b 数量级,甚至更大。 ( 2 ) 查询一般是决策制定者( 用户) 提出的即时随机查询,往往不能形成精确 的查询要求,需要靠系统本身寻找其可能感兴趣的东西。 ( 3 ) 在一些应用( 如商业投资等) 中,由于数据变化迅速,因此要求数据挖掘 能快速做出相应反应以随时提供决策支持。 、 ( 4 ) 数据挖掘中,规则的发现基于统计规律。因此,所发现的规则不必适 用于所有数据,而是当达到某一临界值时,即认为有效。因此,利用数据挖掘技 术可能会发现大量的规则。 ( 5 ) 数据挖掘所发现的规则是动态的,它只反映了当前状态的数据库具有 的规则,随着不断地向数据库中加入新数据,需要随时对其进行更新。 3 常用数据挖掘技术 常用的数据挖掘技术有: ( 1 ) 序列模式 序列模式挖掘是基于时间或者其他序列的经常发生的模式。时间序列的数据 库内某个字段的值是随着时间而不断变化的,设一个变量y ,表示某一支股票每 天的收盘价,那么y 可以看作是时间t 的函数。运用序列模式可以用来预测股价 波动、行情走势等等。 ( 2 ) 关联分析 若两个或多个变量的取值之间存在某种规律性,就称为关联。关联可分为简 单关联、时序关联、因果关联。关联规则是发现交易数据库中不同交易数据与分 析目标之间的联系,通过这些规则可以找出不同的交易博弈决策情况与不同交易 者( 分为知情交易者和未知情交易者) 行为模式关系,而数据可分为关联数据与非 关联数据,账户可分为关联账户与非关联账户等等。总的来说,数据关联是数据 库中存在的一类重要的可被发现的知识。关联分析的目的是找出数据库中隐藏的 关联网。有时并不知道数据库中数据的关联函数,即使知道也是不确定的,因此 关联分析生成的规则带有可信度。 ( 3 ) 聚类分析 7 7 数据库中的记录可被划分为一系列有意义的子集,即聚类。聚类反映同类事 物共同性质的特征型知识和不同事物之间的差异型特征知识。聚类增强了人们对 客观现实的认识,是概念描述和偏差分析的先决条件。聚类技术主要包括传统的 模式知识方法和数学分类学。聚类或分类要解决的问题是为一个事件或对象归类。 在使用上,既可以用此模型分析已有的数据,也可以用它来预测未来的数据。 ( 4 ) 偏差检测 数据库中的数据常有一些异常记录,从数据库中检测这些偏差很有意义。偏 差包括很多潜在的知识,如分类中的反常实例、不满足规则的特例、观测结果与 模型预测值的偏差、量值随时间的变化等。偏差检测的基本方法是,寻找观测结 果与参照值之间有意义的差别。这就是所谓的发现偏差型知识( d e v i a t i o n ) ,它是 对差异和极端特例的描述,揭示事物偏离常规的异常现象,如标准类外的特例, 数据聚类外的离群值等。所有这些知识都可以在不同的概念层次上被发现,并随 着概念层次的提升,从微观到中观、宏观,以满足不同用户不同层次决策的需要。 ( 5 ) 进化计算( 遗传算法) 相关研究表明,证券市场的群体心理和行为的影响左右着个体心理和行为, 进化理论不仅是生物学的统一理论,而且可以作为所有智能过程的统一描述,特 别是对社会群体心理和行为研究。近来,国内外的进化计算与混合认知智能预测 取得了良好的效果,数据挖掘的研究将极大地提高其有效性和精度。 ( 6 ) 神经网络 仿照生理神经网络结构的非线形预测模型,通过学习进行模式识别。神经网 络近来越来越受到人们的关注,因为它为解决复杂度问题提供了一种相对来说比 较有效的简单方法。神经网络可以很容易的解决具有上百个参数的问题。神经网 络常用于两类问题:分类和回归。神经网络是一种新的时间序列分析方法,在预测 股价波动、行情走势方面,比统计预测精度有很大的提高。 ( 7 ) 粗糙集 一种研究不精确、不确定性知识的数学工具。基于粗糙集合的挖掘,由于先 天的优势,可以给出股票后期各种表现的可能性概率,比较直观。 ( 8 ) 决策树 决策树提供了一种展示类似在什么条件下会得到什么值这类规则的方法。数 据挖掘中决策树是一种经常要用到的技术,可以用于分析数据,同样也可以用来 做预测。常用的算法有c h a i d ,c a r t , q u e s t 和c 5 0 。 4 数据挖掘系统及过程 数据挖掘是指一个完整的过程,该过程从大型数据库中挖掘先前未知的、有 效的、可实用的信息,并使用这些信息做出决策或丰富知识。 数据挖掘环境如下图2 2 所示: 图2 2 数据挖掘环境框图 数据仓库并不是数据挖掘的先决条件,因为有很多数据挖掘可直接从操作数 据源中挖掘信息”“。 数据挖掘的过程可粗略地分为,问题定义( t a s kd e f i n i t i o n ) 、数据收集和预 处理( d a t a p r e p a r a t i o na n d p r e p r o c e s s i n g ) 、数据挖掘( d a t a m i n i n g ) 算法执行以 及结果的解释和评估( i n t e r p r e t a t i o na n d e v a l u a t i o n ) ,如图2 3 所示。 ,塑二譬iil:髑黟 图2 3数据挖掘的过程示意图 ( 1 ) 问题的定义 数据挖掘是为了在大量数据中发现有用的令人感兴趣的信息,因此发现何种 知识就成为整个过程中第一也是最重要的一个阶段。在问题定义过程中,数据挖 掘人员必须和领域专家以及最终用户紧密协作,一方面明确实际工作对数据挖掘 的要求;另一方面通过对各种学习算法的对比近而确定可用的学习算法。后续的 学习算法选择和数据集准备都是在此基础上进行的。 ( 2 ) 数据收集和数据预处理 数据准备又可分为三个子步骤:数据选取( d a t as e l e c t i o n ) 、数据预处理( d a t a p r e p r o e e s s i n g ) 和数据变换( d a t a t r a n s f o r m a t i o n ) 。 一 数据选取的目的是确定发现任务的操作对象,即目标数据( t a r g e td a t a ) ,是 根据用户的需要从原始数据库中抽取的一组数据。数据预处理一般包括消除噪声、 推导计算缺值数据、消除重复记录、完成数据类型转换( 如把连续值数据转换为离 散型的数据,以便于符号归纳,或是把离散型的转换为连续值型的,以便于神经 网络1 等。当数据挖掘的对象是数据仓库时,一般来说,数据预处理已经在生成数 据仓库时完成了。数据变换的主要目的是消减数据维数即降维( d i m e n s i o n r e d u c t i o n ) ,即从初始特征中找出真正有用的特征,以减少数据挖掘时要考虑的特 征或变量个数。 ( 3 ) 数据挖掘 数据挖掘算法执行阶段首先根据对问题的定义明确挖掘的任务或目的,如分 类、聚类、关联规则发现或序列模式发现等。确定了挖掘任务后,就要决定使用 什么样的算法”“。选择实现算法有两个考虑因素:一是不同的数据有不同的特 点,因此需要用与之相关的算法来挖掘:二是用户或实际运行系统的要求,有的 用户可能希望获取描述型的( d e s c r i p t i v e ) 、容易理解的知识( 采用规则表示的挖掘 方法显然要好于神经网络之类的方法) ,而有的用户只是希望获取预测准确度尽可 能高的预测型( p r e d i c t i v e ) 知识,并不在意获取的知识是否易于理解。关于数据挖 掘所采用的一些常用算法,在后面章节将给出详细的描述。 ( 4 ) 结果解释和评估 数据挖掘阶段发现出来的模式,经过评估,可能存在冗余或无关的模式,这 时需要将其剔除;也有可能模式不满足用户要求,这时则需要整个发现过程回退 到前一阶段,如重新选取数据、采用新的数据变换方法、设定新的参数值,甚至 换一种算法等。另外,知识发现( k d d ) 由于最终是面向人类用户的,因此可能 要对发现的模式进行可视化,或者把结果转换为用户易懂的另一种表示,例如把 分类决策树转换为“i f t h e n ”规则。 数据挖掘算法执行,仅仅是整个过程中的一个步骤。数据挖掘质量的好坏有 两个影响要素:一是所采用的数据挖掘技术的有效性;二是用于挖掘的数据的质 量和数量( 数据量的大小) 。如果选择了错误的数据或不适当的属性,或对数据进 行了不适当的转换,则挖掘的结果不会好的。 整个挖掘过程是一个不断反馈的过程。比如,用户在挖掘途中发现选择的数 据不太好,或使用的挖掘技术产生不了期望的结果,这时,用户需要重复先前的 过程,甚至从头重新开始。 可视化在数据挖掘的各个阶段都扮演着重要的作用。特别是在数据准备阶 段,用户可能要使用散点图、直方图等统计可视化技术来显示有关数据,以期望 对数据有一个初步的了解,从而为更好地选取数据打下基础mm ,。在挖掘阶段, 用户则要使用与领域问题有关的可视化工具。在表示结果阶段,则可能要用到可 视化技术以使锝发现的知识更易于理解。 2 1 2 数据挖掘在股票分析中的应用 目前我国证券交易所已经基本部署了前台p o s 系统和后台m i s 系统。随着 交易的不断进行,p o s 系统和m i s 系统记录了大量的客户交易数据和彳亍情交易数 据,如何有效地利用这些数据? 其中真正有价值的信息是哪些? 这些信息之间有哪 些关联? 为了回答这些问题就需要对大量的数据进行深层分析,从而获得有利于商 业运作、提高竞争力的信息。 什么是股票市场的数据挖掘? 简单来讲,就是从股票市场中大量数据信息中, 通过知识发现技术,发掘有兴趣的模式或知识,来满足股票投资者的应用要求 “”1 。数据挖掘技术可以对上述交易数据进行综合分析,分析结果将产生各种的 分类图表,为企业经营者提供参考和决策依据,如图2 4 所示。通过数据挖掘可 以帮助证券公司分析出完成任务所需的关键因素,以达到使企业处于更有利的竞 争地位的目的;同时可以识别客户购买行为、发现客户购买股票模式和趋势,在此 基础上改进服务质量,取得更好的顾客保持力和满意程度m ,。 宏观经济数据 卜证券市场监管、k 行业信息数据 公司财务数据 证券市场信息 弋父二弋 交易信息数据 客户信息数据 有趣模式和 政策法规信息 知识发现工具i 一有价值的知识 其他信息数据 图2 4 在证券行业的数据挖掘 目前比较热门的挖掘主题研究主要有: 1 证券市场关联分析 证券市场与汇率、利率、国民经济发展的关联分析:单一证券和整个证券市 场的关联分析:市场指数设计是否合理,哪些指数更符合市场规律。 2 信息效率市场 证券价格能否反映所有的信息,验证中国证券市场的效率。 3 技术指标分析 证券市场各种技术指标的合理性和有效性。对各指标进行排序和分类,研 究其对股票操作的重要程度。 4 在线多维分析 基于o l a p 技术,在线成交量分析、板块分析,预测结果验证等等。 5 股票技术分析 基于序列模式方法,研究股价的变化规律,未来行情走势,辅助投资者决策。 6 股票定价 分析未来股票发行和上市价格的合理定位,确定金融衍生品的价格。 7 股票关联分析 探讨股票价格之间的关联度,不同板块、行业的股票关联分析,同一板块之 间的股票关联分析。 8 个股选择分析 对股票做聚类研究,合理分类。 9 公司评价 上市公司价值、上市公司细分、上市公司信用评级 1 0 投资组合 探讨不同投资组合的效果,对股票做聚类、关联研究,提出合理的投资组 合。 1 1 投资评价 对不同的投资组合做出收益和风险的评价。 2 1 3 数据挖掘在股票分析中应用的不足 虽然目前的挖掘主题很多,但是如何建立有效的挖掘模型,如何评估挖掘结 果等等,都值得研究。如何比较数据挖掘和传统统计技术应用的异同也是一个值 得探讨的问题。数据挖掘在股票分析中的应用毕竟还很不成熟,针对特定的问题, 有时候,数据挖掘也是无能为力的。比如对连续型的数据,要想做关联分析可以 说很困难,即使将数据离散化,得到的关联规则也缺乏实际意义m ,。这时候,借 助其他手段或许可以解决类似的问题。灰色系统理论的引入,就可以解决这种连 续型数据的关联分析问题n ”“1 。 将灰色系统理论引入数据挖掘领域,为数据挖掘提供了一个新的技术工具, 对解决特定类型的问题很有成效,但是目前在股票分析领域的应用还很少。国内 学者的研究大多局限在灰色系统理论的单方面应用,没有将灰色系统理论的技术 方法放在数据挖掘的角度来分析问题,没有将两者的优势发挥出来“”“。 2 2 灰色理论在股票分析中的应用现状 现代科学技术在高度分化的基础上高度综合的大趋势,导致了具有方法论意 义的横断学科群的出现。横断学科揭示了事物之间更深刻、更具有本质性的内在 联系,大大促进了科学技术的整体化进程,许多学科难题可以随着新兴学科的出 现迎刃而解,人们对自然界和客观事物演化规律的认识也由于横断学科的出现而 逐步深化。1 9 8 2 年,我国学者邓聚龙教授创立的灰色系统理论就是横断学科群中 的一颗新星”m ,。 灰色系统理论的研究对象是“部分信息已知、部分信息未知”的“小样本”、 “贫信息”不确定系统。它通过对“部分”己知信息的生成、开发去了解、认识 现实世界,实现对系统运行行为和演化规律的正确把握和描述。 2 2 1 灰色系统概念和原理 1 灰色系统理论的产生及其发展动态 灰色系统理论是我国控制论专家邓聚龙教授于1 9 8 2 年创立的。1 9 8 2 年,北 荷兰出版公司出版的系统与控制通讯( s y s t e m s & c o n t r o ll e t t e r s ) 杂志刊载了 我国学者邓聚龙教授的第一篇灰色系统论文“灰色系统的控制问题”( t h ec o n t r o l p r o b l e m so fg r e ys y s t e m s ) ;同年,华中工学院学报刊载了邓聚龙教授的第一 篇中文灰色系统论文“灰色控制系统”。这两篇开创性论文的公开发表标志着灰色 系统理论这一新兴横断学科开始问世“”“。 这一理论刚一诞生,就受到国内外学术界和广大实际工作者的极大关注,不 少著名学者和专家给予充分肯定和支持,许多中青年学者纷纷加入灰色系统理论 的研究行列,以极大的热情开展理论探索及在不同领域中的应用研究工作。短短 几年的时间,它已迅速地渗透到经济、气象、生态、水利、生物、军事、医学、 教育、水电能源、地质勘探、交通运输、过程控制、环境保护等众多领域,其理 论研究和应用研究都有了很大的进展。一批新兴边缘学科如灰色水文学、灰色地 质学、灰色育种学、区域经济灰色系统分析、灰色哲学应运而生。我国科技 工作者主持的一大批灰色系统理论研究课题获得了国家和省、市科学基金资助。 据统计,全国各地有1 6 0 多项灰色系统理论及应用成果获得国家和省、部级奖励; 2 0 0 2 年,我国灰色系统学者获系统与控制世界组织奖。2 0 0 3 年8 月在爱尔兰利墨 瑞克召开的第3 2 届计算机与工业工程国际会议,为灰色系统理论安排了4 场专题 会议。灰色系统理论成为许多重要国际会议关注、讨论的热点,这对于世界系统 科学界同行进一步了解灰色系统理论无疑会起到积极作用。 2 灰色系统的基本概念 社会、经济、农业、工业、生态等许多系统,是根据研究对象所属的领域和 范围命名的。但在控制理论中,人们常用颜色的深浅形容信息的明确程度,如用 “黑”表示信息未知,用“白”表示信息完全明确,用“灰”表示部分信息明确、 部分信息不明确。相应地,信息完全明确的系统称为白色系统;信息完全不明确的 系统称为黑色系统:部分信息明确、部分信息不明确的系统称为灰色系统。 灰色系统理论的研究对象是“部分信息已知、部分信息未知”的“贫信息” 不确定系统,它通过“部分”已知信息的生成、开发,实现对现实世界的确切描 述和认识。 在人们的社会、经济活动或科研活动中,会经常遇到信息不完全的情况。如 在农业生产中,即使是播种面积、种子、化肥、灌溉等信息完全明确,但由于劳 动者技术水平、自然环境、气候条件、市场行情等信息不明确,仍难以准确地预 计出产量、产值;再如生物防治系统,虽然害虫与其天敌之间的关系十分明确, 但却往往因人们对害虫与饵料、天敌与饵料、某一天敌与其它天敌、某一害虫与 其他害虫之间的关联信息了解不够,使得生物防治难以收到预期效果;价格体系 的调整或改革,常常因缺乏民众心理承受力的信息,以及某些商品价格变动对其 他商品价格影响的确切信息而举步维艰:在证券市场上,即使最高明的系统分析 人员亦难以稳操胜券,因为你测不准金融政策、利率政策、企业改革、政治风云 和国际市场变化及某些板
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 2025年汽车轻量化材料在汽车轻量化车身制造工艺中的应用趋势报告
- 现场品质培训课件
- 2025年智能制造示范工厂建设中的环保与可持续发展实施方案报告
- 2025年数字艺术产业报告:作品创作、交易与版权保护市场风险与机遇分析
- 现场传授式专业知识培训课件
- 2026届浙江省杭州市西湖区杭州学军中学化学高二上期末统考模拟试题含答案
- 浙江省杭州市杭州第二中学2026届化学高一第一学期期中监测试题含解析
- 2026届贵州省遵义市务川民族中学化学高二上期末质量跟踪监视试题含答案
- 现代水文学研究生课件
- 2026届广西岑溪市高一化学第一学期期末联考模拟试题含解析
- 2025-2030中国城市更新政策演变与实施路径专项调研报告
- 儿科川崎病课件
- 2025年书记员考试题库(附答案)
- 中成药合理使用培训课件
- 建筑材料绿色采购实施方案
- 学堂在线 劳动教育 章节测试答案
- 2025-2031年中国AI成人娃娃行业市场发展规模及投资机会研判报告
- 2025年江苏省昆山市辅警招聘考试试题题库及答案详解(典优)
- 2025至2030中国个人定位信标(PLB)行业产业运行态势及投资规划深度研究报告
- 2025年振兴中学分班考试题及答案
- 投标部奖罚管理办法
评论
0/150
提交评论