




已阅读5页,还剩53页未读, 继续免费阅读
(计算机应用技术专业论文)基于粗糙集的绩优股票预测系统研究.pdf.pdf 免费下载
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
摘要 摘要 随着股票巾场的不断发展,在股票信息数据库中积累了大量历史交易数据,如何充 分利用这些历史数据探寻股票价格的运动规律,成为人们关心的问题。近年来,出现了 许多以预测股票未来价格或趋势的方法、系统,如传统的技术分析方法、人工神经网络 方法、时f 、日j 序列分析法等。但上述方法对于普通投资者来说都有使用上的难处。例如需 要预先设定参数,计算速度慢等。因此,本文对股票历史时间序列数据预处理、预处理 数据的粗糙集约简方法及股票预测规则的生成方法进行了探讨与研究。 料糙集理论是分析和处理各种不精确、不完整信息的数学工具,它已成为数据挖掘 研究的一个重要分支。但股票信息数据库中的股票时i 日j 序列数据并不符合粗糙集分析的 要求,所以先要进行预处理,构建粗糙集可以分析的决策表。 皋于拳h 糙集理论的知识获取,主要是在保持分类能力不变的前提下,通过知识约简, 导出问题的决策舰则,包括属性约简和值约简。本文基于该理论,重点研究了属性值约 简算法中的标记法,重新定义了属性值的重要性,提出了一种改进的基于属性值重要性 的粗糙集值约简算法。该方法克服了标记法小能处理不相容决策表的缺点,得到规则的 冗余属性值数量进一步降低。并用实例对该算法进行了验证。 在上述研究的基础上,设计了基于半h 糙集的股票预测系统,并采用v i s u a lc + + 2 0 0 5 , s q ls e r v e r2 0 0 0 和m f c 应用程序框架对所设计的系统进行了具体实现。该系统提供了 股票历史交易数据查询功能,并可实现对下一个交易同股票价格走势的预测,为投资者 进行股票买卖决策提供参考。使用真实的股票历史交易数据对基于粗糙集的股票预测系 统进行测试,取得了较为满意的结果。 关键词:股票;时间序列;粗糙集;值约简 人连交通人学l :学硕- f 学位论文 a b s t r a c t w i t ht h ed e v e l o p m e n to ft h es t o e km a r k e t 1 0 t so fh i s t o r ye x e h a n g ed a t ah a sb e e ns t o r e d i nd a t b a a s e i ta t t r a e t sm o r ea n dm o r ea t t e n t i o nt h a th o wt ou s et h e s eh i s t o r ye x e h n a g ed a t at o d i s e o v e rt h er u l e so ft h es t o c km a r k e t i nr e c e n ty e a r s t h e r eh a v eb e e nm a n ym e t h o d st o p r e d i c tt h ef u t u r es t o c kp r i c e so rt r e n d s s u c ha st h et r a d i t i o n a lt e c h n i c a la n a l y s i s a r t i f i c i a l n e u r a ln e t w o r k ,t i m es e r i e sa n a l y s i s w h e r e a si n v e s t o r su s et h e s em e t h o d sd i m c u l t y t h e s e n e e dt os e tp a r a m e t e r sb e f o r eu s i n go rc o m p u t es l o w l y t h e r e f o r et h i sp a p e rr e s e a r c ht h e m e t h o dw h i c hh a v et h r e es t e p s t h e s ea r ep r e - p r o c e s s i n g ,a t t r i b u t er e d u c t ,v a l u er e d u c ta n d c o n s t r u c tr u l et a b l e r o u g hs e tt h e o r yi sam a h t e m a t i e a lt o o lf o ru s ei nc i r c u m s t a n c e st h a ta r ec h a r a e t e r i z e d b yv a g u e n e s sa n du n c e r t a i n t y i th a sb e e np r o v e nt ob ev e r yu s e f u li nt h ef i e l do fd a t a m i n i n g i ns t o c ki n f o r m a t i o nd a t a b a s e ,s t o c kt i m es e r i e sd a t ac a n tb e p r o c e s s e db yr o u g hs e t p r e p r o c e s s i n gm u s tb ee x e c u t e dt of i tr o u g h s e t k n o w l e d g ed i s c o v e r yb yr o u g hs e ti sd e c i s i o nt a b l er e d u c t i o n ,w h i c hd o e s n tc h a n g et h e c l a s s i f i c a t i o nc a p a b i l i t y y o uc a nd e l e t et h er e d u n d a n ta t t r i b u t ei nt h es y s t e mb ya t t r i b u t e r e d u e t i o na n dc a nd e l e t et h er e d u n d a n ta t t r i b u t ev a l u ei n t h es y s t e mb ya t t r i b u t ev a l u e r e d u e t i o n 1 1 1 er e s e a r c hp r i o r i t yo ft h i sp a p e ri sa t t r i b u t ev a l u er e d u e t i o n a c c o r d i n gt ot h e s e t h e o r y ,p u t sf o r w a r dan e w k i n do f i m p r o v e dr o u g hs e ta l g o r i t h mf o rv a l u er e d u c t i o nb a s e do n i m p o r t a n c eo fa t t r i b u t ev a l u eo nt h eb a s i so ft h ee x i s t i n gh e u r i s t i ca l g o r i t h mf o rv a l u e r e d u c t i o n t h i sa l g o r i t h mc a nd e a lw i t hn o to n l yt o l e r a n td e c i s i o nt a b l eb u ta l s o i n t o l e r a n t d e c i s i o nt a b l e ,a n dc a nm a k er e d u c tr u l ew h i c hh a v ef e wa t t r i b u t et h a nt h ee x i s t e da l g o r i t h m b a s eo nt h ea b o r v er e s e a r c h ,t h ep a p e rg i v e st h ei m p l e m e n to ft h ef o r e c a s to fs t o c k p r i c e ss y s t e m t h es y s t e mb u i l tw i t hv i s u a lc + + 6 0 t h es q l ls e r v e r2 0 0 0a n dm f c a p p l i c a t i o nf r a m e w o r k t h ef o r e c a s ts y s t e mn o to n l yp r o v i d e sa l l i n f o r m a t i o no fs t o c kh i s t o r y e x e h a n g ed a t a , b u ta l s oa c h i e v e st h ef o r e c a s to ft h es t o c kp r i c ei nn e x tb u s i n e s sd a y t h e i n v e s t o r sc a l ld e c i d eb yt h ef o r e c a s t t h et e s to fs y s t e mi ss a t i s f yw i t ha c t u a ls t o c kh i s t o r y e x e h a n g ed a t a k e yw o r d s :s t o c k ;t i m es e r i e s ;r o u g hs e t ;v a l u er e d u c t i o n i i 大连交通大学学位论文独创性声明 本人声明所呈交的学位论文是本人在导师指导下进行的研究工作 及取得的研究成果。尽我所知,除了文中特别加以标注和致谢及参考 文献的地方外,论文中不包含他人或集体已经发表或撰写过的研究成 果,也不包含为获得太整塞通太堂或其他教育机构的学位或证书而 使用过的材料。与我一同工作的同志对本研究所做的任何贡献均已在 论文中作了明确的说明并表示谢意。 本人完全意识到本声明的法律效力,申请学位论文与资料若有不 实之处,由本人承担一切相关责任。 学位论文作者签名: 加彳午 日期:渺j 年垃月z _ 日 大连交通大学学位论文版权使用授权书 本学位论文作者完全了解太整塞通太堂有关保护知识产权及保 留、使用学位论文的规定,即:研究生在校攻读学位期间论文工作的 知识产权单位属太整塞通太堂,本人保证毕业离校后,发表或使用 论文工作成果时署名单位仍然为太整銮通太堂。学校有权保留并向 国家有关部门或机构送交论文的复印件及其电子文档,允许论文被查 阅和借阅。 本人授权太董塞通太堂可以将学位论文的全部或部分内容编入 中国科学技术信息研究所中国学位论文全文数据库等相关数据库 进行检索,可以采用影印、缩印或扫描等复制手段保存、汇编学位论 、 又。 ( 保密的学位论文在解密后应遵守此规定) 学位论文作者签名: 如呷午 日期:秒。7 年i z - 户j ,z 日 学位论文作者毕业后去向: 工作单位: 通讯地址: 电子信箱: 电话: 邮编: 乙 月口帛乙 “训 , b 降 名 签 : 师 期 导 日 第一章绪论 第一章绪论弟一早珀下匕 1 1 选题的研究背景及意义 股票市场是金融市场中最具魅力的市场之一,它不仅是经济的“晴雨表”和“报警器”, 人们也可以从股票买卖中获取高额利润。其作用不仅被政府所重视,更受到广大投资者的 关注。但在现实经济,l 三活中,股票指数序列的发展变化呈现时变性、随机性、非线性的特 点。投资者要想在瞬息万变的证券投资市场上通过自己的投资获得尽可能大的收益,就必 须把握i j e 券价格波动的韵律、脉络,对证券的市场价格走向作出准确的判断。对股票投资 者来说,未来股价变化趋势预测越准确,对利润的获取及风险的规避就越有把握。对股市 的研判和对个股的分析是投资的依据,对股市有了解的人都知道,在股市巾赚钱的大机构 占七成,中小投资人占两成,散户占一成。出现这种情况,资会量起了一定的作用,更重 要的是大机构有完善的股市分析体系及有经验的股市分析从业人员。由此可见,股市分析 对于股票市场的重要性i lj 。 随着吒联网的发展,如今我困股票市场上使用的炒股软件多如牛毛,拥有计算机的股 民坐在家中即可通过炒股软件获取股票实时行情。它充分利用互联网的优势,在数据处理 上实现了接受服务器端的数据,可随时从服务器端补充数据。这种形式的股票分析软件的 功能主要是:一足“记录信息”,例如记录每天的行情数据、个股的财务报表中披露的相 关信息;二是“处理信息”,包括“画技术图表”、计算技术指标、按指标排序和按条件 选股。经过处理的信息“随叫随到”,使用方便,处理信息的方式相当简单。这中间除了 按条件选择股票外,基本上都没有涉及剑智能的因素。其中有代表性的炒股软件有:大智 慧证券信息平台、钱龙、同花顺、操盘手等。这些软件给股民带来了大量、准确、实时的 信息,但对大最信息的分析还要靠人力,这种简单的信息处理方式越来越不能满足人们的 需求,他们要求股票分析软件具有一定的智能化,以辅助决策,冉加上股票数据越来越多, 随着数据的迅速膨胀,引入人工智能技术进行股票分析成为一个必然趋势。 1 2 股票的相关知识 股票足一种有价证券,它是股份有限公司发行的、用以证明投资者的股东身份和权益、 并据以获取股息和红利的凭证。绩优股就是、i k 绩优良公司的股票。也作“蓝筹股”。在我国, 投资者衡量绩优股的主要指标是每股税后利润和净资产收益率。一般而言,每股税后利润 在全体上市公司中处于中上地位,公司上市后净资产收益率连续三年显著超过1 0 的股票 当属绩优股之列。绩优股具有较高的投资f u i 报和投资价值。其公司拥有资金、市场、信誉 人造交通人学i :学硕十学位论文 等方面的优势,对各种巾场变化具有较强的承受和适应能力,绩优股的股价一般相对稳定 且旱长期上升趋势。因此,绩优股总是受到投资者。 影响股票市场价格变化的根本原冈和直接原因是供求关系的变化,不同的专家有不同 的见解,可分为两派,即基本分析派和技术分析派。 基本分析派认为影响股价的主要原凶是基本冈素,他们注重发行公司的经营特征、经 营状况、财务状况以及股利派发、管理决策、销售环节、竞争力等,还注重研究社会的经 济指标、经济政策以及与经济有天的政治因素等1 2 j 。 股票投资技术分析足指直接对股票市场的市场行为所作的分析,而非对市场交易的商 品的研究。技术分析足记录某一股票或“指数 的实际交易过程,并从其巾推断出今后呵 能的发展趋势的科学。其特点是在利用某些历史资料的基础f :,应用数学和逻辑的方法来 分析股票市场的运动轨迹,从而预测股票市场的未- 来变动趋势pj | 4 。 技术分析的理论基础足对股票市场走势的客观观察,经归纳总结、演绎推理而总结出 来的,概括起来共分为一下几个特点【4 j : ( 1 ) 技术分析理沦认为股价走势是影响供求关系的众多因素共同作用的结果,影响股价 的每一凶素都会反映在市场行为中。技术分析理论值关心这些凶素对市场行为的影响效 果,而对影响股价天系的一些或单个冈素4 i 作研究,它所解决的问题是如何通过股价走势 的研究,发现供求关系在逆转时在量、价及图表上的信号,并预测未来股价的变动趋势。 ( 2 ) 趋势的概念是技术分析理论和方法的存在前提和核心。假如股票价格没有一定趋势 可循,是杂乱无章的,那么技术分析就没有存在的必要。技术分析理论认为,一旦股价沿 着某一方向运动,则在惯性作用f ,该趋势将持续下去,直至有足以根本改变供求关系的 凶素出现,陔趋势才会改变。 ( 3 ) 从自然界和人类社会的发展轨迹来看,相同特征的重复出现j 能反映出事物运动的 规律性。技术分析理论和分析方法的目的i f 在于揭示这些反映余家运动的规律性东西。另 外,从方法论来看,技术分析的基本方法在于回顾和总结股价运动的历史,从而展望股价 的未来发展趋势。 股票市场足复杂多变的,投资者最关心的问题之一就是股市涨跌行情的变化趋势。就 股价走势预测的基本f 1 标而言,技术分析派所采取的方法在预测股价的短期趋势,特别是 在旧趋势向新趋势变化方而优于基本分析方法,而在预测股价长期趋势方面,基本分析法 却优于技术分析法。 根据技术分析的定义和特点可知本文应用粗糙集对股票市场的时间序列数据进行处 理的方法为技术分析的方法。 第一章绪论 1 3 股票分析方法研究现状 1 3 1 传统的技术分析方法 技术分析是- - f - j 集百家理论之长的股市分析学问,它包括的理论流派众多,技术分析 指标更是林林总总。其中,被广泛用于股市实践的理论主要有:道氏理论、波浪理论、k 线理论、趋势理论、形态理论、移动平均线理论和量价理论;经常运用的主要技术分析指 标有甲滑异同移动平均线m a c d 、随机指数k d j 、威廉指数w r 、相对强弱指标r s i 、 趋向指标d m i 、心理线p s y 、成交量比率v r 等【5 1 。技术分析主要是利用时间、成交价、 成交量这三者之间的关系为工具来研判、预测股价的变化趋势。传统的技术分析中,k 线 图、平均线图等简单易懂、形象直观等特点受到人们的青睐,目前成为人们研判股市行情 的常用工具。但走势的研究,统计的分析最终还要靠人脑来完成,由于人们在知识、经验、 能力上的差异,加之问题本身的随机性和高度非线性,即使金融专家、炒股高手也时常无 法正确预测。而且这些传统的技术分析方法要事先知道各种参数,以及这些参数在什么情 况下应作怎样的修正。因此,这些方法存在很大缺陷。 1 3 2 人工神经网络法【6 】 目自i 使用人工神经网络进行预测的研究比较多。人:工:神经网络己经被广泛应用于经济 领域内的预测l 、u j 题,并且已经有在股市分析和预测上的成功应用。目前,人工神经网络己 经被应用于对证券市场的价格、走势、涨幅等进行预测,而且其预测的精确度也比较高。 然而,神经网络应用于股票预测依然存在一些问题与缺点:( 1 ) 隐节点难确立,网络的 隐含层数,隐节点个数及神经元能量函数的确定纯粹凭经验或试凑,带有一定的任意性, 影响训练学习时间与最后结果的精度。( 2 ) 变量选择困难,难以给出合适的变量选择准 则,模型中包括不相关变量或略去重要变量均将对预测结果产生重要影响,且使结果失去 可信性。( 3 ) 运算速度慢,利用神经网络预测,每增加一个新的样本,均要重新学习与 训练,花费大量的时问,其本身训练与学习也十分缓慢,训练函数与权值修j 下算法影响速 度,却神经网络预测用于中长期预测有一定闲难。 1 3 3 时间序列分析法 这种方法主要是通过建立股价及综合指数之间的时间序列相关模式模犁,如指数平滑 预测法、自回归移动平均模型( a r m a ) 、齐次非平稳模犁、( a r i m a ) 等来预测未来变化。 指数平滑预测法通过计算指数平滑平均数来平滑时间序列,消除历史统计序列中的随机波 动,以找出其丰要发展趋势。根据平滑次数的不同,有一次、二次、三次指数平滑之分。 使用指数平滑法对胶价进行预测时,其样本集与神经网络法有很大不同。首先,在样本向 人连交通人,lj ,硕l :学位论文 量的构成上,它j 需收盘价一个指标即可;其次,预测时用的是收盘价的原值,不需要对 其做放人缩小之类的处理;再有,指数预测法所需的样本数量也远远少于神经网络。由于 指数平滑预测的实质是对实测值做指数加权平均,因此,其预测模型较神经网络简单。 1 3 4 粗糙集方法研究现状 粗糙集理论足由波兰科学家p a w l a k 在1 9 8 2 年提出的一种处理含糊和不精确问题的新 型数学工具。是继概率论、模糊集理论、证据理论之后的又一个处理不确定性的数学工具。 该理论不需要任何附加的信息或先验知识,就能有效地分析和处理不精确、不完整和不一 致的数据,并从中发现隐含的知识,揭示潜在的规律。近年来,粗糙集理论得到了很人的 发展,虽然它是一种相对较新的数据挖掘工具,但有越来越多的学者将这一理论应用于各 个领域。 股票受到政策、经济、以及投资人心理等诸多复杂的因素的影响,而f j l 这些因素是没 有确定规则的。人们无法对股票市场建立精确的模型,所以股票预测问题是典型的彳i 确定 问题。通过对股票r f 场的数据以及卜市公司的数据进行分析,发现这些数据都具备了如下 这下特 1 f : ( 1 ) 拥有大量、充足的相关数据, ( 2 ) 股票数据的数据类型大多为整型和实型, ( 3 ) 行情信息的格式基本是固定的, ( 4 ) 数据具有时l 、b j 属性, ( 5 ) 需要从数据中挖掘知识,用于预测, 山于股票数据具备这些特征,并且股票市场是高度非线性的,j f 好适合利用半且糙集技 术来提取力史数据中存在的潜规则,以达到准确预测的目的1 7 j 。 在股票预测领域,将基于粗糙集理论的时问序列数据挖掘的思想和方法引入股票分 析,从股票时间序列数据中探索性地获取各种有价值的模式或规则。一方面,粗糙集理论 - 叮以在不影响数据所表达的信息下使原始的数据大为减少( 数据浓缩) ;另一方面,相i 糙集 理论可以产牛决策规则,从而可以挖掘数据中的有效模式【8 1 。2 0 0 3 年,l i x i a n gs h e n 等人 用r o u g h s e t s o m 系统抽取知识,指导买卖,并用s & p5 0 0 指数检验了这一系统的可用性 和有效性【9 1 。王晓晔,王讵欧使用粗糙集方法研究了股票的趋势预测问题,并用。卜证的1 0 0 支股票的数据,经过多次实验,结果表明该方法在处理股票时问序列数据的预测方面具有 较好的预测性能1 1 0 1 o 4 第一章绪论 1 4 论文中遇到的问题 现有的大智慧、操盘手等专门的股票软件缺乏预测股价未来动向,辅助投资者决策的 能力,股票趋势预测的研究,主要还是靠人脑来完成。由于在知识、经验、能力上的不足, 加之股票预测问题本身的随机性和高度非线性,普通投资者时常无法正确预测趋势,形成 有效的买卖决策。而现有的人工智能技术分析方法,如人工神经网络等,存在要事先知道 各种参数,以及这螳参数在什么情况下应作怎样的修正等缺点。这些依靠专家经验的预测 系统彳i 符合普通投资者的需要。因此,本文对将莘r 糙集的方法应用于股票预测系统进行了 研究。 通过学习股票预测的已有成果,将料糙集理论应用于股票预测的问题归结为以下几点: ( 1 ) 皋于羊h 糙集理论的数据挖掘软件( 主要有:r o s e t t a 系统、l e r s 系统、k d d r 系统 等) 可以从数据集中得到用于决策的规则。f 日这些软件不能直接处理股票数据这样的时间 序列数据,而且是具有相关理论知识的研究者的软件,使用起来比较困难,其输出结果不 易被理解。因此需要一种专门的易于普通投资者使用的股票预测系统。 ( 2 ) 数据约简足羊 l 糙集方法的核心和关键步骤。数据约简包括属性约简和值约简两个方 面。属性约简要得到一个与原属性集具有同样的分辨能力的最小子集,但求解一个信息系 统的全部约简或计算出最小约简已经被证明是n p h a r d 问题。当数据量很大时,应用韵l 糙集 理论方法处理数据十分耗时。由于股票历史信息的数据量很大,很难通过枚举求出问题的 最小约简。如何通过高效的属性约简算法和值约简算法对数据进行约简足当自i f 羊且糙集理论 研究的再点。 ( 3 ) 由于粗糙集理论要求各元组之间不存在时间相关性,如何去掉股票数据的时f u j 相关 性足应用粗糙集理论抽取决策规则的关键。已有的三种方法为:滑动窗口法、趋势增量法、 c o t u m n i z i n g 法。 ( 4 ) 由于股票的历史数据具有连续性,但以不可辨识关系为核心的粗糙集理论只能对离 散的数据进行处理。所以必须对连续数据进行离散化,现有的离散化方法大致可以分为两 类,一类是很少或不考虑粗糙集理论的特殊性,而是把其它学科中的离散化方法借用到粗 糙集理论上来,冈此离散化效果并不突出;另一类是注意到了粗糙集理论特殊要求,采取 了与粗糙集结合的方法来解决离散化问题。第一类方法容易引入冲突,难以得到较好的离 散化效果;第二类方法能够得到相容的决策表,但算法的时间复杂度和空间复杂度很高。 人迮交通人学i 学硕l :学位论文 1 5 论文的主要内容和创新点 1 5 1 论文的结构 本文主要分为一下几大部分: 第一章简要介绍了选题的背景和粗糙集分析方法研究的现状和趋势,归纳了将粗糙集 理论应用丁股票预测系统中可能遇到的l u j 题,最后介绍了论文的结构创新点。 第二章介绍粗糙集理论,首先阐述信息系统的概念。然后介绍料糙集理论的基础内容, 包括不可辨谚 关系、上下近似、正域、负域、料糙度、依赖度、决策规则等基本概念:然后 给m 属性约简及属性核、值约简、可辨识矩阵及属性重要性的概念。 第二三章给出了时间序列的概念,将时间序列信息系统分为时念信息系统和实时时态信 息系统两类。介绍了股票预测系统时间序列预处理的的三个步骤,平滑处理技术,时间序 列静态属性的抽取方法及离散化方法。通过这一章介绍的方法将时间序列信息系统转化成 粗糙集町以处理的信息系统。 第四章对粗糙集理论的属性约简和值约简的常见方法进行了归纳,并着重介绍了基于 差别矩阵的属性约简算法和值约简算法。重点研究了值约简算法中的标记法,并在原有的 标记值约简算法基础j 二,重新定义了属性值重要性,提出了一种改进的基于属性值重要性 的粗糙集值约简算法,该方法可以对不相容决策表进行属性值约简,进一步约简了原有的 标记法无法约简的冗余属,阽值。最后通过实例分析验汪了其可行性。 第五章主要介绍利用约简后得到的规则表对股票未来趋势预测的方法。其中规则匹配 中会出现四种情况。着重研究了在没有规则与预测对象匹配的情况下的部分匹配法。分析 了部分匹配法的不足,重新定义了预测对象与规则之间的距离公式,给出了根据重新定义 的距离公式改进的部分匹配算法。 第六章根据前四章所述理论,开发的基于粗糙集的股票预测系统。其中值约简部分使 用改进的基于属性值重要性的粗糙集值约简算法,得到较简洁的规则。该系统运用首先给 出了该系统的总体框架。然后结合实验对基于粗糙集的股票预测系统中规则抽取和趋势预 测两个步骤进行详细说明。最后对系统得到的结果进行评价。 1 5 2 创新点 本文将粗糙集理论应用于股票时间序列数据的数据挖掘,在此基础上,使用v c + + 2 0 0 5 丌发环境和o d b c 数据库访问技术,访问s q ls e v e r2 0 0 0 数据库,丌发了股票预测系统。 ( 1 ) 本文重新定义了粗糙集属性值的重要性,在原有的粗糙集标记值约简算法的摹础 上,给出了一- 种改进的基于新定义的属性值重要性的属性值约简算法。该算法不但进一步 第一章绪论 约简了原有值约简算法不能约简的冗余属性值,而且将应用范围从原有的相容决策表扩展 到不相容决策表。并通过实例分析验证了该算法的可行性和有效性。 ( 2 ) 分析并指出了规则不精确匹配近邻算法中预测对象与规则之间距离公式的不足,重 新给出了该公式,使之更加合理。并在该公式的基础上,改进了部分匹配算法。 ( 3 ) 丌发了专门针对股票趋势进行预测的系统软件。该系统的核心使用料糙集方法处理 股票时间序列历史数据。首先对时问序列数据预处理,抽取静态属性,将连续的静态属性 离散化,形成粗糙集方法的决策表,然后使用粗糙集的属性约简与本文提出的改进的基于 属性值重要性的值约简算法对决策表进行约简,得到用于预测趋势的决策规则。投资者可 以方便的使用该系统预测下一个交易日的股价趋势,以辅助投资者做出买卖股票的决策。 最后,用沪、深股市的真实数据对系统进行测试,检验已建立模型的准确率。 人适交通人学i :学硕十学f 节论文 第二章粗糙集理论 半且糙集( r o u g hs e t ,也称r o u g h 集、粗集) 理论是p a w l a k 教授于1 9 8 2 年提出的一种能 够定量分析处理小精确、不一致、小完整信息与知识的数学工具l l l j 2 1 。粗糙集理论最初的 原型米源于比较简单的信息模型,它的基本思想是通过关系数据库分类归纳形成概念和规 则,通过等价天系的分类以及分类对于目标的近似实现知识发现。由于粗糙集理论思想新 颖、方法独特,粗糙集理论已成为一种重要的智能信息处理技术,该理论已经在机器学习 与知识发现、数据挖掘、决策支持与分析等方面得到广泛应用。目前,有3 个有关料糙集 的系列国际会议,即r s c t c 、r s f d g r c 和r s k t 。中因学者在这方面也取得了很大的成 果。 料糙集理论的主要思想足在保持分类能力不变的前提下,通过知识约简,导出问题的 决策或分类规则。相糙集理论足建立在分类机制基础上的,它将分类理解为在特定空间上 的等价关系,而等价关系构成了对该窄问的划分。利用已知的知识库,将不精确或不确定 的知谚 用己知的知识库中的知识来( 近似) 刻l 嘶。料糙集理论与其它处理不确定和f i 精确问 题理论的最显著的区别是它无需提供问题所需处理的数掘集合之外的任何先验信息,所以 对问题的不确定性的描述或处理可以说是比较客观的,由于这个理论未能包含处理不精确 或彳i 确定原始数据的机制,所以这个理沦弓概率论、模糊数学和证据理论等其它处理不确 定或不精确问题的理论有很强的互补性。 基于j f l 糙集理论的应用研究辛要集中在属性约简、规则获取、基于将i 糙集的计算智能 算法研究等方面。由于属性约简是一个n p h a r d 问题,许多学者进行了系统的研究。基于 粗糙集的约简理论发展为数据挖掘提供了许多有效的新方法。比如,针对不同的信息系统 ( 协调的和f i 协凋的、完备的和不完备的) ,结合信息论、概念格、群体智能算法技术等都 有了相应的研究成果。 2 1 知识与知识的表示 知识是人类通过实践认识所得客观世界的规律性:是人类实践经验的总结与提炼,具 有抽象性和普遍性,属于认识论范畴;是信息经过加工处理、解释、挑选和改造而形成的; 是命题和规则的集合。知识获取,就是要从大量的原始数据中分析发现有用的规律性信息, 即是将知识从原始数据表达形式转化为一种新的目标表达形式,以便人类或计算机处理。 基于粗集理沦的知谚 发现,主要借助于称为信息表的知识表达形式。信息表的基本成分是 研究对象的集合,关于这螳对象的知识是通过指定对象的属性和它们的属性值水描述的。 8 第:二章科糙集理论 定义2 1 【1 3 l 一个信息表的知识表达系统s 可表示为:s = 渺,r ,v ,f ) ,论域u 足对象 的非空有限集合,r = c u d 是属性集合,子集c 和d 分别称为条件属性集和决策属性集, v = ij 是属性值得集合,表示属性,r 的属性值范围,即属性厂的值域,f :u x r 专v 函 是一个信息函数,指定u 中每个对象的属性值。若存在一个x u ,c ,厂x ,) 未知( 记 作:厂( x ,) = 宰) ,则称信息系统足不完备的,否则称信息系统足完备的。 定义2 2 【1 3 1 决策表是一个信息表知识表达系统s = ( u ,r ,v ,f ) ,r = c ud 是属性集 合,子集c 和d 分别称为条件属性集和决策属性集,d 矽。 定义2 3 1 8 1 对于每个属性子集b r ,可定义不可分辨二元关系i n d ( b ) 为: i i n d ( b ) = 融,y ) u x u :b b ,厂g ,6 ) = s ( y ,6 ) ( 2 1 ) 显然,d ( b ) 是一个等价关系,j ll n d ( b ) = ni n d ( b ) 。胁r d ) 将沦域u 划分为等价类 b e 8 b 】舢( 曰) = :砂u ,y l n d ( b ) x ,它表示所有与x 不可分辨的对象所组成的集合,换句话 说,是由x 决定的等价类。 2 2 粗糙集理论基础 定义2 4 1 1 4 1 给定信息表知谚 表达系统s = ( u ,r ,v ,f ) ,子集x u 和不可辨识关系日, 集合x 的下近似和上近似可表示为: 集合x 的f 近似:b 一( x ) = xx u ki x 厅互x ) ,即当且仪当b l 互x 时,x b 一( x ) 。 集合x 的上近似:b 一( x ) = xx uai x bnx 矽) ,即当且仅当 x l bnx 矽时, x b 一( x ) 。 定义2 5 1 】集合p o s 。( x ) = b 一( x ) 称为x 的尺正域,n e g 丹( x ) = u b 一( x ) 称为的 r 负域,b r 。= b 一( x ) 一b 一( x ) 称为x 的边界域。 j f 域p o s 。( x ) 或x 的下近似是那些对于知识b 能完全确定地属于x 的对象的集合。 类似地,负域n e g 。( x ) 是那些对于知识b 毫无疑问不属于x 的对象的集合,它们足属于x 的补集一x 。边界域是某种意义上论域的不确定域,对于知识召,属于边界域的对缘不能 确定的划分是j 禹于x 或是一x 。x 的上近似是由那些对于知识b 不能排除它们属于x 的叮 能性的对象构成的,从形式上看,上近似就是正域和边界域的并集。 9 人连交通人。i :学硕十学何沦文 图2 1x 的上近似和卜近似 f i g 2 1t h eu p p e ra n dl o w e ra p p r o x i m a t i o n 在图2 1 中【1 ,每一个小方格代表一个等价类,这些等价类足根据不可辨识关系b 划 分沦域u 得米的。椭圆形曲线所包括的范围为集合x ,深灰色区域表示x 的下近似,浅灰 色区域表示x 的边界,深灰色区域和浅灰色区域合在一起表示x 的上近似。 根据卜近似集和下近似集的定义,不难得到如下命题1 1 4 j : ( 1 ) 当且仅当b 一( x ) = b 一( 工) ,称x 足b 可定义集。 ( 2 ) 当且仅当b 一( x ) b 一( x ) ,称x 足b 粗糙集。 粗糙集的1 可定义性( 不确定性) 是由于粗糙集x 边界彳 确定引起的。集合x 的边界 区域越大,其确定性成都就越小。可以用x 的精度和粗糙度两个概念来描述料l 糙集x 的不 确定程度。 定义2 6 1 1 4 j 假定集合x 是论域u 关于知识b 的粗糙集,定义b 的精度为: l o 第一幸粗糙集理沦 d b ( ) = i b 一( x ) i i b 一( x ) i ( 2 2 ) 其中x 矽,如果x = 矽,可定义d 片( x ) = 1 。 定义2 7 【1 4 l 假定集合x 是论域u 关于知识b 的粗糙集,定义b 的粗糙度为: 吃( x ) = 1 一d 曰( x ) 。 ( 2 3 ) x 的粗糙度和精度恰恰相反,表示的是集合x 的知识的不完令程度。 定义2 8 1 4 1 设集合簇f = 口。,x :,x 。) ( u = u x 。) 是论域u 上定义的知识,b ) c 寸f 近似分类的精度d 付( f ) ,和近似分类的质量( f ) 可分别定义为: 姒f ) = 窆瞰x ,) i 兰阿( i , ( 2 4 ) ( f ) = 窆i = li 召一( x ,) i 彳u i 。 ( 2 5 ) b 对f 近似分类的精度描述的是使用知识b ( 属性子集) 对对象进行分类时,在所有 可能的决策中确定决策所占的比例。b 对f 近似分类的质量是应用知识b 对对象进行分类 时,能够确定决策的对象在论域中所占的比例。 定义2 9 1 1 5 j 信息系统论域中元素x 对集合x 的粗糙隶属度定义为: 以加印掣。 ( 2 6 ) l p j r i 粗糙隶属函数表示在关系r 下元素x 对集合x 的隶属程度。 定义2 10 t l 在决策表s 中,对于x u ,用d ,表示决策规则, 即 d ,:d e s ( x 】。j ) 一d e s ( x 】d ) ,其中沈s 】。,) 表示对等价类b l ,的描述,即等价类b l ,对于各条 件属性值的特定取值;沈s 】,) 表示对等价类b 】,的描述,即等价类b 】d 对于各决策属性 值的特定取值;而对于a = cu d ,d x0 ) = a g ) ,口g ) 为个体x 关于属性口的属性值,且d ,ic 和d 。id 分别称为d ,的条件和决策。 定义2 11 如果对于每个y x ( x ,y u ) ,p c ,d 。ip = d ,ip ,意味着 d 。id = d ,id 则由属性p 下的属性值就可做出正确决策,相反如果d ,id d ,id 则称在 属性足下决策规则产生冲突。 人连交通人学l 学硕f j 。位论文 定义2 1 2 t ”】有决策系统s = 妙,c u d ,v ,厂) ,其中分别表示条件属性和决策属性,则 决策属性在条件属性下的正区域町定义为: p o s r ( d ) = u c 一( x ) 。 ( 2 7 ) x e l 1 ) p o s ,( d ) 表明根据c 的知识所进行的划分u c ,能够确切的划入叫d 类的对象集合。 + 定义3 1 3 1 5 1 决策属性d 对条件属性c 的依赖度定义为: _ ,( d ) :p o 丁s c ( d ) 。 ( 2 8 ) l u 依赖度_ ( d ) 表示在条件属性c 下能够确切划入决策在u d 的对象占论域中总对象数 的比率,表达了决策属性对条件属性的依赖程度。 定义2 1 4 1 1 5 对于一个给定的决策系统s = 妙,c u d ,v ,厂) ,条件属性集合c 的约简是 c 的一个非窄了集p 。它满足: ( 1 ) v a p ,口都是d 不可省略的; ( 2 ) p o s ,】( d ) = p o s ( ( d ) 。 则称p 是c 的一个约简,c 中所有的约简的集合记作r e d ( c ) 。 r 为沦域中对象的属性集合,在近似表达中有一些属性的特征作用不人,可以去掉它 们而不影向对对象的表达。去掉冗余属性后,剩余的属性集仍然保持其等价关系。 定义2 15 t 1 5 1c 中所有不可省略属性的集合称为c 的核,记为c o r e ( c ) ,则 c o r e ( c ) = n r e d ( c ) 。 核的概念具有两方面的意义:一方面,核可作为计算所有约简的皋础。这是许多的启发 式约简算法的 1 5 发点;另一方面,核可解释为知识最重要部分的集合,进行知识约简时不 能够删除它。 定义2 1 6 【1 4 1 若删除某条决策规则d ,中的条件属性口,该条决策规则将和其他决策规 则产生冲突,则称该属性口的属性值d ,( 口) 为关键值。即p c ,d yp - a = d 。lp a 时, d 。id d ,ld ,则称属性口的属性值d ,q ) 为关键值,记为d ! g ) ,对于v 矗:q ) = r ,则称 月为决策舰则d ,的值核。 属性核针对的足整个信息系统,是整个信息系统不可省略的属性;属性值核针对的是 某条规贝0 ,足规则中不可约去的值。 第。:章粗糙集理论 定义2 1 7 1 6 1 令决策表信息系统s = 移,r ,y ,f ) ,r = c ud 是属性集合。子集 c = a ,l fl l 1 , 2 ,m ) 和d = p ) 分别称为条件属性集合和决策属性集合,“= x ,x :,x 。 足 论域,口,b ,) 是样本x ,在属性q 上的取值。c d ( f ,_ ,) 是可辨矩阵中第i 行第j 列的元素。可 辨矩阵c 。定义为: c ,c ,= k i 口i 尸八苫诙三,亏兰0 之? ;,d x j d x j ) ,= ,2 ,一,甩。 c 2 9 , 针对某一具体问题,各属性的重要性是不同的。属性重要性是矢l t t 约简研究中的个关 键概念,为研究属性之| 日j 的关系提供了重要的依据,在决策信息系统分析与处理和数据挖 掘领域都有重要的意义。目前,很多属性约简算法是基于属性重要度的,对于属性重要性 的计算也有不同的定义。 ( 1 ) 由依赖度的变化来定义【1 5 1 利用属性依赖度可以定义属性的罩要程度。通常的做法是将某一个属性a 从c 中除去, 看看它对由c 所产生的正区域的影响程度。从定义3 1 3 可知,( d ) 表示决策属性d 和条 件属性c 之m 的依赖程度,即用c 来描述u ,a 口( d ) 的近似程度。因此可以通过当a 从c 中 除去时,( d ) 的改变来衡晕属性口的重要性。 定义2 18 在决策表s1 1 ,cud ,v ,f ) q h ,口c 的属性重要性定义为: 川= 警小篙。 亿 ( 2 ) 由在可辨以矩阵中出现的频率定义【1 7 】 定义2 1 9 设m 是根据决策表s 构造的可辨识矩阵,令尸( 口) 为在m 中属性a 的频率函 数,它定义为a 在m 中出现的次数,则 仃( ( d ) ( a ) = p ( a ) 。 ( 2 11 ) ( 3 ) 由信息熵定义【1 4 】 信息熵的概念是信息论中的核心概念,假设h ( d 尺) 为d 相对于只的条件熵,属性a 的 重要性定义如下: s g f ( a ,r ,d ) = h ( d r ) 一h ( d ru a ) 。 ( 2 1 2 ) 基于属性值重要性的启发式值约简算法以属性值的重要性作为启发式信息,并以值核 为初始候选集合之后,选择重要性最高的属性值添加到候选集合中,判断当f j i 候选集合是 人连交通人学l :学硕f j 学位论文 否为一个值约简,如此反复直到找到一个值约简为止,因此下面先给出属性值重要性的定 义。 定义2 2 0 1 8
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- GB/T 10357.7-2025家具力学性能试验第7部分:桌类稳定性
- 2025年宁夏安全员考试法规题库答案
- 2025年无人机巡检员巡检研发面试模拟题
- 2025年扶贫基金会面试技巧与模拟题集锦
- 2025年医院会计实施预测题及答案
- 2025年学校安全员技能考核题及答案
- 2025年司法鉴定助理环境面试模拟试卷集
- 2025年安全生产培训考试答案
- 2025年农林技术员资格考试试题及答案解析
- 机票业务培训基础知识
- 2023年高考作文备考之广东重点中学六校四联“鲁侯养鸟”分析
- 半导体制造工艺基础之扩散工艺培训课件
- 溶剂油MSDS危险化学品安全技术说明书
- 检验标本的采集与运送课件
- 济南版生物七年级下册课程纲要
- 福建升辉鞋业有限公司年加工EVA鞋底385万双、TPR鞋底65万双、PVC鞋底60万双项目环评报告表
- 胸腺瘤诊断治疗指南
- 班主任到场签到表
- 视网膜静脉阻塞.LM
- 海底捞-A级门店管理制度
- 《陶行知教育名篇》读书笔记(课堂PPT)
评论
0/150
提交评论