(数量经济学专业论文)重复剪辑近邻法股票价格预测.pdf_第1页
(数量经济学专业论文)重复剪辑近邻法股票价格预测.pdf_第2页
(数量经济学专业论文)重复剪辑近邻法股票价格预测.pdf_第3页
(数量经济学专业论文)重复剪辑近邻法股票价格预测.pdf_第4页
(数量经济学专业论文)重复剪辑近邻法股票价格预测.pdf_第5页
已阅读5页,还剩76页未读 继续免费阅读

(数量经济学专业论文)重复剪辑近邻法股票价格预测.pdf.pdf 免费下载

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

器赢交遴大学硕士磺交懋学倥论文第l 燮 摘要 证券市场是一个公认的掇现高度复杂性的非线性系统,预测难度很 大。传统鲮聚类分穆方法遇裂强毒力戆挑战,热慰麓维窆翅骢臻蘸数据 以及不规则分布具有任意形状数据的分析。避邻法由于在理论上进行了 深入地分析,直至现在仍是模式识别非参数法中最冀要的方法之一,包 括基予各耱蛰定疫量稳最近邻法; 器k 近邻法。传统= i 嚣邻分类舞法痤舔于 证券价格预测时,需要在样本间进行大量的比较,占用巨大的存储空间 和计舞时间,并且当决策错误产生的代份很大对,会导致较大的风黢。 剪辑涯邻法邋过一系列算法敬进,避免了通常计量经济模型中特异数据 影响模型参数的现象,同时党服了普通近邻算法计算和存储壤大的的主 要缺点,部分鳝决了迄数据绻数过袁对可施发生维数灾难的滚题。零文 针对证券价格日常波动的技术特征建立模型,试图在对大量原始数据的 重复剪辑近邻法迭代颚处理过程中,逐级筛选出对于聚类效果最显游的 特征数据或箕缰台,逐步分离密滢合在原始数蕹中静噪声搴酲不确定茵 素,释找最能反映股价波动规律的主导型变麓和因素,在保证一定的预 测正确率的竭时尽量减少计冀量,褥到数量较少的对应于各必别的代表 性样本,完成对输入数据空澜的分割,觚而嶷现对予任何未知样本酃可 以采用某种度量方式找到己知代表样本中与旗最相似的样本,据以究成 类别翔羼判蘩,最终实瑷预测。本文采震重复剪辑秘增翔踅缝决策功楚 的改进算法进行预测,并结合中国沪深证券市场个股交易资料迸行实证 检验。结果表明和普通算法相比,预测正确率有明显提高。本文通过对 参数敬值及鏊组舍对预溅结象影滴的讨论帮舞法熬筠都改邃,姨一个较 新的角度得出一些有意义的绪论。实证分析袭明,运用具有拒绝决策功 能的踅复剪瓣远邻算法,对攒导广大投资者进行投资决簧具蠢很强瓣实 用性。 关键调近邻篝法;颓溺;分类分毒嚣;模式谖澍;谨券 套掺 瑟瘫交遴大学硕童磷究垒学位论文第l l 廷 f o r e c a s tln gt h ep ri c eo fs t o c kw i t h r e p e a t e de d itin gn e a r e s t n eig h b o rr uie s n e a r e s t - n e i g h b o rr u l e si so n eo fm o s ti m p o r t a n tn o n p a r a m e t r i c p a t t e r nr e c o g n i t i o n c l a s s i f i e r su pt on o w ,t h et h e o r yo fi th a s b e e n w i d e l y s t u d i e db yd i f f e r e n tr e s e a r c h e r s a n d m a n y d r 8 c 七i t i o n e r s t h en e a r e s tn e i g h b o r ( n n )c l a s s i f i c 8 t i o nr u l e s c o n s i s to fs e v e r a lm e t h o d ss u c ha s 卜n na n dk - n n ,w h i c ha c c o r d i n g t oc e r t a i nd i s s i m i l a r i t ym e a s u r e m e n t s e x p e r i m e n t a lr e s u l t sw i t h r e a ld a t af r o mv a r i o u sd o m a i n so fs t o c kp r i c ef o r e c a s t i n gi nt h e s e c u r i t i e sb u s i n e s s ,t r a d i t i o n a ln nn o to n l yr e q u i r ee x c e s s i v e t i m e sb u ta l s ol e a dt oe n o r m o u sc o m p u t a t i o n a lb u r d e n ,a n dt h er i s k i st o ot r e m e n d o u sw i t hw r o n gd e c i s i o n - m a k i n g e d i t i n gn n a l g o r i t h m sa r ev e r ys e n s i t i r et ot h et o t a ln u m b e ro fp r o t o t y p e s c o n s i d e r e d t h i sp a p e ri n v e s t g a t e st h ep o s s i b i t i t yo fm o d i f y i n g o p t i m a le d i t i n g t o c o p e w i t hab r o a d e rr a n g eo fp r a c t i c a l s i t u a t i o n s m o s ti n t r o d u c e de d i t i n ga l g o r i t h m sa r ep r e s e n t e di n au n i f l e df o r ma n dt h e i rd i f f e r e n tp r o p e r t i e sa r ei n t u i t i v e l y a n a l y z e d o p t i m a lp r o p e r t i e so ft h ee d i t i n ga l g o r i t h m sh a v eb e e n c o n s i d e r e da n dt h e i rb e h a v i o ru n d e rt h es m a l ls a m p l e s i z e a s s u m p t i o nh a sb e e ns t u d i e da n di 1 1 u s t r a t e dw i t hr e a le x p e r i m e n t s 。 t h er e s u l tc l e a r l yi n d i c a t et h a ti m p r o v e de d i t i n gt e c h n i q u e sa r e r e q u i r e df o rt h ec 8 s e si nw h i c ho n l ys m a l ls a m p l e sa r ea v a i l a b l e w h i c h ,i np r a c t i c e a r eu n f o r t u n a t e l y1 7 0 0o f t e nt h ec a s e t h i s g e n e r a l l yg i v e si m p r o v e da n dm o r er o b u s tr e s u l t s f r o map r a c t i c a l s a n d p o i n t ,t h ec o m p u t a t i o n a lb u r d e nt h a ti m p r o v e de s t i m a t e s i m p l yi sw o r t ht h eb e n e f i t si np e r f o r m a n c e ,a n db e h a v i o ro ft h e a l g o t i t h m sd i r e c t l vd e p e n d so nt h en u m b e ro fi t e r a t i o n sw h i c hi n t u r nd e p e n d so nt h ec o m p l e x i t yo ft h ep r o b l e m t h e s ei d e a sc o u l d b ec o m b i n e du s i n ga l t e r n a t i v e ,s p e c i a ll ya d a p t e d ,e r r o re s t i m a t e s t ob e t t e rt u n et h et r a d e 。o f fb e t w e e nt h ee r r o r e s t i m a t i o n r e l i a b i l i t y v e r s u ss t a t i s t i c a l i n d e p e n d e n c e e x p e r i m e n t a l r e s u l t sw i t hr e a ld a t as h o wt h a t n nr u l e sw i t hr e p e a t e de d i r i n g a n di n c a p a b l e d e c i s o na l g o r i t h m sa r ev e r yu s e f u lt ot h en u m e r o u s i n v e s t o r s w h e nt h e ye n v i s a g ea no p p o r t u n i t yo f ,n e g o t l a b l e s e c u r i t i e s k e y w o r d s : e d i t e d n n r u l e f o r e c a s t in g ,o i a s s i f i c a t i o n a l g o r i t h m s ,p a t t e r nr e c o g n i t i o n ,s t o c kp r i o e _ _ _ _ _ _ - _ _ w - _ _ _ _ _ _ _ 。- _ _ h 。_ _ _ _ _ _ _ 。_ _ _ _ _ _ _ _ _ _ _ - - 。- 。_ 。_ - _ _ _ _ * 。- - 。_ _ 。- - _ _ - _ _ 。_ _ _ _ _ - _ _ _ _ _ 。_ _ _ _ 。_ - - - _ _ _ _ 。- - _ _ _ _ _ - - _ _ _ _ - - 一。_ 。_ - - - - _ h _ - 一 西南交通大学硕士研究生学位论文第1 页 1 1 研究背景及意义 第1 章绪论 经济预测是对经济现象未来发展前景的测定,为决策提供依据。初 期阶段的经济预测,靠个人的才智、知识进行判断,也称为经验预测。 其后数学尤其是统计方法广泛应用到经济预测中来,大大发展了定量预 测的理论和实践。由于计量经济学、运筹学、信息论、系统论、控制论 和电子计算机的出现,预测理论和方法在7 0 年代出现了一次飞跃,出 现了数学化、模型化、计算机化的热潮。 整体观、还原论和决定论以及依此为范式的自然科学研究所取得的 成果,深深影响着人们的世界观,构成了现代预测范式的基本框架。几 乎所有的预测技术和方法,其基本思想和假定都可以归结为:事物之间 的关联程度是可以测量的,表现为相关系数的大小;任何事物的发生和 发展都是有原因的,同因同果;过去发生一定规律的力量,在未来也将 产生同样的规律性,对历史数据的拟合常被作为评判预测模型的一项重 要指标;初始条件越精确给定,预测结果就会越有效;事物的发展存在 惯性,未来可从过去得到延伸,由历史轨迹即可推断未来;只要解释变 量是充分的,被解释变量的拟合误差就可减小,误差被认为是不可解释 变量作用所引起的,具有随机性。预测的这些基本思想和假定为人们认 识社会、经济、技术系统的运动规律,展望它们未来发展的图景,提供 了思维框架和缄默的原理。 在自然界和社会生活中,有许多现象虽然也遵循着某项经济法则, 但人们还是难以确定其变化的因果关系,而是呈现随机性,如通货膨胀、 证券市场的价格波动等。依赖建立在传统科学范式基础上的预测思想和 假定已经越来越不能圆满地解释或解决许多复杂的经济现象或问题。例 如貌似随机的股市行情常常很难在其变化背后找出原因。 经济预测研究的对象通常是由相互之间非线性作用的多种因素构 成的开放的复杂系统,其行为大多是动态、不稳定、不连续、不可逆的。 面对经济预测的困难性,研究者一直在积极探求提高预测精度和预测有 效性的理论和方法,不断对原有的预测思想和假定提出质疑并加以补充 和修正,一方面通过应甩新的科学理论探索新的预测方法,如神经网络、 模糊逻辑、可拓学物元模型、灰色系统、混沌和分形、组合预测等,另 一方面将计算机、人工智能与预测技术相结合开发新的预测工具,如智 西南交通大学硕士研究生学位论文第2 页 能预测支持系统,取得了许多重要成果。 许多学者分别从不同的角度或是利用不同的理论和方法对证券市 场预测提出了自己的看法或是将某种理论应用于预测实践中。其中基于 聚类分析的预测方法应用较少,而基于近邻算法的股票价格波动预测截 至目前尚未见到。主要原因在于,理论上较为完善的近邻算法,因为其 巨大的计算和存储量而难以在实践中付诸实施,从而只能应用于一些简 单问题的处理。如今高速计算机性能的突破,提供了该方法实际应用的 可能。文中首先对原始数据进行重复剪辑迭代处理,删除混杂在样本集 中的大量噪声样本,然后采用k 近邻算法完成分类判决,并以此实施预 测,最后结合个股进行实证检验。 1 2 文献综述 1 2 1 证券市场的可预测性 有效市场理论指出,证券价格在市场有效的条件下,呈现随机游走 特征,因此技术分析和掷骰子办法选出的股票,最终的表现相差无几。 王哲等( 1 9 9 9 ) 则认为股市涨跌存在自身的规律性,无论长期和短期都具 有一定的可预测性。林玲等( 2 0 0 0 ) 的研究表明采用移动平均线技术分析 交易策略可以获得比买入持有策略较高的平均收益率。常松等( 2 0 0 2 ) 以 上证综指为例通过匹配追踪算法推断出中国股市不符合随机游走模型, 而是存在一定的可预测性。杨一文等( 2 0 0 3 ) 的结论是上海股票市场的价 格波动具有长期记忆性,因而可以预测。徐薇等( 2 0 0 5 ) 认为技术分析是 有用的,通过采用相应的策略,投资者可以获得超常的利润。胡杉杉等 ( 2 0 0 1 ) 比较了证券技术分析方法和随机游走模型,认为我国金融市场的 证券收益存在可预测成分,并由此提出金融市场价格预测的理论框架。 综合以上各种研究成果,拒绝了随机游走假设,也就是说中国金融 市场的证券价格存在着可预测的成分。不过有意思的是,即便如此,王 金玉( 2 0 0 4 ) 和俞雪飞等( 2 0 0 3 ) 的研究表明,中国股市专业投资咨询机构 的预测水准仍实在有限。因此,对于技术分析的作用不能给予过于乐观 的信任或者说是迷信。 中国证券市场呈现弱有效性的原因可能在于,作为一个新兴市场, 法制、监管等因素造成市场信息传递效率低下,投资者在博弈中存在严 重的信息和资金实力不对称,而且这种不对称状态并不能在市场中迅速 消除,因此f a m a 所描述的概率上的“瞬时性”还无法达到,而这种市场 西南交通大学硕士研究生学位论文第3 页 结构的特点,使得某些“技术分析”成为信息挖掘的成本。无论如何, 至少目前在我国,各种预测技术方兴未艾,大量的投资者分别按照自己 的经验采用各不相同的指标作为投资决策的依据,在市场上低买高卖, 获得了成功,也经历过失败。 由于股票指数序列呈现高度的非线性,致使经典模型的有效性受到 了挑战,如经典的计量经济模型普遍要求残差无关、变量之间互相独立 等,时间序列模型则以平稳性为前提。计算机技术的进步,使预测理论 得以和统计学、信息技术、优化算法紧密结合,使证券分析方法向数量 化、复杂化和智能化方向发展。 1 2 2 股市预测的基本方法 预测金融资产价格的方法基本可以分为两类:基本分析和技术分 析。基本分析通过研究影响证券供求关系的基本因羲确定证券的内在 价值,并根据供求平衡规律判断市场的走势,提出投资建议。基本分析的 理论假设是:一种证券在任何时点都有一个内在价值,由证券的盈利潜 力所决定,取决于宏观经济、行业前景、公司业绩、财务结构、投资者 心理等因素,指出了价格未来波动的方向。通常的基本分析缺乏理论上 的严谨性和系统性,更多集中于定性分析,但我国金融市场中广泛存在 的炒作现象导致证券价格短期内剧烈地波动,使投资者往往怀疑内在价 值是否真的存在。因此,现实中投资者更多采用的是技术分析。 技术分析根据证券市场的历史数据,应用数学和逻辑的方法,归纳 总结一些典型的行为,从而分析和预测证券将来的变化趋势。技术分析 的描述方法带有一定的神秘色彩,甚至有人把技术分析和占星术相比。 目前仍比较盛行的技术分析理论有:道氏理论、艾略特波浪理论、江恩 理论、亚当理论等。虽然技术分析门类繁多,但还是有几个共同的假设 作为基础:第一,证券的市场行为已经包含了宏观、微观经济的一切信 息;第二,价格总是按照某种趋势运动:第三,价格的运行方式往往会 重复历史。对技术分析的争论主要也集中在上述三个假设之中,显然, 其与有效市场理论是不相容的。 1 2 3 技术分析方法的新发展 金融市场广泛使用k 线图记录交易信息,因此图表是传统技术分析 的基本工具,具有明显和直观化的优点,但图表分析与指标选择常常依 靠主观判断,这正是传统技术分析方法所面临的主要困境。计算机技术 西南交通大学硕士研究生学位论文第4 页 的进步,使各种分析、预测理论得以和统计学、信息技术、优化算法紧 密结合,各种方法的组合和综合模型层出不穷,预测效果逐步提高。 人们常称中国股市是“政策市”和“消息市”,这的确反映了中国 股票市场某些特征。宏观上来讲,证券市场进出的资金流量确实对整个 市场的运动起到决定性的作用,政策面的变化势必会改变进出证券市场 的资金流量,从而形成某一阶段的“趋势”,政策面和消息面的变化会 很大地改变人们对价格的未来预期;进而改变投资者的投资选择。这种 能量在价格系统里的释放往往服从着一定的规律,这就是一些非线性预 测模型近年在技术分析中兴起的原因。对非线性混沌动力系统进行背景 分析和研究,将神经网络、混沌和分形理论、遗传算法以及系统理论和 当代应用数学研究的最新进展等诸多理论与方法应用于金融研究领域, 己成为一大热点。 好的预测模型,必须具备自学习性、容错性和快速易用性等特点。 具体说,随着外部信息的增加,系统能不断学习新知识并对其已有知识 进行优化,在输入样本数据不完备或带有噪声的情况下,系统能得出较 为准确的估算结果,并旦系统响应快。 1 2 3 1 神经网络模型 神经网络是一种大规模并行处理系统,具有良好的适应性、自学习 能力和较强的抗干扰能力,是人类处理智能问题的一个非常重要的领 域。神经网络具有强大的非线性映射能力,能够从大量的历史数据中进 行聚类和学习,自动提取样本隐含的特征和规则,进而找到某些行为变 化的规律,可以实现任何复杂的因果关系。吴贻鼎等( 2 0 0 2 ) 和朱赞等 ( 2 0 0 2 ) 分别将b p 和r b f 神经网络应于股市预测。崔建福等( 2 0 0 4 ) 发现 b p 神经网络模型普遍显著优于g a r c h 模型,从而认为对股票价格这样波 动频繁的时间序列,从非线性系统的角度建模略胜于从非平稳时间序列 的角度建模。 由于传统算法具有收敛速度慢、全局寻优能力较差的缺陷,应用效 果有限。更多的研究将主要精力放在对网络结构和参数的改进上。丁雪 梅等( 2 0 0 3 ) 以量价指标作为网络输入,发现改进后b p 算法的预测结果 比回归预测、指数平滑预测和灰色预测都要好。 当前,神经网络预测方法的应用有两个明显特点。一方面,模式识 别和数字信号处理等领域的特征选择和提取方法,广泛用于神经网络输 入参数的甄别。常松等( 2 0 0 1 ) 采用小波包最优分解方法,段虎等( 2 0 0 2 b ) 利用混沌吸引子的相关理论,对输入数据进行选择。何芳等( 2 0 0 3 ) 采用 西南交通大学硕士研究生学位论文第5 页 扩展k a l m a n 滤波的神经网络学习算法。夏景明等( 2 0 0 4 ) 充分考虑各技 术指标之间的序列相关性,将灰色gm ( 1 ,1 ) 模型的预测残差进行修正 后作为网络输入。武振等( 2 0 0 4 ) 将波浪理论应用于价格、成交量特征样 本序列选取。杨小平( 2 0 0 4 ) 对所选取的量价输入变量进行主成分分析后 作为神经网络的输入。 另一方面,新的网络模型不断涌现,并被应用于预测实践以提高映 射效率,如模糊网络和小波网络等。陈兴等( 2 0 0 1 ) 采用了基于t s 模型 的模糊神经网络模型。杨一文等( 2 0 0 3 ) 应用模糊神经网络模型和r s 分 析方法,预测结果较好。张新红( 2 0 0 1 ) 提出了利用小波神经网络进行证 券市场预测的通用模型。陈义安等( 2 0 0 3 ) 认为小波神经网络明显优越于 普通神经网络模型。 神经网络的缺陷在于,网络结构只能事先指定或应用启发式算法在 训练过程中寻找,需要在充分了解待解决问题的基础上,主要依靠个人 经验来确定没有统一的规范,往往需要通过反复改进和试验,最终才能 选出一个相对较好的设计方案,并且网络训练过程易陷入局部极小点。 神经网络预测的最大缺点是,无法表达和分析被预测系统的输入输出之 间的关系,难以解释系统输出结果。只有基于规则推导的模糊神经网络 可以部分解决此问题。 1 2 3 2 灰色模型和随机过程模型 邓聚龙教授创立的灰色系统理论,以“部分信息己知,部分信息未 知”的“小样本”、“贫信息”不确定性系统为研究对象。灰色预测普遍 采用g m ( 1 ,1 ) 模型,经由累加生成削弱原始数据的随机干扰,突出系 统所蕴涵的内在规律,通过求解连续微分方程,从而建立系统发展变化 的动态预测模型。刘星迟等( 2 0 0 3 ) 分别对上证指数年均值涨幅大于3 0 的年份和月均值涨幅大于1 0 的月份进行了预测。李国平( 2 0 0 5 a ) 在分别 利用日、周、月和年作为时间单元进行灰色预测的基础上给出了股市大 盘灰色组合预测方法。李国平( 2 0 0 5 b ) 对灰色预测理论的具体应用进行 了很好地总结。 马尔可夫过程是无后效性的随机过程,是一种应用极为广泛的传统 方法。许双魁( 1 9 9 9 ) 、侯永建等( 2 0 0 3 ) 将上证指数划分为数个数值区段, 估计了指数处于各个区段的概率。余敏等( 2 0 0 3 ) 提出了马尔柯夫链和模 糊模型。 g m ( 1 ,1 ) 模型的解为指数型曲线,其几何图形是一条较为平滑的曲 线,比较适用于具有增长趋势的问题,而对随机性波动较大的数据进行 西南交通大学硕士研究生学位论文第6 页 预测,会影响预测精度。而马尔可夫模型通常只能用于对数据波动区间 的估计,不能进行精细刻画。因此,在实际应用中两种方法常常结合在 一起。岳朝龙等( 1 9 9 9 ) 发现灰色马尔可夫模型可以显著改善预测效果。 王露璐等( 2 0 0 4 ) 的研究进一步证实了上述结论,但同时指出在市场出现 暴涨和暴跌时,由于模型夸大了旧有信息对系统中新信息的影响度,模 型的误差通常相对较大。 1 ,2 3 3 分形和混沌模型 金融市场公认具有典型的分形和混沌特性。多重分形方法使我们能 分层次地了解复杂体系的内部精细结构和所富含的信息,有望找到多重 分形参数和金融数据中大幅涨落间的关联性,从而以一定的概率反映和 预测金融市场的剧烈动荡。周孝华等( 2 0 0 5 ) 从理论上推导出金融资产价 格的高频时间序列出现大幅震荡前后多重分形谱所具有的异象特征,对 持续大幅波动的开始及结束做出一定预测。彭继兵等( 2 0 0 5 ) 用变维分形 理论来建立关于股票市场的卡尔曼滤波状态方程和观测方程,提出了一 种实时跟踪预测算法。 混沌是指由非线性系统所产生的复杂的不规则行为。到目前为止, 对于混沌尚未有统一明确的定义,通常由系统的初值敏感性、非周期性、 存在奇怪吸引子、确定性的随机现象、长期行为的不可预测性等特征来 加以确定。段虎等( 2 0 0 2 b ) 证实我国证券市场的运行具有混沌特征。混 沌时序建模,首先要重构相空间,接着再利用非线性函数逼近方法构造 一个动力学系统模型。段虎等( 2 0 0 2 a ) 分析了上证指数的混沌特性,应 用相空间的多点相似方法很好地预测了上证指数的中期走势。吕红林等 ( 2 0 0 3 ) 应用奇异谱分析( s s a ) 的方法提取序列中隐含的波形信号,然后 利用自回归移动平均模型( a r m a 模型) 进行短期预测。 分形和混沌方法运用于金融时间序列的研究具有巨大的优势和潜 力。不仅如此,分形和混沌作为一种极其有效的非线性分析工具,广泛 用于时序特征的提取,为神经网络输入变量选择提供依据。杨一文等 ( 2 0 0 1 ) 用小波变换重构股市系统光滑吸引子,以状态矢量作为神经网络 的输入,对上上证指数行情的启动、顶部、短期调整的几个关键点位进 行预测。程瑜蓉等( 2 0 0 3 ) 采用混沌时间序列的分析方法确定径向基函数 网络的参数。马军海等( 2 0 0 3 ) 建立了非线性自相关混沌模型,采用神经 网络和小波理论相结合的方法对模型参数进行辨识。龙建成等( 2 0 0 5 ) 根 据非线性动力学系统理论建模,采用神经网络提取标准模式,对行情的 高低点进行了较准确的预测。 人们常称中国股市是“政策市”和“消息市”,这的确反映了中国 西南交通大学硕士研究生学位论文第7 页 股票市场某些特征。宏观上来讲,证券市场进出的资金流量确实对整个 市场的运动起到决定性的作用,政策面的变化势必会改变资金流向,从 而形成某一阶段的“趋势”,影响人们对价格的未来预期,进而改变投 资者的投资选择。这种能量在价格系统里的释放往往服从着一定的规 律,这就是一些非线性预测模型近年在技术分析中兴起的原因。对非线 性混沌动力系统进行背景分析和研究,将神经网络、混沌理论、遗传算 法以及系统理论和当代应用数学研究的最新进展等诸多理论与方法应 用于金融研究领域,已成为一大热点。 1 2 3 4 统计模式识别方法模型 证券市场是个公认的呈现高度复杂性的非线性系统,直接预测价 格波动的具体数值难度很大也不定准确,因而也没有必要。段虎等 ( 2 0 0 2 a ) 认为对证券的小幅波动很难准确描绘,只能预测其基本走势。 不妨将价格未来波动的方向按照一定的标准划分为不同的类别,如大幅 上涨类、轻微下跌类等,这样就将价格预测问题转化为一个类s o y - 0 断问 题,于是就可以运用统计模式识别的方法。首先分析影响证券价格波动 的因素并采集所需要的数据得到样本观察值,然后根据识别对象的特征 运用聚类或分类算法将其划分为不同的类别,最后对于需要预测的未知 样本,利用某种判别规则将其归入已知的类别中去,从而实现预测。武 振等( 2 0 0 4 ) 认为股价预测就是状态模式的识别,关键在于信号特征提取 和预测模型的选择。王浩等( 2 0 0 5 ) 应用改进的近邻聚类算法进行中长期 滚动预测。 聚类方法的优越性主要体现在模型输入变量的选择极为自由,既可 以从价格时序中提取特征,又可以选择影响价格变动的原因变量。但由 于金融市场具有的高度复杂性,传统的聚类分析方法遇到强有力的挑 战,如对高维空间的稀疏数据以及不规则分布具有任意形状数据的分 析。新兴的支持向量机( s v m ) 理论,能将很多现有方法纳入其中,为 解决有限样本学习问题提供了一个统一的框架。陈友等( 2 0 0 3 ) 提出种 基于连续的和过程化的动态选择s v m 算法。施燕杰( 2 0 0 5 ) 认为支持向量 机有比神经网络更好的拟和精度和泛化能力。 1 2 3 。5 其他模型 王培勋( 2 0 0 0 ) 应用最小二乘法分段拟合了成交量关于价格的非线 性回归方程,并通过对回归方程的弹性分析,揭示了量价变化之间相互 作用的内在规律,提供了一种选股策略。童恒庆( 2 0 0 1 ) 提出多元非参数 回归曲线漂移模型。胡冰等( 2 0 0 3 ) 将遗传算法和传统的基本分析和技术 分析结合起来,给出一种优选股票的方法。蔡军伟( 2 0 0 4 ) 提出信源熵指 西南交通大学硕士研究生学位论文第8 页 标,指出其变动提前于股价变动方向,可用于预测股价的中长期走势。 曾凡仔等( 2 0 0 4 ) 将时间序列预测问题转化为多类分类问题。王群勇 ( 2 0 0 5 ) 利用广义方差分解研究了沪市各个分类指数之间的关系,显示了 系统冲击在各个行业指数之间传递的特点。 1 2 4 各种预测方法的简要评价 观察各种预测方法,虽然手段各异五花八门,但基本都可以归纳为 时间关系模型和因果关系模型两大类。在时间关系模型中,将预测对象 的演变过程与时间相联系,如混沌时序模型、灰色模型、随机过程模型 等。因果关系模型认为被预测事物与其影响因素之间,在一定时间内保 持着某种固定关系,如神经网络模型以及聚类模型等。时间模型直接从 价格自身历史运动轨迹中寻找规律;因果模型则寻找影响价格变动的可 能原因,试图在原因和结果之间建立某种有效和稳定的联系。不难发现 本文中提及的模型具有许多共同的特点。 12 4 1 重大盘综合指数预测,轻个股预测 大部分预测方泫在进行理论验证的时候,都是以上证或深证综合指 数作为预测对象,而不是选择个股。其中原因,固然可以理解为大盘指 数更具有一般性。大盘指数是交易市场上所有股票按股本加权的平均指 数,综合反映股市整体的涨跌幅度情况,和个股走势相比,因不易受人 为因素控制而显得更加稳定,波动幅度明显要小得多。夏景明等( 2 0 0 4 ) 认为大盘指数的预测相对容易,方法如果在个股中推广中则有一定的难 度。陈兴等( 2 0 0 1 ) 和谢衷洁等( 2 0 0 4 ) 的研究都表明,同一模型对个股的 预测误差明显大于大盘。显然,个股预测和大盘预测是两个难度有别的 问题。吴贻鼎等( 2 0 0 2 ) 认为对个股中大量存在的假突破、振荡洗盘、短 期飙升和暴跌等现象进行预测的正确蛊较低。扬德权等( 1 9 9 9 ) 分析了股 市波动较为剧烈时期股票价格的动态行为,研究表明此时股票价格难以 预测。 对于神经网络模型来说,只要网络节点和隐层数量足够多,则其能 以任意小的误差逼近任何函数。不过,网络的预测能力有时甚至和拟合 能力背道而驰。个股交易数据如果波动剧烈或是包含太多的噪声,直接 作为网络输入,- 一些特异样本会对网络结构和参数产生显著影响,从而 降低其预测性能。个股预测困难还体现在,由于波动剧烈,可能导致预 测集合与学习集合各自包含不同的数据结构,从而割裂历史和未来之间 测集合与学习集合各自包含不同的数据结构,从而割裂历史和未来之间 的联系。 西南交通大学硕士研究生学位论文第9 页 1 2 4 2 预测方法的长期有效性很少得到完全检验 大部分预测方法都是对1 0 个交易日以内的短期交易数据进行预测, 这本无可厚非,马军海等( 2 0 0 3 ) 和彭岩等( 2 0 0 3 ) 都认为随着预测时间的 延长,相对误差从总体上是上升的。其不妥之处在于,仅给出了对应于 极少样本的预测结果,而没有在更大的范围或更长的时间段内进一步滚 动检验。一旦模型对过去的历史数据进行了相对准确的拟合,按照趋势 外推原理容易知道短期预测成功的可能性较大。 也许有人认为,既然已经对既定证券的短期走势做出了相对准确的 预测,似乎只要随着时间的推移,不断将新的交易数据纳入模型中,只 要重新计算参数,不就可以实现滚动预测了吗? 其实只要看一下证券的 历史走势就能发现,不同时期的波动特点差异甚大。新的数据可能遵从 完全不同的规律,此时需要改变的就不仅仅是模型参数,甚至还有模型 结构本身。滚动预测结果能够对模型的普适性提供更严格的检验。杨一 文等( 2 0 0 1 ) 认为个股不同时段走势的复杂程度不同,从而会造成预测效 果不佳。 1 2 4 3 重常规模式预测,轻异动模式捕捉 实际上,个股在大多数情况下走势平稳,似乎为各种方法提供了大 展拳脚的舞台。但我们稍加思索,就不难发现问题远非如此简单。预测 的目的显然不是为了求得预测正确率数字的提高,而是据以发现能够以 很大概率成功的获利模式,这也就意味着证券市场上真正有意义的预测 应该是异动点捕捉,也就是说发现股票价格出现异动( 大幅飙升) 时的 技术特征。从这一点来看,任何变换或是滤波后应用平稳序列方法进行 预测的企图,都是值得商榷的。这也是本人不主张以相对误差率作为评 价预测效果指标的原因。戴洁等( 2 0 0 2 ) 认为在一个严格的筛选机制下, 有为数不多的情况被认为出现了买入和卖出信号,相应地,这些信号的 确可以带来极高的收益。真正的获利机会恰恰隐藏在波动剧烈的非平稳 个股中间。对此,模式识别和智能化方法可能具有意想不到的效果。 1 2 4 4 变量选择对模型成败具有至关重要的影响 由于人们对证券价格这样的非线性系统的内部运行机制缺乏深刻 的认识股价的变化往往是诸多因素的综合反映,因此很难判断哪些变 量对预测目标有较大的影响。有效地选取输入变量成为决定模型预测准 确性的关键因素。武振等( 2 9 0 4 ) 认为预测的准确性依赖于训练样本的代 表性。 西南交通大学硕士研究生学位论文第10 页 1 2 4 5 没有提供关于预测信息的风险估计 最为严重的是,所有的预测都没有区分不同预测结果的风险,因为 不同决策结果可能带来的损失是不同的。如看跌预测无论对错都不会对 交易者带来任何损失,因为交易者不会据此做出买入决定,而看涨预测 一旦错误就必然会给投资者带来财产损失。可见,看涨和看跌预测对投 资者的现实影响是不相同的,其根本原因在于中国股市的现有交易制 度,只有做多机制而没有做空机制,从而限制了可能的获利空间。至少 在中国当前的金融市场,仅仅做出预测是不够的,还要提供该预测结果 的可信度指标,也即该看涨预测在多大程度上是准确的。 1 2 5 关于预测方法未来发展方向的粗浅认识 混沌和分形,作为主要的非线性科学分支,正处于快速发展阶段, 新的理论研究成果不断被应用到金融领域,为证券预测提供了大量的方 法。小波变换等优秀的时频分析工具,以及卡尔曼滤波等时序处理方法, 广泛用于特征的选择和提取,并与神经网络方法相结合。遗传算法、蚁 群算法、粒子群算法以及模糊逻辑等现代智能方法成功地用于模型优 化。一个明显的发展趋势是,各种方法的组合和综合模型层出不穷,预 测效果逐步提高。组合方法的般模式是,首先对所变量集合进行预处 理提取特征,得到能比原始数据更能准确反应预测对象特征的变量,作 为神经网络的输入,而神经网络的结构和参数则通过智能算法进行优 化。 1 3 主要研究内容 最初的近邻法是由c o v e r 和h a r l :于1 9 6 8 年提出的,由于对该方法 在理论上进行了深入地分析,直至现在仍是模式识别非参数方法中最重 要的方法之一。其包括基于各种特定距离度量的最近邻法和k 近邻法。 重复剪辑近邻法是其改进算法之一,试图在对大量原始数据的重复剪辑 迭代预处理过程中,逐级筛选出对于聚类效果最显著的特征数据或其组 合,逐步分离出混合在原始数据中的噪声和不确定因素,寻找最能反映 股价波动规律的主导型变量和因素,在保证一定范围预测正确率的同时 尽量减少计算量,得到数量较少的对应于各类别的代表性样本,完成对 输入数据空间的分割,从而实现对于任何未知数据都可以采用某种度量 方式找到已知代表样本中与其最相似的样本,据以完成类别归属判断, 最终实现预测,以避免通常计量经济模型中特异数据影响模型参数的现 象。该算法的主要缺点在于计算量大且需编制相应的计算机程序,尤其 西南交通大学硕士研究生学位论文第11 页 当数据维数过高时会发生维数灾难。 本文介绍了重复剪辑近邻算法的原理和实现步骤,并结合中国沪深 证券市场个股交易资料进行实证。文中介绍了一系列改进算法,剪辑过 程中有关参数取值及其组合对预测结果的影响,是本文讨论的重点。 西南交通大学硕士研究生学位论文第12 页 第2 章近邻法 聚类分析以某种度量( 如欧氏距离、相似系数或关联度等) 作为判 别标准,其主要目标就是要识别存在于数据中的聚类或结构。近邻算法 作为一种密度估计方法,是模式识别非参数方法中最重要的方法之一。 当已知总体表现为显著非正态分布时,特别是当属于同一类的样本在变 量空间形成聚类时,近邻法十分有效。与参数类方法相比,近邻法适用 于对总体分布施加很少约束的情况,是一种十分灵活的方法。近邻法一 般采用距离远近表示相似程度,是经常使用的模式识别分类方法,比较 适合在多类别情况下使用。 在大规模采样的极限情况下,最近邻决策规则的渐进错误率的上界 为两倍贝叶斯错误率( c o v e r 和h a r t ,1 9 6 7 ) 。对小样本,其真实错误 率可能和贝叶斯错误率很不相同。f u k u n a g a 和h u m m e l s ( 1 9 8 7 a ,1 9 8 7 b ) 研究了样本规模有限的k 近邻法错误率的影响因素。研究发现,特别是 当数据维数较高时,近邻法错误率的偏差随样本规模的增大而缓慢减 少。这表明当维数较高时,增加样本规模不能有效地降低偏差。然而, 一种补偿偏差的方法是获得错误率的收敛率表达式,并通过在样本规模 不同的训练集上计算错误率来预测其渐进极限。p s a l t i s 等( 1 9 9 4 ) 对 此做了进一步的研究,他们将错误率描述成渐进级数展开式。f u k u n a g a 和h u m m e l s ( 1 9 8 7 b ,1 9 8 9 ) 提出了估计错误率的留一法,发现在两类 问题中通过为似然函数选择一个合适的阀值能够降低错误率对k 值的 敏感性。 给定训练集中的一个观测向量,可以通过计算n 个距离值来确定其 最近邻,这种方法在概念上是比较简单的。然而,当训练集中的样本数 n 变大时,计算花销将急剧增加。许多减少最近邻搜索时间的算法包括 处理原型数据集以形成一个距离矩阵这种巨大的计算花销( d a s a r a t h y , 1 9 9 1 ) ,同时还包括存储n ( i i - 1 ) 2 个距离的花销。有许多解决这种问题 的方法。线性逼近消除搜索算法( l a e s a ,l i n e a ra d p r o x i m a t i n ga n d e l i m i n a t i n gs e a r c ha l g o r i t h m ) 是对v i d a l ( 1 9 8 6 ,1 9 9 4 ) 的a e s a 算法的改进,该算法包括极端基本原型的数量这一处理步骤,这些基本 原型在某种意义上与训练集以最大的程度相分离。m i c o 等( 1 9 9 4 ) 给 出了更多的细节。 k 近邻法则的缺点之一是需要存储所有n 个数据样本。如果n 太大, 就需要过多的存储量。然而,更主要的缺点是获得k 个近邻所需的计算 时间较长。人们研究了几种减少类原型个数的方法,其目的是为丁提高 西南交通大学硕士研究生学位论文第13 页 计算效率,主要可分为两大类方法。第一种方法属于剪辑方法,该方法 通过去掉错误分类的原型达到压缩设计集的目的。如果剪辑过程中k 取 值为1 ,就得到d e v i j v e r 和k i t i t l e r ( 1 9 8 2 ) 的多重剪辑算法。如果 采用留一法进行错误估计,就是w i l s o n 的剪辑算法( w i l s o n ,1 9 7 2 ) 。 经过一次迭代后,设计样本数减少且分类数不可能超过样本数。对小数 据集来讲,用交叉验证方法估计错误率的剪辑方法首选多重剪辑算法 ( f e r r i 和v i d a l ,1 9 9 2 a ;f e r r i 等,1 9 9 9 ) 。第二种方法是压缩方法, 该方法的目的是减少每个类的原型数而在本质上不改变最近邻对贝叶 斯决策边界的接近。压缩算法的基本思想是去掉那些深嵌于每个聚类之 中,但对贝叶斯决策域的近邻逼近贡献不大的样本,这种方法可参照 h a r t ( 1 9 6 8 ) 。f e r r i 和v i d a l ( 1 9 9 2 b ) 将剪辑和压缩这两种方法应用 于采集的图像数据。结果表明,压缩算法大幅减少了数据集的规模,剪 辑算法降低了错误率。 欧氏距离是测量新样本与原型间距离时使用的最为广泛的一种度 量。f u k u n a g a 和f 1 i c k ( 1 9 8 4 ) 讨论了选择距离矩阵的方法。t o d e s c h i n i ( 1 9 8 4 ) 在对数据进行四种方法的标准化以后,在1 0 个数据集上评价 了6 种全局度量方法。v a nd e rh e i d e n 和o r o e n ( 1 9 9 7 ) 提出了加权欧 氏距离方法并将其应用于飞机的雷达成像试验中。f r i e d m a n ( 1 9 9 4 ) 考 虑了k 近邻法则的基本扩展,并提出将k 近邻法则和递归划分法相混合。 在这种递归划分法中,距离度量取决于向量在数据空间的位置。这对输 入变量对分类性能的影响不均等的分类问题,可以提高分类性能。 f r i e d m a n ( 1 9 9 4 ) 评价了局部度量方法。h a s t i e 和t i b s h i r a n i ( 1 9 9 6 ) 介绍了一种判别自适应近邻法,在这种方法中,定义了一个局部度量, 其中近邻区大体上平行于决策边界。d u d a n i ( 1 9 7 6 ) 提出了一种加权法 则,该法则对k 个近邻分配权值,最近的近邻加权最重。 k 近邻方法有多种形式。概率密度估计构成了k 近邻法决策规则的 基础,b u t u r o v i c ( 1 9 9 3 ) 对此进行了研究。有多种减少最近邻搜索时 间的处理方案。v i d a l ( 1 9 9 4 ) 给出了快速近邻搜索的逼近一消除 ( a p p r o x i n a t i o n - - e l i n i m a t i o n ) 算法,r a m a s u b r a m a n i a n 和p a l i w a l ( 2 0 0 0 ) 对此算法进行了评价和比

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论