




已阅读5页,还剩45页未读, 继续免费阅读
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
I 50 毕业设计 论文 题 目 基于机器学习的股票交易时机研究 专 业 信息与计算科学 班 级 2006 级 1 班 学 生 佘 开 勇 指导教师 韩 逢 庆 重庆交通大学 2010 年 6 月 I 50 目 录 摘摘 要要 I ABSTRACTABSTRACT II 第一章第一章 前前 言言 1 1 1 研究背景 1 1 2 股市预测的发展概况 1 1 3 支持向量机简介 3 1 4 本文的主要内容 3 第二章第二章 股市知识的准备股市知识的准备 5 2 1 引言 5 2 1 1 我国股票市场的发展 5 2 1 2 进行股票投资分析的必要性 6 2 2 股票的相关知识 6 2 2 1 股票常用术语 7 2 2 2 股票价值和股票指数 7 2 3 企业财务指标 9 2 4 股市技术指标简介 9 第三章第三章 股市预测问题研究方法股市预测问题研究方法 12 3 1 引言 12 3 2 投资分析法 12 3 2 1 技术分析法 12 3 2 2 基本面分析法 12 3 2 3 组合分析法 13 3 3 时间序列分析法 13 3 3 1 ARMA 模型简介 14 3 4 非线性系统分析法 14 3 4 1 神经网络预测方法概述 14 3 4 2 多层前馈神经网络 BP 网络 15 第四章第四章 统计学习理论与支持向量机统计学习理论与支持向量机 17 4 1 理论背景 17 4 1 1 机器学习分类 17 4 1 2 机器学习存在的基本问题 17 4 2 统计学习理论 18 4 2 1 VC 维 19 4 2 2 推广性的界 19 4 2 3 结构风险最小化 Structural Risk Minimization SRM 20 4 3 支持向量机基本原理 21 4 3 1 基本概念 22 4 3 2 线性支持向量机 23 4 3 3 非线性支持向量机 25 4 3 4 基于支持向量机的回归分析 28 第五章第五章 基于支持向量机的股市预测基于支持向量机的股市预测 31 5 1 基于支持向量机的股市预测流程 31 5 2 基于向量机的分析预测工具 LIBSVM 32 5 3 实际预测结果与数据验证分析 33 5 4 股票交易时机的确定 38 结结束束语语 39 致致 谢谢 40 参考文献参考文献 41 I 50 摘 要 股票市场是一个复杂的非线性动态系统 但由于传统的预测技术并没有准确的揭 示股票市场的内在规律 导致最终的预测结果并不十分理想 本文采用了支持向量机 的方法对股市进行预测 支持向量机是数据挖掘中的一项新技术 是借助于最优化方法解决机器学习问题 的新工具 特别是近年来支持向量机在回归算法的研究方面也表现了极好的性能 但 是将其应用到股市预测中却并不多 本文介绍了股市的相关背景知识 然后对股市里的常用术语作了介绍以及对传统 的股市预测的方法进行了介绍 特别详细介绍了基于神经网络的预测方法 接着全面 介绍了统计学习理论和建立在其上的支持向量机方法 详细描述了支持向量机方法的 基本原理 最后 对支持向量机方法用于股市预测问题进行了尝试 提出了使用支持向量机 的方法进行股市预测的基本流程 然后通过使用实际的股市交易数据进行预测 在具 体股价的预测都表现出很好的效果 关键词 股票 股市预测 支持向量机 核函数 I 50 ABSTRACTABSTRACT Stock market is a complex non linear system and is affected by many factors The traditional prediction technologies cannot disclose the inherent rule of stock market In this paper a new prediction technology based on Support Vector Machine SVM has been proposed The support vector machine is a data mining new technology it is a new tool that draws support the optimized method to solute the machine learning questions Specially in recent years supported the vector machine also to display the extremely good performance in the return algorithm research aspect but applied it the stock market to forecast certainly were not actually many This paper introduce the background knowledge of stock market then common terms on the stock market was introduced and traditional prediction technologies are introduced in detail especially the technology based on neural network and then the basic principles of SVM are discussed Finally this paper uses SVM to predict the price of stock and propose a common framework to solve stock market prediction problems using SVM Data from real stock market is used to evaluate the exactness of the algorithm Result shows that SVM is an effective method and get precise result Key Words Stock Prediction of Stock market Support Vector Machine Kernel function 1 50 第一章 前 言 1 1 研究背景 股票是市场经济的产物 股票的发行和交易促进了市场经济的方展 自从股票 1773 年在英国率先发行以来 已有二百多年的历史 现在已经成为整个社会经济的 晴雨表 和 报警器 其对于经济发展的作用不可估量 随着股票市场的不断规 范壮大和计算机技术的发展 越来越多的人进入到股票交易市场 也相应产生了很多 股票分析和预测系统 由于股市行情受经济政治等因素的影响 其内部规律非常复杂 变化周期无序 同时我国资本市场投资者结构具有特殊性 个人投资者的比例很高 投资者的心里状态不同 对股票交易的行为会产生直接的影响 导致股价波动 在信息爆炸的今天 迫切需要一种方法能从大量的数据信息中提取出有用的信息 数据挖掘技术在这种情况下诞生了 确切的说 数据挖掘 Data Mining 是指从大 型数据仓库中提取出隐含的 未知的 非平凡的及有潜在的应用价值的信息或者模式 它是数据库研究中一个很有应用价值的新领域 融合了数据库 人工智能 机器学习 统计学等多个领域的理论和技术 在最近十几年间 成熟的技术和高性能的关系数据 库引擎以及广泛的数据集成 使数据挖掘技术的研究工作取得了很大的发展 各种数 据挖掘技术的应用极大的提高了分析 处理大量数据信息的能力 并为人们的生产生 活带来了很大的经济效益 数据挖掘技术在股市预测中也具有很强的应用价值 1 2 股市预测的发展概况 预测是指从已知事件测定未知事件 预测理论作为一种通用的方法论 既可以应 用于研究自然现象 也可以应用于研究社会现象 将预测理论应用于各个领域 就产 生了预测的各个分支 如人口预测 经济预测 气象预测等等 在金融经济学的发展上 人们对金融预测作了大量的探索 取得了丰硕的成果 典型的金融预测时是时间序列预测 时间序列是按照时间顺序取得的一系列观察值 时间序列的典型特征是相邻观测值之间的依赖性 为了研究这种依赖性 人们提出 了许多时间序列模型 并对这模型的性质及分析方法进行了深入的研究 传统的金融时间序列大致上有两种研究方法 一种方法是从基本的经济原理出发 建立金融时间序列服从的数学模型 像 Markovitz 的投资组合理论 1 资本资产定价 模型 CAPM 1 套利定价理论 APT 1 期权定价模型 1 等 实际上 这部分成 果就是确定金融时间序列的趋势项 另一种方法是从统计角度对金融时间序列进行研究 这种方法直接从实际数据出 发 应用概率统计推断出市场未来的变化规律 虽然这种方法从经济学角度来讲缺乏 理论性 但是在实际应用中效果较好 而且 统计方法还可以对经济模型的好坏进行 检验和评价 二十世纪 80 年代以前 人们对时间序列的研究主要集中在一种线性模 型 即自回归移动平均模型 AutoRegressive Moving Average Modes ARMA 这种模 型结构简单 有着完善的统计推断技术 应用非常广泛 但是 ARMA 模型毕竟是一 种线性模型 有些实际现象在模型中得不到反映 在这种情况下人们开始提出并研究 非线性时间序列 最重要的就是 R F Engle 在八十年代初提出的自回归条件异方差模 型 AutoRegressive Conditionally Heteroscedastic Models ARCH 由于 ARCH 模型将 方差看作随时间变动的量 而不是一个常量 从某种程度上克服了线性模型的局限性 与实际情况更相符 从而得到了广泛的应用 股市预测 是金融经济预测的一个重要分支 它对股票市场所反映的各种资讯进 行收集 整理 综合等工作 从股市的历史 现状和规律性出发 运用科学的方法 对股市未来发展前景进行测定 股市预测一般基于以下三点假设 2 1 有效市场假设 指股票市场会对每一条有可能影响股价的信息都会作出反映 而各种价格的变动正是这种反映的结果 2 供求决定假设 指一切信息都会对股票市场的供求双方力量对比产生影响 供求决定交易量和交易价格 3 历史相似原则 指由历史资料所概括出来的规律已经包含了未来股票市场的 一切变动趋势 股市预测按不同的标准可以有不同的分类 按涉及的范围不同可分为 指数预测 和个股预测 按预测时间长短不同可分为 长期预测 中期预测和短期预测 按预测 方法的不同可分为 定性预测和定量预测等等 Charles Dow 在 1900 年到 1902 年 写了一系列的评论来阐述他的市场观 Sam Nelson 收集了他的评论并将他的观点发展为市场行为原则 这就是成为技术分析基 础的道氏理论 Richard Schabacker 第一个将通用图表形态分类 研究出 缺口 理 论 被称作技术分析科学之父 瑞夫 N 艾略特通过研究市场波动和循环的形态 提出了 波浪理论 W D Gann 研究了时间要素的重要性 提出了 价格时间等 价 的概念 随后 又出现了各种分析方法 包括 K 线图分析法 柱状图分析法 点数图分析法 移动平均法 形态分析法 趋势分析法 角度分析法 神秘级数与黄 3 50 金分割比螺旋历法 四度空间法等 这些分析方法主要依赖于图表 图表信息具有明 显的直观化优点 但图表的分析与指标的选择却要依靠主观的判断 这是这些分析方 法面临的主要问题 由于股票交易的模式和相关信息的复杂性 这样一种严重依靠经 验的方法 其可靠性在很大程度上是要受到质疑的 2 从 60 年代开始 人们尝试使用各种时间序列分析方法来预测股市 在时间序列 分析中 线性模型的研究比较成熟 但是股市是一个非线性系统 用线性模型逼近容 易丢失有用信息 为了更确切描述实际系统特性 又发展了阈值自回归模型 多项式 自回归模型和指数自回归模型 3 等 用这些方法对股市进行建模和预测也取得了比较 好的结果 1 3 支持向量机简介 支持向量机 4 7 support vector machine SVM 是数据挖掘中的一项新技术 是 借助于最优化方法解决机器学习问题的新工具 它最初于 世纪 年代由 Vapnik 提出 近些年来在其理论研究和算法实现方面都取得了突破性进展 并开始成为克服 维数灾难 和 过学习 等传统困难的有利办法 虽然他还处在飞速发展的阶段 但它的理论基础和实现途径的基本框架已经形成 支持向量机目前主要来解决分类问 题 模式识别 判别分析 和回归问题 支持向量机的最大特点是改变了传统的经验 风险最小化原则 而是针对结构风险最小化原则提出的 因此具有很好的泛化能力 另外 支持向量机在处理非线性问题时 首先将非线性问题转化为高维空间中的线性 问题 然后用一个核函数来代替高维空间中的内积运算 从而巧妙地解决了复杂计算 问题 并且有效地克服了维数灾难以及局部极小问题 尽管支持向量机有以上的优点 但是在金融时间序列预测这方面研究还很少 Tay 和 Cao 8 证明 5 种金融时间序列数据可以用支持向量机进行预测 并指出 支持 向量机在标准均方误差 均方绝对误差 趋势正确率 加权趋势正确率标准下优于人 工神经网络 Kyoung jae Kim 用支持向量机对股市指数的运动趋势进行预测 1 4 本文的主要内容 股票市场受很多因素影响 变化规律很难把握 本文采用统计学习理论的支持向 量机方法进行了股市预测问题的研究 主要完成了以下工作 1 介绍了股市的相关背景知识 并对传统的股市预测问题的研究方法进行了总 结 指出了它们的优缺点 2 介绍了统计学习理论与支持向量机 然后在此基础上提出了通过支持向量机 进行股市预测的具体流程 并使用实际股票交易数据检验了基于支持向量机的预测方 法的实际效果 实验结果表明 应用支持向量机的方法进行股市预测具有良好的预测 精度 5 50 第二章 股市知识的准备 2 1 引言 2 1 1 我国股票市场的发展 中国的证券市场形成于上个世纪九十年代初期 经过十几年的发展 我国股票市 场已初具规模 股票已成为现代人生活中的一个重要组成部分 股票投资已成为社会 公众谈论的中心之一 随着我国资本市场的快速发展我国资金融通的重心已由货币 市场逐步向资本市场转移 越来越多的人把股票投资作为自己金融资产增值的主要方 式 股市是股票市场的简称 也称为二级市场或次级市场 是股票发行和流通的场所 也可以说是指对已发行的股票进行买卖和转让的场所 股票的交易都是通过股票市场 来实现的 一般地 股票市场可以分为一 二级 一级市场也称之为股票发行市场 二级市场也称之为股票交易市场 股票市场是上市公司筹集资金的主要途径之一 随着商品经济的发展 公司的规 模越来越大 需要大量的长期资本 而如果单靠公司自身的资本化积累 是很难满足 生产发展的需求的 所以必须从外部筹集资金 公司筹集长期资本一般有三种方式 一是向银行借贷 二是发行公司债券 三是发行股票 前两种方式的利息较高 并且 有时间限制 这不仅增加了公司的经营成本 而且使公司的资本难以稳定 因而有很 大的局限性 而利用发行股票的方式来筹集资金 则无须还本付息 只需在利润中划 拨一部分出来支付红利即可 把这三种筹资方式综合比较起来 发行股票的方式无疑 是最符合经济原则的 对公司来说是最有利的 所以发行股票来筹集资本就成为发展 大企业经济的一种重要形式 而股票交易在整个证券交易中因此而占有相当重要的地 位 我国的沪深股市是从一个地方股市发展而成为全国性的股市的 在 1990 年 12 月 正式营业时 上市的股票数量只有为数很少的几只 其规模很小 且上市的股票基本 上都是上海或深圳的本地股 如上海的老八股中只有一支是异地股票 在其后股市的 发展中 由于缺乏战略性的考虑 造成了资金的扩容与股票的扩容不同步 特别是资 金扩容 其速度远远快于股票扩容 在 1991 年至 1996 年的五年间 股市的供求关系 极不平衡 这样就造成了股价在最初两年出现暴涨的局面 股票市场的变化与整个市场经济的发展是密切相关的 股票市场在市场经济中始 终发挥着经济状况晴雨表的作用 所谓 牛市 也称多头市场 指市场行情普遍看 涨 延续时间较长的大升市 所谓 熊市 也称空头市场 指行情普遍看淡 延续 时间相对较长的大跌市 2 1 2 进行股票投资分析的必要性 股票投资具有增值快 风险大的特点 中国股市的这种特点更为突出 当前大多 数的股票投资者并不能很好的把握市场的发展规律 对于过量的信息缺乏筛选 识别 的能力 因此对于股票的投资往往是盲目的 非理性的 进行股票投资分析的必要性 9 在于 第一 股票属于风险性资产 其风险由投资者自负 所以每一个投资者在做每一 个决定时都应谨慎行事 高收益往往伴随着高风险 在从事股票投资时 为了争取尽 可能大的收益 并把可能的风险降到最低限度 首先我们要做的就是认真进行股票投 资分析 第二 股票投资是一种智慧型投资 长期投资者要注重于基本方法 短期投资者 则要注重技术分析 而要在股市上进行投机 更是一种需要高超智慧与勇气的举动 其关键是把握好时机才去投资 而时机的把握需要投资者综合运用自己的知识 理论 技术 信息进行详尽的周密分析 进行科学的决策 第三 从事股票投资要量力而行 适可而止 因此 选择适当的投资分析法对股市或个股进行认真分析是能否降低投资风险 获取投资收益的关键 我们买卖股票 追求的是投资收益最大化和投资风险最小化 但是 影响股票投资收益率和风险的因素很多 其作用机制也相当复杂 只有通过认 真的 有效的和科学的专业分析 才能客观的把握住这些因素及其作用机制 做出尽 可能准确的走势预测 2 2 股票的相关知识 股票到底是什么 股票是股份证书的简称 是股份公司为筹集资金而发行给股东 作为持股凭证并借以取得股息和红利的一种有价证券 每股股票都代表股东对企业拥 有一个基本单位的所有权 股票是股份公司资本的构成部分 可以转让 买卖或作价 抵押 是资金市场的主要长期信用工具 股票的作用有三点 1 股票是一种出资证明 当一个自然人或法人向股份有限 公司参股投资时 便可获得股票作为出资的凭证 2 股票的持有者凭借股票来证明 自己的股东身份 参加股份公司的股东大会 对股份公司的经营发表意见 3 股票 持有者凭借股票参加股份发行企业的利润分配 也就是通常所说的分红 以此获得一 7 50 定的经济利益 2 2 1 股票常用术语 1 开盘价 开盘价是根据开市前集中竞价形成的 2 收盘价 指每天成交中最后一笔股票的价格 也就是收盘价格 3 最高价 指当日所成交的价格中的最高价位 4 最低价 指当日所成交的价格中的最低价位 5 成交量 股票成交的数量 手是股票成交的最小单位 一手为 100 股 6 成交金额 指用货币表示的股票的成交总量 等于成交价格乘以成交量 7 涨跌 以每天的收盘价与前一天的收盘价相比较 来决定股票是涨还是跌 8 压力点 压力线 股票在涨升过程中 到达某一高点 或线 后停止涨升 此点 称为压力点 或压力线 9 支撑点 支撑线 股价在下跌过程中 到达某一点 或线 后停止下跌 甚至回 升 此点称为支撑点 或支撑线 10 换手率 也称 周转率 指在一定时间内市场中股票转手买卖的频率 是反映 股票流通性强弱的指标之一 计算公式为 某一段时期内的成交量 发行总股数 100 在我国 成交量 流通总股数 100 11 市盈率 Price to Earning Ratio 简称 PE 或 P E Ratio 市盈率是某种股票 每股市价与每股盈利的比率 通常用来作为比较不同价格的股票是否被高估或者低 估的指标 2 2 2 股票价值和股票指数 从本质上讲 股票仅仅是一种凭证 其作用是用来证明持有人的财产权利 而不 像普通商品一样包含有使用价值 所以股票自身并没有价值 也不可能有价格 所以 股票是一种虚拟资本 它可以作为一种特殊的商品进入市场流通转让 而股票的价值 就是用货币的形式来衡量股票作为获利手段的价值 所谓获利手段 即凭借着股票 持有人可取得的经济利益 利益愈大 股票的价值就愈高 在股市中股票可根据一定 的价格进行交易 单支股票的交易价格是一个随机变量 同时也受到整个市场行情的 影响 逆流而行的股票总是少数 而且其走势也难以维持长久 股票价格指数是用以表示多种股票平均价格水平及其变动并衡量股市行情的指标 例如 道 琼斯股票价格指数 日经指数 香港恒生指数等等 在股票市场上 成百上 千种股票同时进行交易 各种股票价格各异 价格种类多种多样 因此 需要有一个 总的尺度标准 来衡量股市价格的涨落 观察股票市场的变化 用股票价格平均数指 标 来衡量整个股票市场总的价格变化 能够比较正确地反映股票行情的变化和发展 趋势 股票价格指数 般是由一些有影响的金融机构或金融研究组织编制的 并且定 期及时公布 世界各大金融市场都编制或参考制造股票价格指数 将一定时间点上成 千上万种此起彼落的股票价格表现为一个综合指标 以代表该股票市场的一定价格水 平和变动情况 股票价格指数及其变动不但集中反映了股市的投资容量 资金增量 平均股价 股市升跌等信息 还基本剔除了市场中的投机因素 真实的反映了市场的 本来面目 股市综合指数包含了所有上市公司的股票 将每支股票的价格及其上市的 股数作为权数加权平均 而成分指数只选取了股市中各个行业股票里最有代表性的股 票 而非全部 股票指数的作用在于为股民提供一个衡量股市价值的参考依据 因为买卖股票是 一种投资活动 它的收益和风险并存 为了帮助投资者实现投资增值的目的 建立正 常的股票投资环境 就需要一种能够反映投资发展变化情况的指标作为依据 借助股 票指数 人们可以观察分析股票市场的发展动态 研究有关国家和地区的政治 经济 发展趋势 拟定投资策略 为了给投资者创造上述条件 所有的股市几乎都在股价变 化的同时及时公布股票价格指数 综合指数形式的股票指数 是将所有的上市挂牌的股票都纳入计算指数的投资 组合之中 所以市场上每一只股票价格的变动 都将影响综合指数的变化 其代表性 最好 但由于综合指数投资组合的权数是上市公司的总股本 当上市公司的总股本在 与其流通量不相一致时 总股本大的股票对股票指数的影响就较大 如有时股票指数 上涨时只有马钢 石化等少数几个大盘谷的价格在上涨 其它股票几乎基本不动甚至 在下跌 上证综合指数 上证综合指数是上海证券交易所于 1991 年 7 月 15 日开始编制和 公布的 以 1990 年 12 月 19 日为基期 基期值为 100 已全部上市股票为样本 以股 票发行量为权数进行编制 由于该股票指数的权数为上市公司的总股本 并且我国上 市公司的股票有流通股和非流通股之分 其流通量与总股本并不一致 所以有时会出 现股票指数走势与大部分股票的涨跌相背离 该指数的发布几乎与股市行情的变化相 同步 是我国股民和证券从业人员研判股票价格变化的趋势必不可少的参考依据 成份股形式的股票指数其入选股票数量是恒定的 所选用的权数为股票的流通量 由于采用流通量为股票权数所以相对综合指数来数有所进步 但是由于入选股票数量 有限有时很难贴切反映股市行情的变化 因此在评价成份指数时其代表性非常重要 上证 180 指数 上证成份指数 简称上证 180 是上海证券交易所所对原上证 30 指数进行了调整并更名而成的 是在所有 A 股股票中抽取最具市场代表的 180 种样本 9 50 股 以 2002 年 6 月 28 日的上证 30 指数收盘点为为基点 从 7 月 1 日起对外正式发 布 每半年有专家委员会调整构成份股 2 3 企业财务指标 股票价格从长期来看是由其公司的经营和财务状况决定的 研究上市公司的经营 和财务状况 以及发展前景是股票投资的关键环节 要了解上述状况 重要的财务指 标 10 是必需的 营业收入 营业收入是一家公司在某一段内通过生产 销售或提供服务等方式 所取得的总收入 利润总额 利润总额是一家公司扣住成本和营业税后的剩余 这就是人们通常所 说的盈利 它与营业收入的关系为 利润总额 营业收入 成本 营业税 净利润 净利润是指在利润总额中按规定缴纳的所得税后公司的利润留成 一般 也称为税后利润和净收入 净利润 利润总额 1 所得税率 净利润是一个企业经 营的最终成果 净利润多 企业的经营效果就好 资产总额 资产总额是一家公司进行经营时所能动用的资产总额 包括公司自有 的资产与借贷资产 净资产 净资产是一家公司的自有资本 对股份公司来说 净资产就是股东所拥 有的财产 资产负债率 资产负债率是公司的负债在资产总额中所占的百分比 资产负债率 公司负债 资产总额 100 净资产收益率 净资产收益率是单位净资产在某时段的经营中所取得的净收益 净资产收益率 净收益 净资产 100 2 4 股市技术指标简介 技术分析是许多投资者进行中短期投资主要分析方法 技术指标往往是投资决策 的重要参考 1 平滑异同平均线 MACD Moving Average Convergence Divergence 是由 Gerald Appel 首先在 Systems And Forecasts 一书中发表 主要是利用长短期的二条平滑平 均线 计算两者之间的差离值 作为研判行情买卖之依据 算法 DIFF 线 收盘价短期 长期指数平滑移动平均线间的差 DEA 线 DIFF 线的 M 日指数平滑移动平均线 MACD 线 DIFF 线与 DEA 线的差 彩色柱状线 参数 SHORT 短期 LONG 长期 M 为天数 一般为 12 26 9 用法 DIFF DEA 均为正 DIFF 向上突破 DEA 买入信号 DIFF DEA 均为负 DIFF 向下跌破 DEA 卖出信号 DEA 线与 K 线发生背离 行情反转信号 分析 MACD 柱状线 由正变负 卖出信号 由负变正 买入信号 2 随机指标 KDJ 原理 用目前股价在近阶段股价分布中的相对位置来预测可能发生的趋势反转 算法 对每一交易日求 RSV 未成熟随机值 RSV 收盘价 最近 N 日最低价 最近 N 日最高价 最近 N 日最低价 100 K 线 RSV 的 M1 日移动平均 D 线 K 值的 M2 日移动平均 J 线 3 D 2 K 参数 N M1 M2 为天数 一般取 9 3 3 用法 D 80 超买 D100 超卖 J 1 个数据预测未来 M M 1 个时刻的值 即进行 M 步预测 可取序列 N 个相邻的样本 为滑动窗 并将它们映射为 M 个值 这 M 个值代表在该窗之后的 M 个时刻上的样本 的预测值 表 3 1 列出了训练数据的一种分段方法 该表把训练数据分为 K 段长度为 N M 的有一定重叠的数据段 每一段的前 N 个数据作为网络的输入 后 M 个数据作为网 络的输出 表 3 1 训练数据的分段方法 N 个输入M 个预测输出 X1 X N X2 X N 1 X3 X N 2 XK XN K 1 XN 1 XN M XN 2 XN M 1 XN 3 XN M 2 XN K XN K M 1 从理论观点来看 上述过程就是拟合过程 即寻找一个 RN 到 RM 的映射 并使 该映射具有预测未来 M 个时刻的数据的能力 理论上已经证明 一个用历史数据充 分训练后的三层前馈式神经网络能一致逼近这个未知映射 此网络的输入层有 N N 1 个节点 输出层有 M M 1 个节点 隐层节点数由所分析序列的复杂程 度 要求的预测精度和训练样本的多少而定 3 4 2 多层前馈神经网络 BP 网络 在众多的神经网络结构中 多层前馈神经网络 Muti Layer Feedforward Neural Networks 简称 MFNN 是目前应用最广泛也是最成熟的一种网络结构 Rumelhart McClelland 和他们的同事洞察到神经网络信息处理的重要性 于 1982 年成立了一个 PDP 小组 在研究并行分布信息处理方法 探索人类认知的微结 构的过程中 于 1986 年提出了 BP 网络模型 在多层前馈神经网络 MFNN 中 网络 权值的调整是通过著名的误差反向传播 Back Propagation 简称 BP 学习算法来进 行的 因此 多层前馈神经网络 MFNN 通常又称为 BP 网络 基于 BP 神经网络的证券预测技术研究就是选择股票价格作为训练样本 将某些 交易日的股票价格及影响价格的因素作为输入向量 按照前向传播方向 得到输出层 的实际输出值 然后按照反方向传播方向 根据输出层的实际输出和期望输出之间的 误差 修正节点间的连接权值 直到误差达到允许的最小值 经过调整的最后的权值 就是 BP 网络经过自适应学习所得到的正确的内部表示 使用经训练后的 BP 网络模 型进行股票价格走势的预测 从而达到增加投资收益 降低投资风险的目的 股票的价格是一种离散时间序列数据 设第 K 天的股票价格为 XK 则 XK g XK 其中 XK XK 1 XK T T g 为一非线性连续函数 g 刻画了 生成这一时间序列的动态机制 只要找到合适的 g 就能对这一时间序列做出适当 的预测 然而 由于股票市场的复杂性 刻画其具体的动态过程是极其困难的 而 BP 网络对非线性函数的逼近特适合 因此利用它对股票市场的动态过程进行建模是 合适的 对于股票价格预测来说 它的预测特点是 多输入 单输出的非线性映射 对于 这种高度的非线性关系 选取多层前馈神经网络结构即 BP 网络建模 既清晰又明了 采用 BP 神经网络模型 输入是 XK XK 1 XK T T 输出端信号是 XK 选取 一些匹配对 XK XK 作为训练样本 学习后的 g 便可作为一预测器 对未来的 股票市场做出单步预测 17 50 第四章 统计学习理论与支持向量机 4 1 理论背景 4 1 1 机器学习分类 基于数据的机器学习是现代智能技术中的重要方面 研究从观测数据 样本 出发 寻找规律 利用这些规律对未来数据或无法观测的数据进行预测 关于机器学习还没 有被统一接受的理论框架 根据其实现方法的不同大致可以分为以下三类 第一种是经典的 参数 统计估计方法 包括模式识别等在内 现有机器学习方法 共同的重要理论基础之一是统计学 参数估计方法中 参数的相关形式是己知的 训 练样本是用来对模型的参数进行估计 这种方法需要知道样本的分布形式 同时基于 传统统计学理论的参数估计方法是一种隐含了样本数目无穷大的渐进理论 由于实际 问题中样本的有限性使得基于传统统计学理论的一些学习方法在实际表现中并不尽如 人意 第二种是如人工神经网络 ANN 等基于经验的非线性方法 这种方法无需事先知 道样本的分布形式 直接利用己知样本建立非线性模型 克服了传统参数估计方法的 困难 但是这种方法其本质也是建立在样本数无穷大的经典统计学理论基础上 同时 由于缺乏统一的数学理论 在应用上神经网络的结构确定主要依赖经验的选取 第三种是统计学习理论 StatisticalLearningTheory 或 SLT 与传统统计学方法相 比 它是一种专门研究小样本情况下机器学习规律的理论 Vapnik 等人从六 七十年 代开始致力于此方面研究 统计学习理论是建立在一套较坚实的理论基础之上的 为 解决有限样本学习问题提供了一个统一的框架 它能将很多现有方法纳入其中 有望 帮助解决许多原来难以解决的问题 比如神经网络结构选择问题 局部极小点问题等 到九十年代中期 随着其理论的不断发展和成熟 也由于神经网络等学习方法在理论 上缺乏实质性的进展 统计学习理论开始受到越来越广泛的重视 4 1 2 机器学习存在的基本问题 机器学习的目的是根据给定的训练样本求出对某系统输入输出之间依赖关系的估 计 使它能够对未知输出做出尽可能准确的预测 机器学习一般地可以表示为 变量 与存在一定的未知依赖关系 即遵循某一未知的联合概率 机器学习问题yx yxF 就是根据 个独立同分布观测样本l 4 1 2211ll yxyxyx 在一组函数中求一个最优的函数对依赖关系进行估计 使期望风险 wxf 0 wxf 4 2 yxdFwxfyLwR 最小 其中称作预测函数集 为广义参数 为损失函数 不同 wxfw wxfyL 类型的学习问题有不同形式的损失函数 机器学习问题有三类 模式识别 函数逼近和概率密度估计 对模式识别问题 输出是类别标号 两类情况下 其预测函数也称作y 1 1 y 指示函数 其损失函数可以定义为 4 3 1 0 wxfy wxfy wxfyL 在函数逼近问题中 是联系变量 采用最小平方误差准则 损失函数可定义为y 4 4 2 wxfywxfyL 而对概率密度估计问题 学习的目的是根据训练样本确定的概率密度 记估计x 的密度函数为 则损失函数可定义为 wxp 4 5 ln wxpwxpL 上面的问题表述中 学习的目标在于使期望风险最小化 但由于我们可以利用的 信息只有样本数据 因此式 4 2 的期望风险无法计算 传统学习方法采用经验风险最 小化 Empirical Risk Minimization ERM 准则 经验风险定义为 4 6 n i iiemp wxfyL n wR 1 1 最小化经验风险在多年的机器学习方法研究中占据了主要地位 但 ERM 准则代 替期望风险最小化没有经过充分的理论论证 只是直观上合理的想当然做法 ERM 准则不成功的一个例子是神经网络的 过学习 问题 训练误差小 并不能总导致好 的预测效果 某些情况下 训练误差过小反而会导致推广能力的下降 即真实风险的 增加 13 可以看出 有限样本情况下 经验风险最小并不一定意味着期望风险最小 学习 机器的复杂性不但应与研究的系统有关 而且要和有限数目的样本相适应 我们需要 一种能够指导我们在小样本情况下建立有效的学习和推广方法的理论 这就是统计学 习理论 4 2 统计学习理论 与传统统计学相比 统计学习理论是一种专门研究小样本情况下机器学习规律的 19 50 理论 Vapnik 等人从六 七十年代开始致力于此方面研究 到九十年代中期 随着其 理论的不断发展和成熟 也由于神经网络等学习方法在理论上缺乏实质性进展 统计 学习理论开始受到越来越广泛的重视 统计学习理论是建立在一套较坚实的理论基础 之上的 为解决有限样本学习问题提供了一个统一的框架 它能将很多现有方法纳入 其中 有望帮助解决许多原来难以解决的问题 4 2 1 VC 维 统计学习理论的一个核心概念是 VC 维 VC Dimension 概念 它是由 Vapnik 和 Chervonenkis 提出的 VC 就是 Vapnik 和 Chervonenkis 名字的首字而成 它是描述函 数集或学习机复杂性或者说是学习能力 Capacity of the machine 的一个重要指标 一 个函数的 VC 维可以直观理解为 对一个假设函数集 如果存在个样本的样本集能够h 被该函数集打散 而不存在有个样本的样本集能够被该函数集打散 则函数集的1 h VC 维就是 若对任意数目的样本都有函数能将它们打散 则函数集的 VC 维是无h 穷大 VC 维反映了函数集的学习能力 VC 维越大则学习机器越复杂 容量越大 在 此概念基础上发展出了一系列关于统计学习的一致性 Consisteney 收敛速度 泛化 性能 Generalization Performance 等重要结论 如图 4 1 所示 平面中直线的 VC 维等 于 3 X 轴 Y 轴 图 4 1 平面中直线的 VC 维 4 2 2 推广性的界 在分析学习过程中 核心问题是如何能使风险最小化 传统算法中一般以经验风 险来衡量机器学习的推广能力 即经验风险最小化原则 然而在实际的应用当中发现 经验风险最小化并不代表实际风险最小化 因此在某些问题上只关注经验风险往往会 引发 过学习 现象 统计学习理论系统地研究了对于各种类型的函数集 经验风险 和实际风险之间的关系 即推广性的界 关于两类分类问题 对指示函数集中的所有 函数的经验风险和实际风险之间以至少的概率满足如下关系 Rewmp wR 1 4 7 n h n h wmpwR 4 ln1 2 ln Re 其中代表函数集的 VC 维 代表样本数 这一结论从理论上说明了学习机的hn 实际风险由经验风险 训练误差 和置信范围两部分组成 它表明在有限训练样本下 学习机的 VC 维越高 复杂性越高 则置信范围越大 导致真实风险与经验风险之间可 能的差别越大 置信范围不但受置信水平的影响 而且更是函数集的 VC 维和训 1 练样本数目的函数 这个界限反映了根据经验风险最小化原则得到的机器学习的推广 能力 所以称它为推广性的界 可以看出 置信界限反映了真实风险和经验风险差值 的上界 因此 要想得到期望风险最小值 除了控制经验风险最小外 还要控制函数 集的置信界限 而置信界限随着函数集 VC 维的增长而增大 在有限训练样本下 学 习机器的复杂性越高 VC 维越高 则置信界越大 也就会导致真实风险与经验风险 之间可能的差别越大 这也是为什么会出现 过学习 现象的原因 4 2 3 结构风险最小化 Structural Risk Minimization SRM 传统方法中普遍采用的经验风险最小化原则在样本数目有限时是不合理的 因此 需要同时最小化经验风险和置信范围 事实上 在传统方法中 学习模型和算法的过 程就是优化置信范围的过程 如果选择的模型比较适合现有的训练样本 则可以取得 较好的效果 结构风险最小化原则的基本思想是 不仅要使经验风险最小 还要使 VC 维尽量小 另外 在获得的学习模型经验风险最小的同时 希望学习模型的推广 能力尽可能大 这样就需要值尽可能小 即置信范围尽可能小 h 如果固定训练样本数目的大小 则控制结构风险的参数只有两个和 n Rewmph 其中 1 经验风险依赖于学习机器选定的函数 这样就可以通过控制此函数来控 Rewmp 制经验风险 2 VC 维依赖于机器学习所工作的函数集合 为了获得对的控制 可以将函数hSh 集合结构化 建立与各函数子结构之间的关系 通过控制对函数结构的选择来达Sh 到控制 VC 维的目的 h 也就是 首先把函数集分解为一个函数子集序列 或子集结构 wxfS 使各个子集按照 VC 维的大小排列 即 SSSS k 21 这样 在同一个子集中置信范围相同 在同一个子集中寻找最 k hhh 21 21 50 小经验风险 通常各子集的经验风险随着子集复杂度的增加而减小 选择最小经验风 险与置信范围之和最小的子集 就可以达到期望风险最小 这个子集中使经验风险最 小的函数就是要求的最优函数 VC维 风险 1 S 2 S 3 S 1 h 2 h 3 h 经验风险 置信风险 风险边界 欠学习过学习 图 4 2 结构风险最小化示意图 在结构风险最小化原则下 一个学习机器的设计包括两个方面的任务 1 选择一个适当的函数子集 使之对问题来说有最优的分类能力 2 从这个子集中选择一个判别函数 使经验风险最小 第一步相当于模型选择 而第二步则相当于在确定了函数形式后的参数估计 与 传统方法不同的是 模型的选择是通过对其推广性的界的估计进行的 实现 SRM 准则可以有两种思路 一是在每个子集中求最小经验风险 然后选择 使最小经验风险和置信范围之和最小的子集 显然这种方法比较费时 当子集数目很 大甚至是无穷时不可行 因此有第二种思路 即设计函数集的某种结构使每个子集中 都能取得最小的经验风险 如使训练误差为 0 然后只需选择适当的子集使置信范围 最小 则这个子集中使经验风险最小的函数就是最优函数 支持向量机方法实际上就 是这种思想的具体实现 4 3 支持向量机基本原理 支持向量机的主要研究内容是 当问题是线性可分时 给出一个求解最大间隔的 方法 而当问题不是线性可分时 提出利用一核函数将样本集映射到某一高维空间 使得样本集在高维空间中的像是线性可分的 其学习方法最大的特点是 根据结构风 险最小化原则 尽量提高学习机的泛化能力 其中 通过非线性映射 将低维空间中 的非线性问题转变为高维空间的线性问题 并采用一核函数代替高维空间中的内积运 算 达到避免高维运算和解决非线性的目的 4 3 1 基本概念 一个内积空间中的任何一个超平面都可以表示为H 4 8 RbHwHxbxw 0 其中 是一个垂直于超平面的向量 如果为单位长度 则是向量沿方ww xw xw 向的长度 而对于一般的 其长度要乘以 但不论哪种情况 超平面集合包括ww 所有的沿方向的长度相等的向量 w 一个超平面完全可以由其参数决定 所以我们可以简单地将超平面表示为 bw 但是 对参数同时乘以任意的非零常数 超平面式不变的 即同一 bw bw bw 个超平面可以用不同的参数来表示 为了避免这种情况 我们引入规范超平面 超平面 4 9 RHbwHxbxw 0 称为关于点的规范超平面 如果它满足Hxx l 1 4 10 1min 1 bxw i li 即这个规范超平面最近的点和它之间的距离为 超平面和均满足w1 bw bw 规范超平面的条件 而对于分类问题来说 由于它们方向不同 这两个超平面是不同 的 它们分别对应两个决策函数 在模式没有类别标号的情况下 是没 i x 1 1 i y 有办法区别这两个平面的 而对于一个有标号的训练集 则可以区分 因为这两个超 平面对应的类别正好相反 间隔在支持向量学习算法中起着重要的作用 对于一个超平面 bw 称 4 11 wbxwyyx bw 为点的几何间隔 而称 1 Hyx 4 12 iibw li bw yx min 1 为关于训练集 4 13 liyHxyxS iiii 1 1 23 50 的几何间隔 假定大部分的测试点至少距离其中的一个训练点比较近 所有的测试点可以认为 是训练点进行一个较小的扰动得到的 对于训练点 我们得到的测试点的形式 yx 为 其中扰动的范数以一个正数 为上界 显然 如果我们用一个 yxx Hx r 间隔为的超平面来划分训练点几何 那么我们就一定能正确的分开所有的测试r 点 4 3 2 线性支持向量机 支持向量机是从线性可分情况下的最优分类面发展而来的 基本思想可用图 4 3 的二维平面的情况来说明 w 1 bxw 0 bxw 1 bxw w2 分类间隔 图 4 3 两类线性分划的最优超平面 图 4 3 中 方框点和圆点代表两类样本 中间的实线为分类线 其附近的两虚线 分别为过各类中离分类线最近的样本且平行于分类线的直线 它们之间的距离就是分 类间隔 margin 所谓最优分类线就是要求分类线不但能将两类正确分开 即训练错 误为 0 而且使分类间隔最大 对分类线进行标准化处理 使得对线性 0 bxw 可分的样本集 满足下面的不等式 S 4 14 2 1 1libxwy ii 此时分类间隔等于 使间隔最大等价于使最小 训练样本正确可分 w22w 且使最小的分类面就是最优分类面 位于两虚线上的训练样本点就称作支持向2w 量 因此 可以通过最小化减少 VC 维 从而实现 SRM 准则中的函数复杂性的选w 择 固定经验风险 最小化期望风险就转化为最小化 这就是 SVM 方法的出发点 w 根据上面的分析 在线性可分条
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 4.4光的折射 说课稿 -2023-2024学年物理人教版八年级上学期
- 四、信息化社会 教学设计-2025-2026学年高中物理人教版选修1-1-人教版2004
- 2025年资产评估师考试模拟试题:资产评估报告编制流程与规范试题
- 2025-2030住房租赁市场结构性变化对青年公寓的挑战与机遇
- 2025-2030二手车出口质量认证体系与渠道建设
- 2025-2030中国青年公寓迷你仓服务需求与盈利模式
- 2025-2030中国青年公寓行业运营效率与管理优化研究报告
- 2025-2030中国青年公寓行业成本结构优化与投资回报评估报告
- 2025-2030中国青年公寓行业客户生命周期价值与留存策略研究报告
- 2025-2030中国青年公寓行业人才流失与团队建设分析
- 北宋名臣滕元发:才情、功绩与时代映照下的复合型士大夫
- 柜面业务无纸化培训课件
- 电工安全教育培训试题及答案
- 彩色水稻种植技术要求
- 2025年湖南银行社招笔试题库及答案
- 2025年精密数控机床进口采购合同
- DB44T 2635-2025 国土变更调查县级数据库建设技术规范
- 海南省2025年中考化学真题试题(含答案)
- 脱证中医护理常规
- 中国全自动样品处理系统行业投资分析及发展战略咨询报告
- 未来趋势:2025年采购管理优化方案
评论
0/150
提交评论