



免费预览已结束,剩余1页可下载查看
下载本文档
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
最新【精品】范文 参考文献 专业论文通过股市新闻和股票价格预测股票市场通过股市新闻和股票价格预测股票市场 【摘 要】文章结合股市新闻和股票历史价格,首先将股市新闻作为多重核的一个子核,利用中文分词软件对股市新闻进行分割,并从中选取1000个有代表性的词语处理后作为股市新闻子核的特征空间;然后选取11个指标对股票历史价格进行了处理并将其作为另外一个子核的特征空间;最终利用线性加权的方法对两个特征子空间进行合成,并进行仿真。 【关键词】股票市场预测;中文分词;多重核学学习;交互验证;网络搜索 一、研究背景 股票市场是当今金融市场主要部分之一,金融市场的投资者与预测者都想通过分析市场信息从而获得更多利润。通过有效市场假说(EMH),我们知道股票价格包含且反映了市场信息,但是,一些研究行为金融学的学者质疑了EMH的准确性,因为投资者会被各种市场信息和他们的心理所影响,从而造成不合理的投资举措。为了将多重信息整合到同一个系统当中,我们运用了多重核学习方(MKL),采用两个子核:一个运用股市新闻,另一个运用近期历史价格。在研究了子核的权重后,我们可以得到合成核,从而我们的改进的模型给出了一个比传统更准确的预测。 二、模型设计 (一)信息来源 我们的系统是以两个信息为来源设计的:股市新闻和事前价格。所以系统的输入应该有如下几个特征:(1)时间戳记:每个股市新闻与一个时间戳记联系,它表示这个新闻的发行时间;(2)逐笔交易数据:交易数据往往记录在一个短时间段中;(3)同时:因为系统需要用价格变动来标记股市新闻,股市新闻和历史价格必须是同一时间段的信息; (二)股市新闻信息的预处理 股市新闻可以理解为一种需要我们进行预处理的原始数据资源,其预处理的主要步骤如下:(1)中文分词:我们用中文分词软件对股市新闻数据进行分词。该中文分词软件可以对文字信息合理地划分,但是许多金融领域的一些特殊术语不能被该软件准确地分词,因此我们用金融字典对分词软件的输出进行二次加工;(2)词语过滤:首先删去中文停止词,例如:和、或等。然后过滤掉其他不重要的词语,只留下典型的具有代表性的词语,例如:名词、动词和形容词;(3)特征词语精选:不是余下的词语都可以作为特征词语留下,Feldman只选择了过滤后余下的10%作为特征词语。于是我们根据卡方分布选择了过滤后总共7052中的前1000个词语作为我们系统的特征词语;(4)赋予权重:最后为1000个词语赋权,我们计算作为每个词语的权重。 (三)历史价格的预处理 原始的逐笔交易数据通过以下步骤来进行预处理:(1)排序:因为交易不可能按照它们的时间戳记来排序,所以我们必须先按照时间戳记来对整个记录进行排序。(2)插入添加:因为连续交易之间的时间间隔不一样,有些时间段甚至不可能有记录,所以存在一个问题:在那些空时间段中,我们需要加入什么价格值。有两种方法解决这个问题:一是线性时间权重通过Dacorogna来排序;二是最近的收盘价格。该方法将逐笔交易数据以同一分钟为基础分开,将每分钟最相近的价格放在一起。如果某一分钟没有记录,那么上一分钟的记录将为代替。尽管两种方法都可以实现,我们选择了第二种方法,因为它的实现过程较为简单。 (四)结合股市新闻和历史价格 1.提取加工股票的历史价格。为了使计算机能使用这两种信息数据,我们需要将这些原始数据处理为算法需要的输入数据。假设股市新闻的时间戳记为,此时对应的股票价格为,则其后5、10、15、20、25和30分钟的股价分别表示为, , , ,和。如果,例如超过了交易时间限制,这个股市新闻将会被删掉。我们将股市新闻发布后的股票价格通过下面的公式转化为回收率: 我们以市场平均交易价格的为临界值,如果,股市新闻将会标记称积极的消息,反之如果 则标记成消极的消息。在股市新闻发行之前的三十分钟到一分钟时间段内,我们的实验每隔一分钟抽取一次样本作为股票的历史价格。Cao和Tay将股价序列转换为RDP指标,通过他们的方法,我们用同样的计算的公式对股票价格进行处理。 除了RDP指标,我们运用了其他用于股票分析的市场指标,计算该股市指标的公式列在附录2中,其中是第分钟的股价,是时间顺序。最后,30个历史股价点转化为 6个RDP指标和5个市场指标,在后面的模型中它们将作为简化的指标。 2. 数据的标准化处理。在完成以上工作之后,我们得到了:(1)股市新闻实例的集合,用N表示;(2)指标实例的集合,用表示;(3)由对股市新闻的标记构成的向量。其中N中的每一个实例对应于一条新闻消息,每一个特征分量代表一个被选中的文字;中的每个特征分量对应于一个指标;于是标准化处理可以分为两种情况进行讨论:第一,当和的特征分量只取非负值时,用表示,标准化处理如下: 标准化之后的取值范围为0,1。第二,当和的特征分量可以取正负值时,用表示,标准化处理如下:标准化之后的取值范围为-1,1。 三、实验结果及分析 (一)数据集 选取相关的股市新闻信息和市场价格作为实验数据集。(1)股市新闻信息:实验运用了来自Caihua 2001年的股市新闻信息,所有的新闻信息都是用繁体中文发布的,并且每条新闻信息都有一个时间戳记以表明它的发布时间。(2)市场价格:市场价格包括2001年香港交易所所有股票的价格。股市新闻信息的时间戳记和股票市场价格以每笔交易为基础。港交所有成千上万支股票,而并不是所有的股票都很活跃,我们主要关注恒生指数在2001的33支股票,然而恒生指数的组成分别在2001年6月1号和7月31号发生了两次变动,根据,新增加的股票在前几个月内价格的变动是不合理的,通常会发生定价错误,因此我们选择那些一年内都是恒生指数组成股的股票作为研究对象,则只有23支股票满足要求。我们选择这23支股票前10的月的数据作为训练集合,最后两个月的数据作为检验集合,用以检验模型的精确性。 (二)参数的计算 在模型训练的时候,通过网络搜索和五摺交互验证来确定参数的值,以模型1的训练为例,假设SVM的参数为?%和C,对于?%的计算,以0.2为步长从0到10进行搜索,对于C的计算,以1为步长,从1到20进行搜索,则总共有5020=1000种参数组合,也就是算法要运行1000次。在每一次循环中,通过五摺交互验证来验证模型的效果,也就是将前10个月的数据平均分为5个部分,用其中的4个部分训练模型,剩余的1个部分用来验证模型的预测效果。在1000中参数组合中,保存使模型的预测效果做好的那一组参数值,并用于最后的模型检验。在模型中,参数的计算方法是一样的,对于模型4,我们选用通过模型1,2得到的?%值,参数C的值则通过与其它模型一样的方法得到。 (三)实验结果 我们用准确度来衡量模型的预测效果,其中: 从交互验证以及网络搜索所得实验结果我们能看出:(1) MKL经交互验证以及网络搜索得到的预测结果(除在第5的交互验证和第10m,25m的网络搜索的结果外)都优于其余三个模型。尽管自然组合的方法和MKL都运用了股市新闻信息以及市场价格,但是自然组合方法没有像预期那样比依赖于单种信息的模型表现得好,原因可能是简单的将股市新闻信息和指标集的特征分量的结合导致了对某种特征分量的偏向。特征分量在很大程度上偏向了股市新闻信息一方,这正如图1所表现的那样,自然组合的图形与简单依赖于新闻信息的图形十分接近;另一方面,MKL平衡了股市新闻信息和市场价格之间的可预测性(股市信息和股票价格都有各自的特点,隐藏在他们背后的信息能形成互补)。相比于交互验证,MKL经网络搜索的表现虽然有所下降,但依然获得了4个最好的预测结果和2个次好的预测结果。 (2)从图1和2中可以很明显的看出指标集对股市的预测效果的走势几乎总是向下的,这表明价格的可预测性随着时间的推移在慢慢下降,这和我们通常认为随时间按推移市场信息会逐渐被市场所吸收、可预测性会逐渐下降这一观点相契合。(3)从图1可以看出,模型1,3,4的准确度曲线在第分钟时达到最高点,并且这三个模型都运用了股市新闻信息,这说明股市新闻的可预测性在第分钟时达到最高,结论和的研究发现一致。 参考文献 1E.F. Fama. The behavior of stock market prices. Journal of business, 38(1), 1964. 2G. Fung, J. Yu, and W. Lam. News sensitive stock trend prediction. Advances in Knowledge Discovery and Data Mining,
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 子曰当仁不让于师课件
- 年度岗前安全培训模板课件
- 子宫先天发育畸形课件
- 年度安全培训简讯课件
- 娱乐化安全培训课件
- 临汾市级机关遴选公务员笔试真题2024
- 威宁县回族刺绣课件
- 姚坪乡安全生产培训会议课件
- 平面图上的方向课件
- 农发行岳阳市华容县2025秋招笔试热点题型专练及答案
- DL∕T 2568-2022 电力行业数字化审计平台功能构件与技术要求
- 足太阳膀胱经(经络腧穴课件)
- 部编人教版《道德与法治》六年级上册第9课《知法守法 依法维权》精美课件(第1课时)
- 消防喷淋系统设计合同范本
- DB32-T 4757-2024 连栋塑料薄膜温室建造技术规范
- 2024年四川省广安市中考数学试题(含答案逐题解析)
- 山西省太原三十七中2023-2024学年九年级上学期月考物理试卷(10月份)
- (幻灯片)世界各国国旗大全中文
- 物流地产发展前景分析
- 三年个人成长路线图:高中数学名师工作室
- 子宫动脉栓塞护理查房
评论
0/150
提交评论