【基于Python的股票信息爬取及探析系统的设计与实现开题报告4600字】_第1页
【基于Python的股票信息爬取及探析系统的设计与实现开题报告4600字】_第2页
【基于Python的股票信息爬取及探析系统的设计与实现开题报告4600字】_第3页
【基于Python的股票信息爬取及探析系统的设计与实现开题报告4600字】_第4页
【基于Python的股票信息爬取及探析系统的设计与实现开题报告4600字】_第5页
已阅读5页,还剩3页未读 继续免费阅读

付费下载

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

开题报告学院:金融科技学院专业(方向):互联网金融报告提交时间:2022.11.25课题名称基于Python的股票信息爬取及分析系统的设计与实现指导教师所在单位河北金融学院职称学生姓名学生学号班级选题来源B导师指定B.导师项目或课题C.专业实习实践D.学年论文E.学科竞赛F.创新创业训练项目或科研训练项目G.其他论文选题依据一、选题背景(一)现实背景随着改革开放,人们的生活水平逐年提供,小康生活已经走进了家家户户,因此人们对于金融理财项目越来越重视,从生活幸福指数提高而降低了理财的门槛,股票投资对于金融理财累产品中又是占比很高的一个选项之一,一个好的股票可以在投资圈中津津乐道,股票通过短短几个小时的涨跌可以像股民传递很多当前市场的局势,股票的涨跌会受到热点新闻或者企业报告等因素影响,这些将成为投资者投资股票的重要参考指标,从而实现对股票的预测的准确性,这将成为说服广大股票与证券公司加大购买力度的重要参照物,随之我国金融产品的蓬勃发展必将随着中国经济的复苏而腾飞,从对国家证监办对外公开数据来进行分析后获得一下结果:1.自08年开始全国发型的股票价值约为200万亿元,随后在2015年的熊市中更是翻了将近三十倍之多。2.自15年熊市之后经过短暂市场低迷,随后迎来了新的一轮爆发在18年的时候更是以六千万亿元,引领金融发展。3.今年股票发行数目更是以每年13.65%的增幅,带领着金融行业发展。研究者们得到了制作公司提供的大量的数据和资料,与此同时他们开始进行了股民调查,希望结合数据和调查能够发现影响股票的因素,进而完善因素达到对股票提高的目的。但是一项重大的发现并不是能够轻易获取的,研究者们仅仅关注到了它们产生的独立影响,并没有发现它们的内在联系,所以不能构建模型。虽然在这个时期对预测模型的构建并没有成功,但是也出现了预测模型研究的里程碑——人口统计学的截面调查法,它是由乔治盖洛普所提出的,他也是股民研究中的著名研究者[3]。大概在1980年,股票预测刚结束了萌芽时期后,在初期的调查基础上发现了更多可以影响股票价格的因素,从而在这个发展中的阶段,越来越多的人投入进股票预测中来,这个时期所提出的预测模型才是真正能够被后面陆续继承的模型,此类模型相比是过去的单一预测,这次分别新增了两个因素股票利好消息与当时相关热点新闻因素,从而在模型的简历上也有了许多改变,主要采用了回归分析在第一模型的基础上添加了影响价格的可能性因子,并且建立他们之间的练习关系。由于在初期模型上进行了改进,需要的数据量也随之增加,因此对于数据的获取与清理也并不是一件简单的事情,因此在选择股票上需要设置几十个能影响股票价格的因子,在不同时期,市场中的影响银子都会产生不同的变化,来体现当时市场的反馈,其中的核心是市场的关注度等于上市股票中业绩排名靠前的股票数据除以本周所有的股票流通价值,最后的结果比例越大,则该股票在未来表现中越有抢眼的表现。从以上数据分析来看股票的发展趋势,已呈现逐年递增的情况,自从15年经过短暂休息后,市场依旧拥有极强的活动力,这得益于18年中国经济的发展,本文将结合传统股票预测方式与当代算法使用python对其进行分析。(二)理论背景中国两大证券交易所,上海证券交易所和深圳证券交易所在1990年成立,之后的29年中,中国股市快速发展。2021年也是见证历史的一年。这一年,北京证券交易所设立,京沪深三市开始同步运行。A股跨过90万亿市值门槛,上市公司数量逼近4700家,年度总成交额、北向资金流入规模同步刷新历史新高。2021年,A股全年成交额达到257.2万亿元,一举打破2015年的纪录,站上A股全年成交额的历史巅峰。随着中国新冠疫苗接种的普及以及疫情快速防控应对措施的实施,对外开放不断扩大,经济恢复进一步取得明显成效,彰显了我国经济发展的强大韧性和旺盛活力。金融行业作为国民经济当中不可或缺的组成部分,与人们的生活日常关系非常密切,不断影响着各个行业的发展。金融数据的来源多,时间跨度大,内容繁杂,各式各样的指数、模型多,即使是一直从事金融行业的工作者,量化这项工作也是个不小的难度挑战。在国外,量化投资已有四十多年的发展历史。国外量化投资经济的发展历程可以总结为四个阶段:一是对冲阶段。这一时期对相关的理论知识与技术进行研究,主要是为量化投资的实践打下基础。二是杠杆阶段。由于原有的投资思路创收比较低,就要通过放杠杆来提高收益,增加量化投资的实践应用。三是多策略阶段。虽然提高了收益,但收益并一定稳定,所以运用多种策略,以提高收益的稳定性。四是量化投资阶段。量化投资飞速发展,策略更具模型化和精确化,尤为重视风险的管理。关于量化投资策略,ZarembaAdam和ShemerJacob在书中介绍了如何在国际市场上成功运用量化投资策略来管理资金,并且在20年间70多个国家进行测试,结合实际描述了他们的理论基础以及实施细节,提供了很好的量化实践应用案例[1]。对比国内,量化投资的发展可以总结为三个阶段:一是起步阶段。我国金融储备设备不够完善,刚开始量化投资的发展速度缓慢。二是成长阶段。对量化投资方式的应用有了进一步发展。三是迅速发展阶段。量化投资的发展迅速,运用量化投资的方式更加广泛[2]。在国内,李成林对于关于国内量化投资及其策略,研究了移动平均线交易策略的有效性及其影响因素。通过有效策略应用进行投资研究,发现过去8年测试时间里,部分策略可以获得超额收益,因此建议投资者在实际应用中可以运用时间长度较长的移动平均线策略增加收益率,降低风险[3]。对于国内量化投资的发展是一个很好的开始。网络爬虫其实从本质上来说就是为了数据采集和预处理,最终将处理后的数据存储起来,一般将可以提取网页URL中数据的工具成为抓取工具,URL路径打开的网页中的内容就是需要爬取的目标网页,爬虫工作会是一个挺需要耐心去研究的工作,它的实现条件对比其他程序十分苛刻。需要满足的网页的抓取方式,通过正则等算法去匹配筛选掉大量的无效的消息,从中获取到有价值的信息,随后将后续待爬取网页加入到队列中,通过队列将对后续的网页陆续进行爬取,直到找到符合系统需要的数据位置,除此之外,还需要对爬取到的数据进行筛选、清洗、过滤等操作,可以为后续开发数据查询提供便利[5]。由于市面上大多数网站在使用的时候都需要登录状况,登录后才能进行正常网页浏览,因此我们在操作的时候通常需要使用cookie值,模拟登录状态,通过http协议将模拟的登录用户进入页面中,但是这个时候状态是无法长期维持交互的,甚至会直接掉线,因为网页会时常刷新所以每次更新的时候都需要进行一次登录操作,然后所产生的结果必须要使用cookie和session来进行记忆登录,cookie能够保存对话信息在客户端,session可以保存信息在服务端。Cookie中也存在session,所以只要用python中的urllib方法保存相应页面的cookie就可以达到目的。通过选择多种存储方式来对源代码进行解析,终于将所需要的目标文件打上标签,方便以后进行入库处理[6]。二、选题意义(一)实践意义本文主要采用Python技术对股票数据首先进行爬取与清洗,将数据集保存至cvs中,之后进行预测通过多项式曲线拟合分析数据,根据预测结果来规避一些风险。通过拟合算法等计算机技术去研究分析金融问题,相信会是未来的一大趋势通过这款软件能够结合计算机技术和金融知识,有研究的必要性,在未来金融和计算机技术共同发展的社会,这种结合的技术相信十分重要。(二)理论意义如何统计分析这些海量股票信息,并通过一系列的方法挖掘其内在的信息和价值,是投资者和监管层比较关心的问题。上市公司财务数据的分类评价和股票价格预测的研究工作,不仅可以把握股票市场未来动态变化,而且可以引导股票投资者合理投资,提高收益。在将来的股票市场中,对股票成交量的预测会变得至关重要。论文准备情况【学生填写】一、内容框架(一)主要内容第一章介绍研究背景和国内外研究现状,为本次研究提供理论基础。第二章介绍相关技术。第三章主要对股票预测算法进行设计第四章和第五章依次对系统的需求进行分析之后,对整体系统功能进行设计第六章为系统的实际实现第七章为系统测试,最后总结全文(二)逻辑框架前言第1章绪论1.1研究背景1.2国内外研究现状第2章相关技术2.1股票预测的相关方法2.1.1基于统计学的研究方法2.1.2股票预测模型2.2网络爬虫介绍2.2.1网络爬虫概述2.2.2页面爬取2.2.3页面存储第3章股票预测算法设计3.1数据来源3.2股票预测算法——多项式曲线拟合第4章股票预测需求分析4.1系统总体概述4.2系统功能性需求4.3系统非功能性需求第5章股票预测系统设计5.1系统整体架构5.2数据爬取与清洗子模块5.3数据存储子模块5.4股票预测子模块第6章股票预测系统实现6.1网络爬虫子模块6.2数据存储子模块第7章股票预测系统测试1=7.1硬件环境配置7.2软件环境配置7.3Numpy库与Scipy库7.4预测结果展示结论二、研究方法1.实验法通过实际操作,包括对系统的需求分析,功能分析设计,系统实现,来完成本次研究。.三、资料准备情况数据均来源于新浪金融,主要包括金融基本信息,金融上市时间以及历史股票数据四、写作安排1

选题

2022年10月15日-2022年10月31日2

撰写论文开题报告并提交

2022年11月1日-2022年11月25日3

准备资料、撰写修改并提交论文初稿

2022年11月26日-2023年1月20日4

准备资料、撰写修改并提交论文二稿

2023年1月21日-2023年2月20日5

论文定稿、打印装订并提交论文终稿

2023年2月20日-2023年3月21日6

论文答辩

2023年3月22日-2023年4月10日参考文献【学生填写】[1]席一锴.基于机器学习算法进行股票预测[J].机器学习,2018,18(05):100-103.[2]李振兴.机器学习在股票预测中的应用研究[J].机器学习,2020,30(07):1001-1003.[3]刘宁.基于网络数据的股票预测模型研究[J].预测模型与应用,2019,28(01):758-765.[4]富泽萌.基于社交网络分析的股票预测系统的设计与实现[J].北京邮电大学学报(信息科学版),2020,28(03):766-770.[5]蒙晓庆.中国股票影响因素分析及预测[J].股票分析,2018,14(07):99-101.[6]周杰,梁佳雯,何加豪,等.居民对国产科幻金融的消费舆情分析及股票预测——以《流浪地球》为例[J].中国集体经济,2020,15(12):142-144.[7]国产股票预测的实证分析[J].股票预测,2020,15(10):77-78.[8]颠覆、混搭与彻底的娱乐精神——《哪吒之魔童降世》股票奇迹成因探析[J].中国金融市场,2019,15(11):21-23.[9]韩忠明,原碧鸿,陈炎等。一个有效的基于GBRT的早期股票预测模型[J].计算机应用研究,2020,10(02):410-416.[10]苗水清,郑海英,白海涛.基于决策树的Titanic乘客生存预测[J].山东工业技术,2019,03(10).[11]周旭.布林带趋势突破策略在数字货币市场的应用[D].浙江工商大学,2021.[12]刘宗兴.基于布林通道的量化投资策略研究——以我国多品种商品期货为例[J].时代金融,2020(36):91-93+105.[13]陆文恺.A股市场均线理论及波动性变化的实证研究[D].上海交通大学,2016.(zhibiao[14]谢俊奇.基于沪深300指数成分股的双均线策略优化及应用[D].广东外语外贸大学,2021.[15]王小川等.python与量化投资:从基础到实战[M].北京:电子工业出版社,2018.4[11]ZarembaA,ShemerJ.CountryAssetAllocation:QuantitativeCountrySelectionStrategiesinGlobalFactorInvesting[M].PalgraveMacmillan,2016.[12]谢东东.量化投资的特点、策略和发展探讨[J].时代金融,2018(27):245+252.[13]李成林.移动平均线交易策略有效性比较研究[D].上海交通大学,2013.[14]孙艳华,冯妍,李宏然.基于Python平台的金融数据分析技术研究[J].信息与电脑(理论版),2020,32(15):155-159.[15]朱妞妞.金融类数据收集和分析中Python编程语言的使用[J].中国产经,2021(19):132-133.[16].王晓翌,张金领.基于Python的“烟蒂”量化投资策略构建与实证分析[J].中国物价,2021(03):78-81.[17]王彦.道氏理论与中国股票市场[J].统计与咨询,2020(01):19-21.DOI:10.19456/ki.tjyzx.2020.01.006.[18]刘宇霞.组合指标个股量化择时交易的实证研究[J].科技创业月刊,

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

最新文档

评论

0/150

提交评论