版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
题目:数据分析软件的使用一、实践目的:学习使用数据分析软件二、实践内容:背景介绍:可视化分析是大数据分析的一种重要方法.大数据可视分析主要是在利用计算机自动化分析能力的同时,充分挖掘人对于可视化信息的分析处理能力的优势,将人与计算机的各自的强项融合在一起,发挥更大的作用。主要是从可视分析领域所重视的认知、可视化、人机交互的综合视角方面出发,分析了支持大数据可视分析的基础理论,包含支持分析过程的认知理论、信息可视化理论、人机交互与用户界面理论等.利用人机交互式分析方法和交互技术,帮助人们更加直观且高效地了解大数据背后的有用的信息、知识与实际应用相结合.以此为基础,探讨了关于大数据主流应用的信息可视化技术面向文本、网络(图)、时空、多维的可视化技术.与此同时也讨论了支持可视分析的人机交互技术,其中有支持可视分析过程的界面隐喻与交互组件、多尺度、多焦点、多侧面交互技术,面向Post-WIMP的自然交互技术.最终,提出了大数据可视分析领域正面临的瓶颈问题与技术挑战.目前为止,世界早已进入大数据(bigdata)时代.随着信息化的到来,在世界各国普及的各种智能移动设备、传感器、电子商务网站、社交网络媒体等时时刻刻都在生成各种各样的数据.随着互联网、物联网、云计算等信息技术的快速发展,信息技术与人类世界的政治、经济、军事、教育、科研、生活等各种领域不断相互交融,产生了前所未有的数量级数据.七年前,全世界每天产生2.SEB(2.Sx10}g)的数据(/big-data/us/en/).大数据具有4V特征:体量巨大(volume)、类型繁多(variety)、时效性高(velocity)以及价值高密度低(value),这给人们带来了新的机遇与挑战.KNature于2008年出版了大数据专刊bigdata,专门讨论了大量数据对互联网、经济、环境以及生物等各方面的影响与挑战KScience也于2011年出版了如何应对数据洪流(datadeluge)的专刊DealingwithData,指出如何借助宝贵的数据资源为我们服务,推动人类社会更好地发展.现如今,大数据已成为一门新兴的学科,成为学术研究的热点,并被认为是继云计算和物联网之后又一个具有革命性的信息技术.大数据分析是大数据研究领域的核心内容之一.Google首席经济学家、UCBerkeley大学HalVarian教授指出:数据正在变得无处小在、触手可及;而数据创造的真正价值,在于我们进一步地挖掘数据的附加价值.这种增值服务就是数据分析。.美国《时代》杂志于2012年十一月指出,奥巴马的成功连任背后所依靠的关键就是两年来对大数据的分析(),比如,通过对大量选民微博的分析得出他们对总统候选人的偏好.中国移动也是根据对7亿3千万以上用户的数据进行分析,对客户喜好和关注热点等进行分类,来改善用户体验和帮助制定市场决策.数据的背后隐含着丰富的信息,而信息之中蕴藏着大量财富、知识及智慧.大数据是具有潜在价值的原始数据资源,只有通过深入分析才能挖掘出所需的信息、知识和智慧.当前,大数据分析方法论以及支撑技术的研究成为大数据领域的核心焦点之一。未来人们的决策将愈加依赖于大数据分析的结果,而不仅仅靠简单的经验或直觉。一般情况下,数据的分析过程需要计算机和人的相互协作与优势互补.从这一点出发,大数据分析的理论和方法研究可以从两个维度展开:一是从机器或计算机的角度出发,突出机器的计算能力和人工智能,以多种高性能处理算法、智能搜索与挖掘算法等为重点研究内容,比如基于Hadoop和MapReduce框架的大数据处理方法以及各类关于大数据的机器学习和数据挖掘方法等,这也是目前大数据分析领域的研究主流;另一个维度是以人为核心,把人作为分析主体和需求主体,强调基于人机交互的、符合人的认知规律的分析方法,意图将人所具备的、机器并不擅长的认知能力融入分析过程中,这一研究分支以大数据可视分析(visualanalyticsofbigdata)为主要代表.事实上,在科学计算可视化领域以及传统的商业智能(businessintelligence,简称BI)领域,可视化一直是重要的方法和手段.但是这些研究领域并未真正深入地结合人机交互的理论和技术,因此不能全面地支持可视分析的人机交互过程.而且大数据自身的发展也对可视分析提出了更加迫切的需求与更严峻的挑战.一幅图胜过千言万语.人类从外界所获得的信息大约有80%以上来自于视觉系统,当大数据以直观可视化的图形图表形式展现在观察者面前时,他往往能够一眼看出数据背后隐含的信息并转化为可利用的资源.将196个国家的35万个网站数据整合起来,并根据200多万个网站链接将这些星球通过关系链联系起来,每一个星球的大小由其网站流量来决定,而星球之间的距离远近则与链接出现的频率、强度和用户跳转时创建的链接有关.我们可以立即看出,Facebook以及Google是流量最大的网站.这些“一眼”识别出的图形特征(例如异常点、相似的图形标记)在视觉上容易察觉,而通过机器计算却很难理解其涵义.因此,大数据可视分析是大数据分析至关重要的手段和工具.总而言之,当前对于大数据可视分析的研究仍处于初步阶段,对于这一研究领域的理论、方法和技术体系至今尚未形成,该领域还有很大的发展空间.三、具体操作python爬取数据,在pycharm中实现。创建py文件,编写代码,运行程序。Eg获取电影排名、主演、上映日期等内容,或书评。通过Python语言来实现一个简单的聚焦爬虫程序,把需要的书籍爬取保存到本地该爬虫的功能是爬取某信息网上关于互联网书籍的信息,并将其发布的招聘信息保存在Excel文档中1解决Where.What.How的问题<1)Where:爬哪里,找到合适的网站,确定要抓取的页面,让它爬取我们需要的信息。(2)What:爬什么,分析上述页面,确定从页面中爬取的数据,将你想要的数据提取出来,保存。(3)How:怎么爬,用爬虫爬,八爪鱼也可以,尤其是对网页的解析,可使用正则表达式、BeautifulSoup来解析网页,方法都可行,自己喜欢就好,使用时可根据用户的熟练程度和需要选择一种适合的解析方法,具体实施:该爬虫系统主要由三个模块:页面抓取模块、页面分析模块、数据存储模块,三个模块之间相辅相成,共同完成网页数据的抓取任务(1)爬虫实现流程如图1所示(2)打开某豆瓣网信息,该网站书籍是爬虫主要的处理对象,打开小说页面并分析网页源代码结构。分析代码过程中,可利用浏览器搜索引擎工具确定每个数据对应的元素及Class名称例如本页面的书籍名称、作者、出版日期等。(3)确定爬虫方法,导入程序中所用到的数据库。对服务器发出请求,打开网页,需要使用requests库,本爬虫中分析网页使用的是BeautifulSoup,需要用到BeautifulSoup库,存储数据用到库,整个爬虫程序中用到的库都需要导入部分代码及注释(#开始为注释行)为如下:#导入程序中所用到的库importrequestsfrombs4importBeautifulSoupimportxlwt#打开网页r=requests.get(linlc,headers=headers)#通过BeautifulSoup的fin走all方法解析页面soup=BeautifulSoup(r.text,"lxml")booklist=soup.find_all('li',class_一,'bookitemclearfix")forjobinbook_list:compbook.find('div',class_一,compname').text.strip0namebook.find('span',class_一,name').text.strip0name=book.find('p',class_一bookname).text.strip(4)爬取结果,本地保存爬虫从网页中提取数据后,需要将数据保存下来,Python提供存储数据的方法:可保存到文件中(包括TXT文件和XLS文件),也可存储在数据库中(包括MySQL关系数据库和MongoDB数据库)该爬虫对招聘信息进行本地保存,存储格式为.XLS文件。部分代码如下:#创建Excel文档保存将要爬取的数据bool}xlwt.Workbook(encoding='utf-8')sheetl=book.add_sheet(u'sheetl',cell-overwriteo1}True)#在创建好的Excel文档中写入信息标题heads=[书籍名称、作者、出版日期]ii=0forheadinheads:sheetl.write(O,ii,head)ii十=1#调用write方法将查找到的信息写入Excel文档中fordatain(comp,name,)sheetl.write(i+1,O,comp)sheetl.write(i+1,l,name)sheetl.write(i+1,2,date)i十=1#保存Excel文档booksave(joblist.xls')可以看到和网页中提供的书籍信息是一致的3改进和完善上述爬虫只能爬取网页上的第一页书籍信息,如果需要爬取所有页面信息,可根据分析网页URL地址的规律,使用for循环爬取分析比较:Od303655一002e一4964一f90b-fa2alcblf628&C1ickID=3Od202408一002e一46bc一d2a9-36b621b6175b&C1ickID=2到下一页C1ickID的值增加1,需重新构造URL音匡分代码如下:foriinrange(0,10):linkl=link+str(i)了解sql语句,学会查询等命令。删除指定日期内的日志文件我们在局域网中建立了日志服务器,用于记录网络设备产生的日志文件,这些文件主要是作为网络故障排查的一个依据,但由于每人产生的日志文件数据巨大,占用数据库的存储空间,降低了查询的效率。最近这个问题越来越明显了,执行相应的查询语句时越来越慢。通过日志文件的结构进行分件,我们发现有一个`ReceivedAt',字段,里面是存储的日志信息产生的时间,那么就可以依据这个字段,进行删除操作,当然进行删除操作之前,我们需要先用select语句看一下这某个指定的时间段内有多少条数据文件,语句如下:SF1FOT*FROMSvstetnEventsWHFRFSvsteinEReceivedAtRFTWFFN2018-08-O1vent00:00:AND2018一0900'0100:00:00':这是查询的2018年8月份产生的日志文件,一共有34.6118万条,这些信息由于时期久远,可以删除掉了,语句如下:DELETEFR0MSystetnEventsWHFRFSvsteinERPCeIVedAtBETWEEN,2018-08-O1vent00:00:AND2018一0900'01的行:346118时间:50.541s用了不到一分钟的时间,就将34.6118万行的数据删除掉了,可以再用select语句验证一下。从出现的提示信息看,一条信息也没有了,证明确实是从MySQL数据库中册」除了。其实在MySQL数据库执行删除指定的日期数据信息的方法有很多种,但是通过实践验证,证明这种方法效率最高,理解起来也很容易。通过视图来优化查询操作建立mysql与帆软之间的关系,将数据导入帆软中,掌握各种图表的操作,最终完成可视化大屏。数据源功能模块用户可以上传数据源文件。用户在大屏上点击上传文件按钮,选择需要上传的数据文件,完成上传。发送数据。系统维护人员利用OKHttp请求发送数据给后台,便于让前台显示实时数据。数据可视化功能模块1.多屏互动。用户可以通过“小屏幕”对“大屏幕”进行控制,通过在“小屏幕”界面进行操作,如改变主题、图表参数等,使“大屏幕”随之进行变化。2.修改排版。用户可以在“小屏幕”界面根据自己的需求对图表展现的排版进行选择,一经选择,“大屏幕”会马上切换。3.修改主题。用户可以在“小屏幕”界面根据自己的需求、喜好等对“大屏幕”界面的主题进行选择,一经选择,“大屏幕”会马上切换。4.修改图表参数。用户可以在“小屏幕”界面对“大屏幕”需要呈现的数据图表进行选择,选择内容包括图表类型、数据项以及数据条数,一经选择,“大屏幕”会马上根据设置的信息呈现图表。数据分析功能模块生成报告。用户可以任意选择在“大屏幕”或“小屏幕”进行数据分析,然后生成数据分析报告。下载报告。如果用户选择生成数据分析报告,则可以选择下载的生成数据分析报告多屏互动用户应分别在大屏及小屏设备浏览器上打开大屏及小屏的页面地址,在“小屏幕”点击“请先选择数据类型”下拉框,并在下拉框中选择想在“大屏幕”中呈现的数据类型(可以选择默认数据类型或自定义上传数据类型)。修改排版在小屏端界面选择数据类型之后,默认进人布局选择页面,用户可点击“选择大屏布局”下拉提示,并在下拉框中选择布局选项(1****3),大屏即会进行相应排版切换。修改主题在小屏端界面选择数据类型之后,默认进人布局修改页面。手指向右滑动或点击下方切换栏中第2个按钮,进人主题修改页面。从下拉选项中选择一个心仪的大屏主题样式,大屏即会切换相应主题。修改图表参数在小屏端界面,手指右滑或点击下方切换栏中第3个按钮,将进人图表参数修改页面。页面中空白方块即代表当前页面显示排版,点击任意一个空白方块,修改该方块图表的类型、数据项与数据量(图表类型单选,数据项复选,数据量合法范围为1一;个别图表如饼状图和仪表盘等,假如选了条甚至更多条数据,也只会显示一条的结果)。下载数据分析报告在大屏界面同时按住Ctrl+Q组合键,调出大屏功能菜单。鼠标点击选择相应格式数据分析报告(Word/Txt/Excel)进行下载。进人小屏界面,在默认界面即可通过点击Word/Txt/Excel图标进行分析报告下载(Excel下载文档为源数据文档)。上传数据在大屏界面,通过Ctrl+Q的组合键调出功能菜单,鼠标点击选择数据上传项,自动打开数据上传页面,在数据上传页面选择需要上传的数据文件并点击提交,即可完成数据上传。除此之外,用户还可以通过OKHttp向项目接口实时传输数据,以进行实时数据可视化展示。选择图表数据在大屏界面,选择具体一个图表,点击如图3所示的数据节点,即可选择或取消该节点的数据展示。实时刷新开关数据在大屏界面,点击右上角的播放与暂停按钮,即可打开或停止数据实时刷新功能(伴随着Real-TimeUpdateOn/Off提示)。成果展示:四、实践体会:计算机在人事部门的广泛使用,改进了统计手段,改革了统计方法,
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 2025年天津市(56所)马克思主义基本原理概论期末考试模拟题带答案解析(夺冠)
- 2024年珠海城市职业技术学院马克思主义基本原理概论期末考试题含答案解析(夺冠)
- 2025年哈尔滨学院马克思主义基本原理概论期末考试模拟题及答案解析(必刷)
- 2025年重庆市达川地区单招职业倾向性考试题库带答案解析
- 2024年绥中县幼儿园教师招教考试备考题库含答案解析(夺冠)
- 2024年苍山县幼儿园教师招教考试备考题库带答案解析(必刷)
- 2025年阿坝县幼儿园教师招教考试备考题库带答案解析(夺冠)
- 2025内蒙古能源集团所属部分单位招聘(148人)笔试历年常考点试题专练附带答案详解
- 2025云南玉溪市国有资产经营有限责任公司招聘劳务派遣工作人员1人笔试历年常考点试题专练附带答案详解
- 2025中远海运(上海)有限公司招聘1人笔试历年备考题库附带答案详解2套试卷
- 喷砂车间管理办法
- 梨状肌综合症康复指导讲课件
- 【SA8000标准(社会责任标准)对我国劳动密集型产业的影响及应对措施研究12000字(论文)】
- 医疗行业知识产权教育的必要性
- 工程抢险劳务合同协议
- 传染病院感防控课件
- 7下英语单词表人教版
- 涉密人员保密培训
- 寒假生活有计划主题班会
- 攻坚克难追求卓越主题班会
- 罗马机场地图
评论
0/150
提交评论