版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
大数据技术导论(第二版)
绪论01020304认识大数据大数据时代带来的变化大数据价值大数据产业及岗位05虚拟机06Linux操作系统01PARTONE认识大数据大数据产生的历史必然被动产生→主动产生→自动产生1.数据产生方式的变革促成大数据时代的来临大数据产生的历史必然
在云计算出现之前,传统的计算机无法处理如此大量的“非结构数据”。以云计算为基础的信息存储、分享和挖掘手段,可以低成本、有效地将这些大量、快速变化的数据存储下来,并实时进行分析与计算。云计算转变了数据的服务方式。图1.2给出了云计算的发展历程。
因此,大数据的出现是历史的必然,它必将为全人类的生产生活方式带来一次深刻的变革。2.云计算是大数据诞生的前提和必要条件大数据(BigData)指无法在一定时间范围内用常规软件工具进行捕捉、管理和处理的数据集合。大数据概念和特征大数据概念和特征1.Volume大数据概念和特征1.Volume大数据概念和特征2.Variety75%网络日志、音频、视频、图片、文本等5%数据库等非结构化数据结构化数据20%半结构化数据----网页等大数据概念和特征数据产生得快一台大型粒子对撞机里共有1.5亿个传感器每秒钟发生粒子对撞6亿次仅仅使用十万分之一一年积累25PB的数据1TB的硬盘×25000个剔除99.999%数据处理速度快大数据通过云计算,以上数据储存仅需20分钟共计1PB,速度1G/s,还剩144小时已完成50%3.Velocity实时采集,实时传输,实时分析,实时反馈大数据概念和特征4.Value(1)价值密度低:信息分布毫无规律,隐藏较深。(2)价值体现:具备高性能、实时性、可扩展性的预测能力。大数据概念和特征大数据生命周期价值分析平台存储&计算数据认知外在内在大数据分析目标:数据
价值大数据生命周期大数据生命周期1.数据采集对分布的异构数据源中的数据进行清洗、转换、集成,最后加载到数据仓库中,成为专家数据。大数据生命周期2.数据存储数据存储的类型有多种,如关系型数据库SQL、非关系型数据库NoSQL、分布式数据库NewSQL等。大数据生命周期3.数据处理数据外在认知:统计分析、分布分析、相关分析、主成分分析等。数据内在认知(数据建模):回归分析、因子分析、聚类分析、关联分析等。数据处理是大数据生命周期最重要的阶段大数据生命周期4.数据解释包括可视化、分析报告和人机交互等,是数据价值的展现。大数据生命周期5.数据应用指数据价值的落地,包括推荐系统、预测、决策等,强烈依赖领域知识。大数据生命周期大数据、物联网与云计算之间的关系02PARTTWO大数据时代带来的变化决策方式
传统科学思维中,决策制定往往是“目标”驱动的。然而,大数据时代出现了另一种决策方式,即数据驱动型决策,数据成为决策制定的主要“触发条件”和“重要依据”。以天气预测为例,假如现在需要预测某天某地的天气如何,这个时候如果不掌握任何数据,只能像抛硬币一样进行猜测,也就是说预测对的可能性是50%。但如果知道前一天是晴天,那么结果是晴天的可能性就大一些。如果又知道大气云层、空气湿度、气温、风速等情况,就能更加准确地做出预测。在这个过程中,掌握的数据越多,做出的决策也就更准确。计算方式
“只要拥有足够多的数据,我们可以变得更聪明”是大数据时代的一个新认识。因此,在大数据时代,原本复杂的“智能问题”变成了简单的“数据问题”—只要对大数据进行简单分析就可以达到“基于复杂算法的智能计算的效果”。为此,很多学者曾讨论过一个重要话题—“大数据时代需要的是更多数据还是更好的模型”。机器翻译是传统自然语言技术领域的难点,虽曾提出过很多种“算法”,但应用效果并不理想。近年来,Google翻译不再仅靠复杂算法进行翻译,而是采用对它们之前收集的跨语言语料库进行简单分析的方式,提升了机器翻译的效果和效率。
计算方式思维方式
人与人的区别主要在于思维方式,一个人的思维方式,决定了他看待世界的角度,一个人的思维方式,决定了一个人的人生高度。成功=思维方式×热情×能力改变一个人的思维,就可以改变一个人的心智,当一个的心智有所改变,人生和事业就会实现180度的大转弯。思维方式
行为方式
习惯
性格
命运1.正确的思维方式,比努力更重要思维方式只有树立正确的思维观,才能让人一步一步走向成功思维方式2.什么是思维思路逻辑线条总体架构算法(解决特定问题的步骤)哲学范畴(三大哲学问题)思维≭技能思维≭努力道思维方式3.每个时代有每个时代的思维(1)小数据时代思维
抽样思维(概率统计)、因果思维....(2)互联网思维
用户思维、流量思维、粉丝思维、免费思维.....(3)物联网思维
服务思维、创意思维.....(4)大数据思维
全量思维、容错思维、相关思维...(5)人工智能思维
人机分工数据思维原则(1)预测不准是常态,预测准是变态。今天是星期一,明天是星期几?有意思吗。大数据思维
整体思维就是根据全部样本得到的结论,即“样本=总体”。因为大数据是建立在掌握所有数据(至少是尽可能多的数据)的基础上的,所以整体思维可以正确地考查细节并进行新的分析。
如果数据足够多,它会让人们觉得有足够的能力把握未来,从而做出自己的决定。
结论:从抽样中得到的结论总是有水分的,而根据全部样本得到的结论水分就很少,数据越大,真实性也就越高。
启示:理解整体思维源自量变到质变。大事业都是从点滴小事积累起来的1.整体思维大数据思维
相关思维要求人们只需要知道是什么,而不需要知道为什么。在这个充满不确定的时代里,可能等我们找到准确的因果关系再去办事时,这个事情早已经不值得办了。所以,有时社会需要放弃它对因果关系的渴求,而仅需关注相关关系。
结论:为了得到即时信息、实时预测,寻找到相关性信息比寻找因果关系信息更重要。
启示:理解相关思维源自善于抓住机遇,良机只有一次,错过就不再来。都是从点滴小事积累起来的2.相关思维大数据思维
实践表明,只有5%的数据是结构化且适用于传统数据库的。如果不接受容错思维,剩下95%的非结构化数据都将无法被利用。
对小数据而言,因为收集的信息量比较少,必须确保记下来的数据尽量精确。然而,在大数据时代,放松了容错的标准,人们可以利用这95%数据做更多新的事情,当然,数据不可能完全错误。
结论:容错思维让人们可以利用95%的非结构化数据,帮助人们进一步接近事实的真相。
启示:理解容错思维源自上善若水。学习别人的优点,完善自身。3.容错思维科学研究第四范式
2007年,图灵奖获得者JimGray提出了科学研究的第四范式—数据科学。在他看来,人类科学研究活动已经历过三种范式的演变过程(早期的“实验科学范式”、以模型和归纳为特征的“理论科学范式”和以模拟仿真为特征的“计算科学范式”),目前正在从“计算科学范式”转向“数据科学范式”,即第四范式。03PARTTHREE大数据价值增加额外收入即使现在没有收入,也得有未来可预期的收入。1、节假日堵车保险:2、开店选址:3、投资决策:减少支出支出包括:人,财、物、时、空。资本当道的今天,更看好未来的利润。1、确定呼叫中心动态席位2、量身定制(遥控器功能,手机功能)降低风险一不能增加收入,二不能减少成本,如果风险可控,那也是数据的价值。没有任何企业对收入和支出是100%确定,而不确定性带来的就是风险。1、桥梁安全监控2、大楼安全监控3、人的健康监控4、银行:降低贷款申请门槛、不错杀好人、价低坏账率;5、政府:分析招聘广告,重点培训,提高就业率6、识别骗保行为;7、解决看病贵问题;8、恐怖事件提前预警;
可量化参照系
收入、支出和风险这三方面刻画数据价值是否就足够了?很遗憾,还不够。还缺少可以量化的参照系,那什么叫作可以量化的参照系?
看一个例子。如果给客户做一个客户流失预警模型,准确度为75%。客户很不满意,认为准确度太差,连90%都不到。
这里的困难在于客户对预测精度没有一个合理的预期。为什么没有?因为他没有合理的参照系。在没有参照系的情况下,客户便认为90%才优秀。那么应该怎么做?答案是应该给他建立一个合理的参照系。
为此,可以摸清楚客户在没有你的情况下,他自己能做多好?在你到来之前,客户自己是有流失预警得分的,这个得分准确度如何?
很多时候,客户自己都从来没有评价过。这时候,你可以说:“之前的精度是65%,已经做得非常不错了。但是,现在经过双方的共同努力,这个精度提高到了75%。为此可以节省很多不必要的支出,或者增加多少额外的收入,等等。”
这样更有说服力。为什么更有说服力?因为确立了一个可以量化的参照系。而这个参照系就是客户现有的系统。如果没有这个参照系,而又想说明75%的精度是有价值的,就会无比艰难。数据敏感,讲故事
同样是一个数字,在数据敏感的人眼中与对数据不敏感是完全不一样的。如果公司年收入8000万元,在数据敏感的人眼中看到的不仅仅是这个数字,还包括数据背后隐藏的信息:8000万元是由哪几个业务收入构成,哪一个业务收入占主要部分,最高业务收入所对应的消费人群和地区又是哪些等。
所以,大数据技术,重点不在数据,而在于对数据敏感,就是能清楚数据异常背后的原因,这需要经验,也需要你的思考和执行力。04PARTFOUR大数据产业及岗位大数据产业链条大数据产业分析1.市场规模分析2020—2025年中国产业大数据市场规模预测如图1.10所示。大数据产业分析2.产业占比分析2020年我国产业大数据应用占比如图1.11所示。大数据产业分析3.商业模式分析大数据多元化商业模式如图1.12所示。大数据岗位05PARTONE虚拟机安装虚拟机所谓虚拟机(virtualmachine),就是通过软件技术虚拟出来的一台计算机,它在使用层面和真实的计算机并没有什么区别。常见的虚拟机软件有VMwareWorkstation(简称VMware)、VirtualBox、MicrosoftVirtualPC等,其中VMware市场占有率最高。1.下载虚拟机
首先访问官网地址
,如图1.14所示。注意:没有账号必须先注册才能下载。2.虚拟机安装
打开下载好的exe文件,弹出安装界面,如图1.17所示。单击“下一步”按钮,进入安装进程,如图1.18所示。安装CentOS1.Linux版本安装CentOS1.下载CentOS下载界面如图1.19所示。2.CentOS安装大数据实验平台概述
实验环境使用开源的章鱼大数据云平台(
)。注册账号,登录后选择课程,章鱼大数据实验平台首页如图1.33所示。06PARTONELinux操作系统国产操作系统的痛Linux是一种操作系统,操作系统在计算机应用起着重要作用,目前多数人还是在使用windows。国产操作系统主要有中兴新⽀点,麒麟,统信等,但是市场实际占有率⾮常低。影响⼀个操作系统市场占有率的重要原因⽆⾮就是操作系统的⽣态问题,在国产操作系统上很难找到适配的专业性软件。举个简单的例⼦,例如需要使⽤⼯业设计等专业领域软件的⽤户因为国产操作系统缺乏此类软件从⽽选择弃⽤国产系统,⽽国产操作系统⽤户较少⼜导致软件⼚商不太愿意投⼊⼤量资⾦去研发软件。毕竟软件⼚商也是要需要盈利的。所以如果没有⼀个健康良好,能够让双⽅互惠互利的⽣态环境,相信国产操作系统会很难⾛的下去。国家现在也逐渐出台⼀些政策来扶持我们的国产操作系统发展,要求⼀些党政企单位使⽤国产操作系统,提⾼⽤户量,吸引更多软件⼚商去研发适配软件,逐步替代windows和苹果等系统。
由于Linux是开源,可以二次开发,我们学习Linux的目的就是为国产操作系统的研发储备人才。三层操作系统Linux操作系统目录文件属性如果一个目录或文件名以一个点.开始,表示这个目录或文件是一个隐藏目录或文件(如:.bashrc)。
*.sh为Linux可执行程序
*.为windows可执行程序文件属性1:1位,文件的类型(d:目录;-:普通文件;l:连接文件)。2:9位,文件的权限(r:读权限;w:写权限;x:执行权限;-无权
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 防车辆调动方案范本
- 小公寓出售方案范本
- 合肥一体化泵站施工方案
- 药店财务规避方案范本
- 加油站检修工程施工方案
- 生态园塑胶跑道施工方案
- 学校办公楼建设施工方案
- 2026年九年级下册英语第一次月考试卷含答案
- 2025年新疆昌吉自治州政府采购评审专家考试真题含标准答案
- 2026年自考00586广告文案写作试题及答案
- 粽子的数学知识
- 2025届高考语文专项【语用新增题型】修改错别字名校最模拟题
- JJF(津) 65-2022 钢直尺检定仪校准规范
- 老年人与儿童火灾安全教育
- 父母房产赠予儿子合同范例
- 幼儿园年度业务活动开展情况总结
- 家装渠道合同协议书
- (高清版)JT∕T 1402-2022 交通运输行政执法基础装备配备及技术要求
- JTT495-2014 公路交通安全设施质量检验抽样方法
- 从班会课到成长课程德育教师的班会课微革命
- 《诚实守信,立身之本》主题班会课件
评论
0/150
提交评论