




已阅读5页,还剩42页未读, 继续免费阅读
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
大数据技术及其在现代教育领域中的应用南京大学计算机科学与技术系窦万春教授,提纲,什么是“数据”?什么是“数据库”?什么是“大数据”?大数据处理的工具与手段大数据技术在现代教育领域中的潜在应用结语,1、什么是“数据”,日程生活中,数据和信息经常混为一谈。“数据是对事实、概念或指令的一种特殊表达形式,这种特殊的表达形式可以用人工的方式或者用自动化的装置进行通信、翻译、转换或进行加工处理”。-ISO信息是对“人”有用的数据,可以影响人们的行为和决策。信息处理的本质是数据处理,数据处理的目标是或的有用的信息。-上述解释来自国际标准化组织的相关定义,2、什么是“数据库”,数据多了,怎么办?,好雨知时节!,数据库技术产生了!始于上个世界60年代中期需求分析数据怎样规范表示?涉及哪些软件?涉及哪些硬件?数据如何输入?结果如何输出?如何解决数据的访问冲突问题?如何从大量的数据中发现一写潜在的应用规律?,基本概念,数据库(DB):接受统一管理的相关数据的集合。数据库管理系统(DBMS):数据库系统中管理数据的软件系统,它是数据库系统中的核心组成部分,对数据库的一切操作,包括定义、查询、更新以及各种控制,都是通过DBMS进行。如甲骨文数据库系统(DBS):实现有组织地、动态地存储大量关联数据,方便多用户访问,由计算机软件、硬件和数据资源组成的系统。数据库技术:研究数据库的结构、存取、管理和使用的软件学科。,软件,硬件+数据本身,3、什么是“大数据”?,“大数据”概念的诞生,2008年9月4日自然(Nature)刊登了一个名为“BigData”的专辑2009年7月OReillyMedia出版社出版了一本名为“BeautifulData”的书2009年10月微软为纪念JimGray,出版了“第四范式数据密集的科学发现(TheFourthParadigmDataIntensiveScientificDiscovery)”,“大数据”概念的诞生,2011年2月11日:Science刊登了一个名为DealingwithData的专辑,联合Science:Signaling、Science:TranslationalMedicine和ScienceCareers推出相关专题,讨论数据对科学研究的重要性同一天,在美国很受欢迎的智力竞答“危险边缘(Jeopardy)”电视节目中,IBM的“沃森”系统以绝对优势战胜两名人类顶级选手。和14年前的“深蓝”(战胜加里卡斯帕罗夫)相比,“沃森”除具有超群的计算能力外,更拥有超大规模的数据以及数据处理能力,.,“大数据”概念的诞生,2012年3月29日,美国总统科技政策办公室OSTP(OfficeofScienceandTechnologyPolicy)宣布了每年投资两亿美元的“大数据研究计划”(BigDataR&DInitiative)同一天,我国科技部发布的“十二五国家科技计划信息技术领域2013年度备选项目征集指南”把大数据研究列在首位,.,“大数据”概念的诞生,“大数据”主要讨论的是与科学发现有关的数据“大数据”很好地概括了当前数据管理领域问题的重要性和多样性数据问题在研究和应用上空前的深度和广度“大数据”成为一个时髦的术语(Buzzword),成为工业界与学术界共同关注的热点“大数据”是个合适的umbrella,较广的覆盖面应用驱动,将IT的重点转移到数据方面,超越传统数据库的理念,.,与大数据相关的几个热点问题,非结构化数据:数据特点云计算与大数据:处理平台Hadoop与大数据:主流的处理工具,1、非结构化数据,(结构化数据)=非结构化数据什么是结构化的数据?,结构化数据,任何一列的数据不可以再细分任何一列的数据都有相同的数据类型,结构化数据很多,.,人力资源管理库存管理门诊挂号工资管理物流管理户籍管理各种票务管理,印象:目前的数据管理技术和手段已经很完善了!,现实:数据库管理技术确实在一些领域得到了完美的应用!,数据库的三大成就,关系模型,E.F.Codd(数据库领域第二个图灵奖获得者),事务处理,JimGray(数据库领域第三个图灵奖获得者),查询优化,结构化(模式和实例分离)关系数据库理论(关系代数)物理存储(索引/统计),成功造就了数百亿美元的数据库产业,孔子登东山而小鲁,登泰山而小天下,.,非结构化数据更多,.,非结构化数据的实例:文本、图片、网页、图像、音频、视频等等。这里的“多”,包括数据量“巨大”和种类“繁杂”!,(结构化数据)=非结构化数据,数据量“巨大”,种类“繁杂”!,多媒体文件的基本要素:文字、声音、图像。多媒体效果的组成过程:音频文件、视频文件、文字文件(字幕),按照一定时间节点的合成。,更为科学的统计规律,世界上的数据80%是非结构化数据二/八定律,两个世界(twouniversals),.,数据库世界,.,非数据库世界,.,29,大数据的评估指标1,1、数据规模可观(入门标准)大数据最基本的要求当然是数据规模大,但很难给出一个绝对的数字标准来确定大小,而只能用一些模糊的感觉来相对比较。例如,一个公司在年度预算中有了专门的,显著的数据存储和分析预算(例如,总预算的3-5%),有了独立的数据处理和分析部门,有了比较完整的数据存储,安全和保密政策与管理流程,有了高度依赖数据分析结果的商业模式,那么,可以说这个公司面临着利用大数据的机会或挑战了。1谢文:看得见的未来十谈大数据时代(http:/www.china-,30,2、数据结构复杂数据量只是反映数据性质的一个指标,还不是最重要的指标。一天产生一百万个T数据的公司也许算不上大数据公司,而另一个一天只产生一万个T数据的公司也许反而是个大数据公司,其原因在于数据结构的复杂性。例如,A公司拥有一亿用户,但用户在A公司网站上只干一件事或一类事,由此产生的数据量虽然不小,但结构简单,重复性高,分析起来很容易,归归类,简单数据挖掘基本功足够。B公司只有一千万用户,却是个开放平台,用户在此可以干互联网能够支持的所有事情,网络行为又可分为个人,群体,组织等层次,那么这个数据的结构就够复杂,能够支持深度挖掘和复杂建模,因而就可以算作大数据。,31,3、数据关联度高网络业一个常见现象就是随着数据量的增加,用户行为所产生的数据间的关系越来越不清晰,越来越难以捉摸,越来越相互孤立,也就是所谓的数据碎片化。这种碎片化主要来自两个方面:一是网站结构碎片化,逻辑混乱化,各种产品与服务之间相互孤立化,因而导致数据之间关系断裂,关联度很低。例如,明明是同一个用户在一个网站上使用了十种不同的产品和服务,但由于其中五种无需注册使用,其他五种又需要分别注册使用,结果这十种网络行为的数据无法整合在一起,或者需要通过种种技术手段和工具进行高成本的数据整合,以至于入不敷出。这也就减少了数据的含金量,降低了数据的可挖掘度,使得无论数据量如何大,结构如何复杂,也形成不了大数据。反之,如果一个WEB2.0时代的开放平台,架构清晰,逻辑分明,用户与用户,用户与用户行为,行为与行为之间都具有确定的关联性,那么这样的数据就具有极高的含金量,极高的分析挖掘价值,也就可以形成大数据,结论,“大数据”技术不能简单的认为是大的“数据”和大的“数据库技术”。严格意义上讲,技术本质上大数据技术和数据库技术是两个完全不同的技术体系!为什么呢?,33,4、大数据处理的工具与手段,34,第一阶段:简单数字资源的产生和丰富数字资源的产生和积累过程(数据库技术应运而生)可以理解成对应资本主义自由贸易的初级阶段第二阶段:规范化数字资源的大规模集成应用大规模结构化数字资源的管理与信息分析与提取,可以理解成跨国公司的形成过程第三阶段:网络环境下异构数字资源的增值应用网络环境下结构化和非结构化数字资源共存的情况下,如何实现增值应用,可以理解成资本运作的高级阶段。,大数据产生的历史背景,35,“生命的本质在于物质的组织形式,而不在于物质的自身”人工生命之父克里斯兰顿(ChrisLangton).物品的生产与流通到资本的产生与流通,映射到数字资源的生产和管理到数字资源的增值与再生,数据之间的泛在互联,需要什么样的工具与手段?,因为数据规模大,需要大容量的存储因为数据结构复杂,需要高性能的计算能力因为异构的数据之间关联度强,需要跨平台的协同处理能力,方法论和工具,方法论:MapReduce工具:Hadoop,Hadoop史前,2003:GFS(Google文件系统)论文发表,SanjayGhemawat,HowardGobioff,Shun-TakLeung:TheGooglefilesystem.SOSP2003:29-43,2004:MapReduce论文发表,JeffreyDean,SanjayGhemawat:MapReduce:SimplifiedDataProcessingonLargeClusters.OSDI2004:137-150,2006:BigTable论文发表,FayChang,JeffreyDean,SanjayGhemawat,etal:Bigtable:ADistributedStorageSystemforStructuredData.OSDI2006:205-218,Hadoop诞生,2004年:DougCutting和MichaelJ.Cafarella根据GoogleLab论文实施,取名Hadoop。,Cloudera公司,Hadoop商用版(Apache开源版),2005秋天:Hadoop由Apache作为Lucene的子项目Nutch的一部分正式引入。,2006年3月:Map/Reduce和NutchDistributedFileSystem(NDFS)分别被纳入Hadoop的项目中,2006.12008:Web-scaleHadoop!(Yahoo!),Hadoop诞生的背景,用户对大数据存储、管理和分析需求迫切传统数据库对非结构化数据几乎无能为力利用传统数据库来对大数据进行处理时,会面临很多难以解决的问题。,软、硬件平台的要求高,成本压力成本和收益不匹配的,充分发掘和利用非结构化数据背后的商业价值,用户希望能以更经济的方式、更好的性能来处理数据,从而推动业务创新,Hadoop不能做什么?,Hadoop在处理网页数据等方面取得巨大成功,经过几年的发展,从一门边缘技术成长为一种事实上的标准Hadoop自身的弱点,Hadoop是一个离线的、批量的数据处理系统,实时在线(OLTP,高效分析)仍是数据库的擅长HDFS存储的是大文件,数据移动频繁,查询响应时间难以保证,有尝试将Hadoop和数据库结合起来应对企业大数据的挑战,5、大数据技术在现
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 2024自考专业(汉语言文学)高频难、易错点题及完整答案详解【典优】
- 2025年上半年浙江台州市属事业单位招聘129人笔试高频难、易错点备考题库及完整答案详解1套
- 2025年省盐业投资控股集团有限公司招聘笔试备考试题及答案详解(必刷)
- 辅警招聘考试每日一练试卷含答案详解(B卷)
- 2025年云南曲靖市事业单位定向招聘29人(含定向招聘计划)笔试高频难、易错点备考题库附答案详解
- 2023年度自考专业(公共关系)考前冲刺试卷附答案详解【预热题】
- 2024年天津国土资源和房屋职业学院传统康复治疗技术期末模拟试题含答案详解(达标题)
- 2024年公安消防队能力检测试卷【含答案详解】
- 2025年甘肃省兰州市中考道德与法治试卷含答案(下册)(下)
- 教育质量评估与认证体系:2025年行业应用与标准化实施效果评价策略研究创新实施报告
- 工厂员工喝酒免责协议书
- 车位顶账协议书
- 养老护理员四级考试题库及答案
- DB44-T 2432-2023 高速公路机电设施养护作业规范
- 企业法律法规培训课件
- 建筑工程质量控制体系
- 语文单招讲解课件
- 中国电子科技集团公司第三十六研究所新能源、电子项目(二期)环评报告
- 快递客户服务培训
- 工艺验证检查指南2025
- 临床教学中的情感教育PBL教学法的探索与实践
评论
0/150
提交评论