已阅读5页,还剩42页未读, 继续免费阅读
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
大数据技术及其在现代教育领域中的应用窦万春教授 提纲 什么是 数据 什么是 数据库 什么是 大数据 大数据处理的工具与手段大数据技术在现代教育领域中的潜在应用结语 1 什么是 数据 日程生活中 数据和信息经常混为一谈 数据是对事实 概念或指令的一种特殊表达形式 这种特殊的表达形式可以用人工的方式或者用自动化的装置进行通信 翻译 转换或进行加工处理 ISO信息是对 人 有用的数据 可以影响人们的行为和决策 信息处理的本质是数据处理 数据处理的目标是或的有用的信息 上述解释来自国际标准化组织的相关定义 2 什么是 数据库 数据多了 怎么办 好雨知时节 数据库技术产生了 始于上个世界60年代中期需求分析数据怎样规范表示 涉及哪些软件 涉及哪些硬件 数据如何输入 结果如何输出 如何解决数据的访问冲突问题 如何从大量的数据中发现一写潜在的应用规律 基本概念 数据库 DB 接受统一管理的相关数据的集合 数据库管理系统 DBMS 数据库系统中管理数据的软件系统 它是数据库系统中的核心组成部分 对数据库的一切操作 包括定义 查询 更新以及各种控制 都是通过DBMS进行 如甲骨文数据库系统 DBS 实现有组织地 动态地存储大量关联数据 方便多用户访问 由计算机软件 硬件和数据资源组成的系统 数据库技术 研究数据库的结构 存取 管理和使用的软件学科 软件 硬件 数据本身 3 什么是 大数据 大数据 概念的诞生 2008年9月4日 自然 Nature 刊登了一个名为 BigData 的专辑2009年7月O ReillyMedia出版社出版了一本名为 BeautifulData 的书2009年10月微软为纪念JimGray 出版了 第四范式 数据密集的科学发现 TheFourthParadigm DataIntensiveScientificDiscovery 大数据 概念的诞生 2011年2月11日 Science刊登了一个名为DealingwithData的专辑 联合Science Signaling Science TranslationalMedicine和ScienceCareers推出相关专题 讨论数据对科学研究的重要性同一天 在美国很受欢迎的智力竞答 危险边缘 Jeopardy 电视节目中 IBM的 沃森 系统以绝对优势战胜两名人类顶级选手 和14年前的 深蓝 战胜加里 卡斯帕罗夫 相比 沃森 除具有超群的计算能力外 更拥有超大规模的数据以及数据处理能力 大数据 概念的诞生 2012年3月29日 美国总统科技政策办公室OSTP OfficeofScienceandTechnologyPolicy 宣布了每年投资两亿美元的 大数据研究计划 BigDataR DInitiative 同一天 我国科技部发布的 十二五 国家科技计划信息技术领域2013年度备选项目征集指南 把大数据研究列在首位 大数据 概念的诞生 大数据 主要讨论的是与科学发现有关的数据 大数据 很好地概括了当前数据管理领域问题的重要性和多样性数据问题在研究和应用上空前的深度和广度 大数据 成为一个时髦的术语 Buzzword 成为工业界与学术界共同关注的热点 大数据 是个合适的umbrella 较广的覆盖面应用驱动 将IT的重点转移到数据方面 超越传统数据库的理念 与大数据相关的几个热点问题 非结构化数据 数据特点云计算与大数据 处理平台Hadoop与大数据 主流的处理工具 1 非结构化数据 结构化数据 非结构化数据什么是结构化的数据 结构化数据 任何一列的数据不可以再细分任何一列的数据都有相同的数据类型 结构化数据很多 人力资源管理库存管理门诊挂号工资管理物流管理户籍管理各种票务管理 印象 目前的数据管理技术和手段已经很完善了 现实 数据库管理技术确实在一些领域得到了完美的应用 数据库的三大成就 关系模型 E F Codd 数据库领域第二个图灵奖获得者 事务处理 JimGray 数据库领域第三个图灵奖获得者 查询优化 结构化 模式和实例分离 关系数据库理论 关系代数 物理存储 索引 统计 成功造就了数百亿美元的数据库产业 孔子登东山而小鲁 登泰山而小天下 非结构化数据更多 非结构化数据的实例 文本 图片 网页 图像 音频 视频等等 这里的 多 包括数据量 巨大 和种类 繁杂 结构化数据 非结构化数据 数据量 巨大 种类 繁杂 多媒体文件的基本要素 文字 声音 图像 多媒体效果的组成过程 音频文件 视频文件 文字文件 字幕 按照一定时间节点的合成 更为科学的统计规律 世界上的数据80 是非结构化数据二 八定律 两个世界 twouniversals 数据库世界 非数据库世界 29 大数据的评估指标 1 1 数据规模可观 入门标准 大数据最基本的要求当然是数据规模大 但很难给出一个绝对的数字标准来确定大小 而只能用一些模糊的感觉来相对比较 例如 一个公司在年度预算中有了专门的 显著的数据存储和分析预算 例如 总预算的3 5 有了独立的数据处理和分析部门 有了比较完整的数据存储 安全和保密政策与管理流程 有了高度依赖数据分析结果的商业模式 那么 可以说这个公司面临着利用大数据的机会或挑战了 1 谢文 看得见的未来 十谈大数据时代 http www china 30 2 数据结构复杂数据量只是反映数据性质的一个指标 还不是最重要的指标 一天产生一百万个T数据的公司也许算不上大数据公司 而另一个一天只产生一万个T数据的公司也许反而是个大数据公司 其原因在于数据结构的复杂性 例如 A公司拥有一亿用户 但用户在A公司网站上只干一件事或一类事 由此产生的数据量虽然不小 但结构简单 重复性高 分析起来很容易 归归类 简单数据挖掘基本功足够 B公司只有一千万用户 却是个开放平台 用户在此可以干互联网能够支持的所有事情 网络行为又可分为个人 群体 组织等层次 那么这个数据的结构就够复杂 能够支持深度挖掘和复杂建模 因而就可以算作大数据 31 3 数据关联度高网络业一个常见现象就是随着数据量的增加 用户行为所产生的数据间的关系越来越不清晰 越来越难以捉摸 越来越相互孤立 也就是所谓的数据碎片化 这种碎片化主要来自两个方面 一是网站结构碎片化 逻辑混乱化 各种产品与服务之间相互孤立化 因而导致数据之间关系断裂 关联度很低 例如 明明是同一个用户在一个网站上使用了十种不同的产品和服务 但由于其中五种无需注册使用 其他五种又需要分别注册使用 结果这十种网络行为的数据无法整合在一起 或者需要通过种种技术手段和工具进行高成本的数据整合 以至于入不敷出 这也就减少了数据的含金量 降低了数据的可挖掘度 使得无论数据量如何大 结构如何复杂 也形成不了大数据 反之 如果一个WEB2 0时代的开放平台 架构清晰 逻辑分明 用户与用户 用户与用户行为 行为与行为之间都具有确定的关联性 那么这样的数据就具有极高的含金量 极高的分析挖掘价值 也就可以形成大数据 结论 大数据 技术不能简单的认为是大的 数据 和大的 数据库技术 严格意义上讲 技术本质上大数据技术和数据库技术是两个完全不同的技术体系 为什么呢 33 4 大数据处理的工具与手段 34 第一阶段 简单数字资源的产生和丰富数字资源的产生和积累过程 数据库技术应运而生 可以理解成对应资本主义自由贸易的初级阶段第二阶段 规范化数字资源的大规模集成应用大规模结构化数字资源的管理与信息分析与提取 可以理解成跨国公司的形成过程第三阶段 网络环境下异构数字资源的增值应用网络环境下结构化和非结构化数字资源共存的情况下 如何实现增值应用 可以理解成资本运作的高级阶段 大数据产生的历史背景 35 生命的本质在于物质的组织形式 而不在于物质的自身 人工生命之父克里斯 兰顿 ChrisLangton 物品的生产与流通到资本的产生与流通 映射到数字资源的生产和管理到数字资源的增值与再生 数据之间的泛在互联 需要什么样的工具与手段 因为数据规模大 需要大容量的存储因为数据结构复杂 需要高性能的计算能力因为异构的数据之间关联度强 需要跨平台的协同处理能力 方法论和工具 方法论 MapReduce工具 Hadoop Hadoop史前 2003 GFS Google文件系统 论文发表 SanjayGhemawat HowardGobioff Shun TakLeung TheGooglefilesystem SOSP2003 29 43 2004 MapReduce论文发表 JeffreyDean SanjayGhemawat MapReduce SimplifiedDataProcessingonLargeClusters OSDI2004 137 150 2006 BigTable论文发表 FayChang JeffreyDean SanjayGhemawat etal Bigtable ADistributedStorageSystemforStructuredData OSDI2006 205 218 Hadoop诞生 2004年 DougCutting和MichaelJ Cafarella根据GoogleLab论文实施 取名Hadoop Cloudera公司 Hadoop商用版 Apache开源版 2005秋天 Hadoop由Apache作为Lucene的子项目Nutch的一部分正式引入 2006年3月 Map Reduce和NutchDistributedFileSystem NDFS 分别被纳入Hadoop的项目中 2006 1 2008 Web scaleHadoop Yahoo Hadoop诞生的背景 用户对大数据存储 管理和分析需求迫切传统数据库对非结构化数据几乎无能为力利用传统数据库来对大数据进行处理时 会面临很多难以解决的问题 软 硬件平台的要求高 成本压力成本和收益不匹配的 充分发掘和利用非结构化数据背后的商业价值 用户希望能以更经济的方式 更好的性能来处理数据 从而推动业务创新 Hadoop不能做什么 Hadoop在处理网页数据等方面取得巨大成功 经过几年的发展 从一门边缘技术成长为一种事实上的标准Hadoop自身的弱点 Hadoop是一个离线的 批量的数据处理系统 实时在线 OLTP 高效分析 仍是数据库的擅长HDFS存储的是大文件 数据移动频繁 查询响应时间难以保证 有尝试将Hadoop和数据库结合起来应对企业大数据的挑战 5 大数据技术在现
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 2026届广东省揭阳市九年级物理第一学期期末质量检测模拟试题含解析
- 2026届河南郑州市郑中学国际学校物理九上期末调研试题含解析
- 海南省海南师范大附属中学2026届九上物理期中学业水平测试模拟试题含解析
- 2026届安徽省长丰县联考八年级物理第一学期期末达标检测模拟试题含解析
- 湖北省襄阳市枣阳实验中学2026届物理八上期末联考模拟试题含解析
- 2026届福建省龙岩市金丰片区物理八年级第一学期期末质量跟踪监视试题含解析
- 2026届江苏省南京师范大附中江宁分校九上物理期中质量检测试题含解析
- 河北省秦皇岛市卢龙县2026届物理九年级第一学期期末达标测试试题含解析
- 2026届辽宁省抚顺市物理九上期末质量跟踪监视试题含解析
- 2026届四川省成都市温江县物理八上期末质量跟踪监视模拟试题含解析
- 25春国家开放大学《药剂学(本)》形考任务1-3参考答案
- 《男性不育症诊断与治疗》课件
- 2025年中考英语高频词汇分类记忆《背诵版+默写版》
- 物业服务用房移交协议
- 《浓浓重阳情 深深敬老意》课件-小学生重阳节主题教育班会版
- 中德住房储蓄合同范本
- 心理咨询法律培训课件
- 宋代诗人林升简介
- 皮炎和湿疹(皮肤性病学课件)
- 企业股东出资协议书
- 第8课 中国古代的法治与教化 教学课件-高二上学期历史统编版(2019)选择性必修1国家制度与社会治理
评论
0/150
提交评论