




已阅读5页,还剩59页未读, 继续免费阅读
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
大数据关键技术 肖波中央民族大学2014 10 1 报告内容 一 大数据时代的诞生二 大数据关键技术三 大数据与高等教育四 我们开展的相关研究 2 一 大数据时代的诞生 大数据与云计算大数据是云计算的核心内容大数据改变世界 3 云计算由何而来 HPC High PerformanceComputingHTC High ThroughputComputingP2P PeertoPeerMPP MassivelyParallelProcessors 4 最早是由天文学和基因学创造出了 大数据 这一概念 自然 2008年 大数据专刊 大数据名称的起源 一张哈勃望远镜捕捉下来的高清相片 高达数十个G字节 5 大数据的定义 大数据是指那些大小已经超出了传统意义上的尺度 一般的软件工具难以捕捉 存储 管理和分析的数据 6 大数据的定义 大数据技术将被设计用于在成本可承受 economically 的条件下 通过非常快速 velocity 的采集 发现和分析 从大体量 volumes 多类别 variety 的数据中提取价值 value 是IT领域新一代的技术与架构 7 大数据的4V Volumes GB TB PB EB ZB Variety all structure semi structure non struture Velocity speed frequency Value information 8 二 大数据关键技术 大数据采集与预处理大数据存储及管理大数据计算模式与系统大数据分析与挖掘大数据可视化计算大数据隐私与安全大数据应用技术 9 大数据采集与预处理 大数据采集所说的数据是指通过RFID射频数据 传感器数据 社交网络交互数据及移动互联网数据等方式获得的各种类型的结构化 半结构化 或称之为弱结构化 及非结构化的海量数据 是大数据知识服务模型的根本 10 BigData 11 数据的结构 结构化 非结构化 半结构化数据 12 结构化数据和非结构化数据都是客观存在 大数据技术需要涵盖两者 12 大数据采集的四种来源 管理信息系统 结构化数据 Web信息系统 非结构化 半结构化 物理信息系统 传感器 多媒体数据 科学实验系统 仿真数据 13 大数据预处理技术 主要完成对已接收数据的辨析 抽取 清洗等操作 1 抽取 因获取的数据可能具有多种结构和类型 数据抽取过程可以帮助我们将这些复杂的数据转化为单一的或者便于处理的构型 以达到快速分析处理的目的 2 清洗 对于大数据 并不全是有价值的 有些数据并不是我们所关心的内容 而另一些数据则是完全错误的干扰项 因此要对数据通过过滤 去噪 从而提取出有效数据 14 预处理取得进展的技术 异构数据集成技术WEB中实体识别技术DeepWeb技术 Web中不能被传统的搜索引擎索引到的那部分内容 传感器网络融合技术 数据清洗和质量控制工具 DataFlux DataStage InformaticalPoweCenter 15 数据质量 缺乏系统研究 精确性 数据符合规定的精度 一致性 数据之间不能存在相互矛盾 完整性 数据的值不能为空 同一性 数据的标识是唯一的 时效性 数据的值反映了实际的状态 真实性 数据不能是虚假的 16 预处理技术发展趋势 数据源的选择和高质量原始数据的采集方法 建立数据源质量评估模型 多源数据的实体识别和解析方法数据清洗和自动修复方法 清除错误 修复信息 高质量数据整合方法 智能模式抽取和匹配 数据演化的溯源管理 追踪数据演化过程 17 2 大数据存储与管理技术 主要解决大数据的可存储 可表示 可处理 可靠性及有效传输等几个关键问题 开发可靠的分布式文件系统 DFS 能效优化的存储 计算融入存储 大数据的去冗余及高效低成本的大数据存储技术 突破分布式非关系型大数据管理与处理技术 异构数据的数据融合技术 数据组织技术 研究大数据建模技术 突破大数据索引技术 突破大数据移动 备份 复制等技术 开发大数据可视化技术 18 大数据给存储系统的挑战 存储规模大 PB EB 存储管理复杂 多结构 数据服务的种类和要求高 性能 可靠性 19 大数据主要存储技术 分布式文件系统分布式数据库访问接口和查询语言 MapReduce编程接口 PigLatin等 20 大数据下的存储概念 数据结构 结构化数据与非结构化数据数据库数据模型 关系型数据库与非关系型数据库数据处理特性 OLTP与OLAP数据一致性 强一致性与最终一致性数据存储方式 行式存储与列式存储数据库存储与处理架构 SMP与MPP数据存储架构 传统分布式文件与新型分布式文件 21 21 分布式MPP数据仓库代表产品特性比较 22 22 3 大数据计算模式与系统 大数据计算模式根据大数据的各种不同数据特征 从多样性的大数据计算问题和需求中提炼并建立的各种高层抽象或模型 MapReduce RDD GPA等 23 大数据处理的特征 数据结构 all semi non 数据获取处理方式 batch stream 数据处理类型 analysis mining 实时性或相应性能 real non real 迭代计算 iterative 数据关联性 simple graph 并行计算体系结构 cluster memory 24 25 MapReduce的步骤 数据分区计算分区决定主从服务器读取输入数据Map函数排序与分组 根据键值 Combiner函数 合并本地数据 Partitioning函数 相同键值划分到一个区 同步与通信 所有服务器同时完成 排序与分组Reduce函数 26 LogicalDataFlowin5ProcessingStepsinMapReduceProcess Key Value PairsaregeneratedbytheMapfunctionovermultipleavailableMapWorkers VMinstances Thesepairsarethensortedandgroupbasedonkeyordering Differentkey groupsarethenprocessedbymultipleReduceWorkersinparallel 27 AWordCountingExampleonDistribution 28 LinkingtheMapWorkersandReduceWorkersbyKeyMatchinginPartitioningFunctions 29 Fig 6 5DataflowImplementationofMapReduce 30 31 分布式文件系统 海量数据存储 大规模计算 智能分析算法 大数据技术架构 典型开源实现 32 计算模式发展趋势 Hadoop平台改进后将与其他计算模式和平台共存 Hadoop2 0 混合计算模式将成为满足多样性大数据处理和应用需求的有效手段 Spark 迭代 批处理 内存计算 流式计算 shark 图计算 内存计算将成为高实时性大数据处理的重要技术手段和发展方向 Hana Spark 33 4 大数据分析与挖掘技术 大数据挖掘面临的挑战数据量膨胀 TB 数据深度分析需求的增长 路径分析 时间序列分析 图分析 What if分析等 自动化 可视化分析需求的出现 自动查询 自动分析等 34 数据挖掘技术 机器学习 可细分为 归纳学习方法 决策树 规则归纳等 基于范例学习 遗传算法等 统计方法 可细分为 回归分析 多元回归 自回归等 判别分析 贝叶斯判别 费歇尔判别 非参数判别等 聚类分析 系统聚类 动态聚类等 探索性分析 主元分析法 相关分析法等 等 神经网络方法 可细分为 前向神经网络 BP算法等 自组织神经网络 自组织特征映射 竞争学习等 等 数据库方法主要是多维数据分析或OLAP方法 另外还有面向属性的归纳方法 35 大数据分析与挖掘课题 改进已有数据挖掘和机器学习技术 并行 分布 开发数据网络挖掘 特异群组挖掘 图挖掘等新型数据挖掘技术 突破基于对象的数据连接 相似性连接等大数据融合技术 突破用户兴趣分析 网络行为分析 情感语义分析等面向领域的大数据挖掘技术 36 大数据挖掘当前进展 R和Hadoop的深度集成Weka和MapReduce的集成基于Hadoop的数据挖掘开源程序库 ApacheMahout项目 大数据挖掘算法的提出 大数据关联 聚类 分类 神经网络算法 大规模图数据分析方法 基于内存算法 基于集群算法 37 大数据挖掘未来发展 更加复杂 更大规模的分析和挖掘 时间序列分析 大规模图分析 大规模社会计算等 大数据的实时分析和挖掘 几十TB的实时挖掘问题还没有解决 大数据分析和挖掘的基准测试 了解各种大数据分析和挖掘系统的优缺点 38 大数据挖掘需突破的技术 可视化分析数据挖掘算法预测性分析语义引擎数据质量和数据管理 39 可视化分析 数据可视化无论对于普通用户或是数据分析专家 都是最基本的功能 数据图像化可以让数据自己说话 让用户直观的感受到结果 40 数据挖掘算法 数据挖掘算法 统计 分类 聚类 孤立点分析还有各种各样五花八门的算法让我们精炼数据 挖掘价值 改进算法使得这些算法一定要能够应付大数据的量 同时还具有很高的处理速度 41 预测性分析 预测性分析可以让分析师根据图像化分析和数据挖掘的结果做出一些前瞻性判断 42 语义引擎 语义引擎需要设计到有足够的人工智能以足以从数据中主动地提取信息 语言处理技术包括机器翻译 情感分析 舆情分析 智能输入 问答系统等 43 数据质量和数据管理 数据质量与管理是管理的最佳实践 透过标准化流程和机器对数据进行处理可以确保获得一个预设质量的分析结果 44 5 大数据可视化分析 在大数据时代 除了直接的统计或者数据挖掘的方式 可视化通过交互式视觉表现的方式来帮助人们探索和解释复杂的数据 45 可视化流程 数据可视化图像感知和认识知识 设置探索 数据可视化用户 46 四种基本技术 数据流线化 大数据分为相互独立的子块依次处理SPSD 任务并行化 一个算法分成多个独立的任务模块平行处理MPSD 管道并行化 同时处理面向不同数据的任务的多个独立任务模块MPMD 数据并行化 数据分块后进行平行处理SPMD 47 可视化发展趋势 原位分析 内存进行分析 而不再硬盘 可视化中的人机交互 提供界面 专家参与 协同与众包可视分析 多用户协调工作 可扩展性与多级层次问题 在不同层面不同解析度下浏览分析 不确定分析和敏感性分析 了解数据不确定来源和风险 可视化与自动数据计算挖掘的结合 直观与计算结合 面向领域和大众的可视化工具库 领域需求不同 48 6 大数据隐私与安全 大数据时代的安全问题更加复杂 集中 使用过程中存在安全问题 黑客 对大数据需求高的团体面临更多安全挑战基于位置的隐私暴露严重缺乏相应的法律法规保证大数据的共享问题 有效性和加密性 真实数据的动态性变化多元数据的融合挑战 来自工作 生活 49 安全技术当前进展 文件访问控制技术基础设备加密匿名化保护技术加密保护技术基于数据失真的技术基于可逆的置换算法 50 安全技术发展趋势 NoSQL有待进一步完善开展对APT攻击的研究对多元数据融合提出新的安全隐私保护技术保护分布式系统所有站点的安全社教网络加强安全隐私保护数据采集 存储 分析安全三权分立 51 APT AdvancedPersistentThreat 高级持续性威胁 利用先进的攻击手段对特定目标进行长期持续性网络攻击的攻击形式 APT攻击的原理相对于其他攻击形式更为高级和先进 其高级性主要体现在APT在发动攻击之前需要对攻击对象的业务流程和目标系统进行精确的收集 在此收集的过程中 此攻击会主动挖掘被攻击对象受信系统和应用程序的漏洞 利用这些漏洞组建攻击者所需的网络 并利用0day漏洞进行攻击 52 7 大数据应用技术 大数据将重点应用于以下三大领域 商业智能 政府决策 公共服务 例如 商业智能技术 政府决策技术 电信数据信息处理与挖掘技术 电网数据信息处理与挖掘技术 气象信息分析技术 环境监测技术 警务云应用系统 道路监控 视频监控 网络监控 智能交通 反电信诈骗 指挥调度等公安信息系统 大规模基因序列分析比对技术 Web信息挖掘技术 多媒体数据并行化处理技术 影视制作渲染技术 其他各种行业的云计算和海量数据处理应用技术等 53 大数据与互联网 电子商务 消费 团购 支付 网络广告 效果 相应 网络新闻 搜索 爱好 习惯 旅行预订 游客 景点 饭店 及时通信 关注 热点 民意 网络视频 爱好 习性 54 大数据与网络通信 联通 Hadoop技术查询与分析支撑系统 移动 BC Hadoop大数据平台 BC PDM ETL并行数据挖掘 BI PAAS大数据应用平台 电信 智慧城市 物联网加大数据 55 大数据与网络安全 实体 行为模型 聚类分析 信息萃取技术 语音识别 视频分析 嗅探 VPN网络 人机结合分析组建国家网络安全力量研发防御网络武器制定数据采集政策 56 大数据与医疗医药 居民健康档案数据管理电子病历的发掘与利用基因组学数据应用健康应用医疗数据分析精神卫生应用 57 大数据与智慧城市 交通监控信息GPSGIS交通卡高速公路收费水电气社教网络 58 大数据的技术挑战 大数据的去冗降噪技术大数据的新型表示方法高效率低成本的大数据存储大数据的有效融合非结构化和半结构化数据的高效处理适合不同行业的大数据挖掘分析工具和开发环境大幅度降低数据处理 存储和通信能耗新技术 59 大数据技术发展趋势 数据资源化解决大数据隐私问题大数据与云计算深度融合产生基
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 第7课 制作有链接的网页说课稿-2025-2026学年小学信息技术(信息科技)第七册黔教版
- 2025物流仓储服务合同专业版
- 2025年公路货物运输合同深度解析
- 2025域名购买合同范本
- 2025【合同范本】工程建设项目安全合作协议样本
- 2025企业员工劳动合同协议
- Unit 2 What can you hear说课稿-2023-2024学年小学英语四年级下册牛津(绿色上教版)
- 2.1.1 食物 说课稿-2023-2024学年冀少版生物七年级下册
- 淮安事业单位笔试真题2025
- 2025LED显示屏购销合同
- 安保人员管理制度
- 灌区续建配套与节水改造工程施工组织设计
- 中职高一数学开学第一课(非凡数学之旅-中职生也能破茧成蝶)-【开学第一课】2024年中职秋季开学指南之爱上数学课
- GMS基础知识(第一版)1
- DL∕T 2528-2022 电力储能基本术语
- 挂靠协议书范本
- 03-03-ZQZ-CY型便携式自动气象站用户手册
- 2024年云南省中考数学试题(含答案)
- 谐波齿轮减速器选型资料-图文
- 藏文基础教你轻轻松松学藏语-知到答案、智慧树答案
- 大冶市大垴山金矿千家湾矿区铜矿矿产资源开发利用与生态复绿方案
评论
0/150
提交评论