




版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
1、大数据安全专题研究第1页主要内容一、什么是大数据二、大数据相关技术三、大数据应用四、大数据安全问题及保护技术五、机遇与挑战第2页一、什么是大数据1、大数据定义2、大数据特点3、大数据结构类型4、大数据实例5、大数据发展史第3页有多大?-数据度量第4页 1 B = 一个字符或一粒沙子1 KB = 一个句子或几撮沙子1 MB = 一个20 页幻灯片演示文稿、一本小书或一大汤勺沙子1 GB = 书架上9 米长书或者整整一鞋盒子沙子1 TB = 300 小时优质视频、美国国会图书馆存放容量十分之一或者一个操场沙箱1 PB = 35 万张数字照片或者一片1.6 公里长海滩1 EB = 1999 年全世界
2、生成信息二分之一或上海到香港之间海滩1 ZB = 无法想象,或者几乎全世界全部海滩之和。第5页大数据(big data),也称巨量资料,指是所包括资料量规模巨大到无法透过当前主流软件工具在合理时间内到达撷取、管理、处理、并整理成为帮助企业经营决议更主动目标资讯。1、大数据定义第6页 最早将大数据用于IT环境是著名咨询企业麦肯锡。麦肯锡称:“数据,已经渗透到当今每一个行业和业务职能领域,成为主要生产原因。人们对于海量数据挖掘和利用,预示着新一波生产率增加和消费者盈余浪潮到来。” “大数据”在物理学、生物学、环境生态学等领域以及军事、金融、通讯等行业存在已经有时日,却因为近年来互联网和信息行业发展
3、而引发人们关注。第7页2、大数据特点(4v) Volume(大量)、Velocity(高速)、Variety(多样)、Value(价值)。第8页3、大数据结构类型第9页4、大数据实例一分钟我们能干些什么呢?!一分钟能产生多少数据呢?! 电子邮件用户发送204,166,677(2亿) 条信息; Google 收到超出2,000,000(200万) 个搜索查询; Facebook 用户分享684,478(68万) 条内容; Twitter 用户发送超出100,000 (10万)条微博; 苹果企业收到大约47,000 (5万)个应用下载; 571 个新网站诞生。第10页5、大数据发展史IT科技浪潮第
4、11页我们周围处处都是数字信息。(无线电波、电话电路、计算机电缆)三种主要模拟/数字转换为数据增加提供了动力:用胶片拍摄影像转换为数字拍摄影像、模拟语音转换成为了数字语音、模拟电视转换成为数字电视。是人类创造信息量有史以来第一次在理论上超出可用存放空间总量一年。数字信息增加是因为网络应用不停增加。约30年前,大部分数据都是结构化,如今,多媒体技术普及后,非结构化数据爆炸式增加。第12页可视化是引发数字世界急剧膨胀原因之一。由 于数码相机、数码监控摄像机和数字电视内容 加速增多,及信息大量复制趋势,使得数字世界容量和速度超出之前。个人日常生活“数字足迹”也大大刺激了数字宇宙快速增加。经过互联网、
5、电子邮件、移动电话、数码相机和在线信用卡交易等方式,每个人日常生活都在数字化。大数据快速增加部分原因归于智能设备普及,比如传感器和医疗设备,以及智能建筑。非结构化信息增加部分归功于宽带数据增加。第13页全球数字信息五年间增加了10倍第14页大数据与云计算第15页二、大数据相关技术大数据技术框架1234第16页分布式文件系统 特点: 支持PB级大数据集; 提供高可靠、高吞吐率次序数据访问; 存放与计算共享节点(存放节点会同时参加应用程序执行); 使用廉价硬件(高可扩展性)。 经典代表: GFS(Google)、HDFS(Hadoop)0第17页HDFS-分布式文件系统 采取经典主从结构架构设计,
6、实现文件系统元数据和应用数据分离存放。 名字节点:整个集群主节点,管理元数据,文件访问控制。 数据节点:从节点,负责来自客户端读写请求,完成对文件内容提取和保留。 文件分块,采取一次写屡次读文件访问模式。第18页HDFS-分布式文件系统第19页MapReduce MapReduce 计算模型能够说是大数据处理核心算法。 MapReduce实现了Map和Reduce两个功效。Map把一个函数应用于集合中全部组员,然后返回一个基于这个处理结果集。Reduce对结果集进行分类和归纳。 Map()和 Reduce() 两个函数可能会并行运行,即使不是在同一系统同一时刻。第20页单词计数 给一个巨大文本
7、,计算单词个数?!第21页单词计数 使用MapReduce求解该问题 定义Map和Reduce函数第22页单词计数 使用MapReduce求解该问题 Step 1: 自动对文本进行分割,形成初始对。第23页单词计数 使用MapReduce求解该问题 Step 2:在分割之后每一对进行用户定义Map进行处理,再生成新对。第24页单词计数 使用MapReduce求解该问题 Step 3:对输出结果集归拢、排序(系统自动完成)。第25页单词计数 使用MapReduce求解该问题 Step 4:经过Reduce操作生成最终结果。第26页0第27页NOSQL特点: 不需要预定义模式(不需要预定义数据模式
8、,预定义表结构,数据每条统计都可能有不一样属性和格式); 无共享(将数据划分后存放在各个当地服务器上); 弹性可扩展(运行时可动态添加删除节点); 分区;异步复制。 第28页NOSQL产品分类数据库名称作者列存数据库HbaseHadoopAzure TablesMicrosoftCassandraApacheHypertable开源SimpleDBAmazon文档数据库MongoDB开源CounchDB开源键值存放Redis开源LevelDB开源Berkeley DB开源图数据库Neo4jNeo TechnologiesInfoGridNetMesh Inc0第29页三、大数据应用大数据驱动新
9、应用,应用于各行各业第30页应用实例 1、奥巴马大数据 奥巴马和他大数据团体拥有海量数据和对应处理能力,使他在大选中以332票对206票击败了共和党米特.罗姆尼。 2、Google经过其大数据产品对用户习惯和兴趣进行分析,帮助广告商评定广告活动效率,预估在未来可能存在高达数千亿市场规模。 3、Yahoo和Thinkmail等利用大数据分析技术来过滤垃圾邮件。第31页 4、经过Google检索信息挖掘能够得到流感传输情况; 5、经过Twitter信息能够预测股票行情; 6、预测犯罪; 7、智能交通。 第32页四、大数据安全问题及保护技术1、大数据中用户隐私保护 大量事实表明,大数据未能妥善处理会
10、对用户隐私造成极大地侵害。人们面临威胁并不但限于个人隐私泄露,还在于基于大数据对人们状态行为预测。2、大数据可信性 伪造或刻意制造数据,错误数据往造成错误结论;数据在传输过程中逐步失真。 密码学中数字署名、消息判别码等技术能够用第33页 于验证数据完整性,不过应用于大数据真实 性时面临很大困难,源于数据粒度差异。 3、怎样实现大数据访问控制 大数据访问控制难点在于:难以预设角色,实 现角色划分;难以预知每个角色实际权限。 4、保护技术 数据公布匿名保护技术、社交网络匿名保护技术、数字水印技术、数据溯源技术、角色挖掘、风险自适应访问控制。第34页 五、机遇与挑战 大数据对当今企业来说,既是绝佳商
11、机,也是巨大挑战。 机遇: 数据规模越大,处理难度也越大,但对其进行挖掘可能得到价值更大。首先,大数据反应舆情和民意。其次,企业和政府信息系统每天源源不停产生大量数据。 挑战: 当前,大数据技术利用仍存在一些困难与挑战表达在四个步骤中。第35页(1)数据搜集 要对来自搜集数据去伪存真,尽可能搜集异源异构数据,必要时还与历史数据对照,多角度验证数据全方面性和可信性。(2)数据存放。要到达低成本、低能耗、高可靠性目标,通常要用到冗余配置、分布化和云计算技术,在存放时要按照一定规则对数据进行分类,通过过滤和去重,降低存放量,同时加入便于日后检索标签。(3)数据处理。有些行业数据包括上百个参数,其复杂
12、性不但表达在数据样本本身,更表达在多源第36页异构、多实体和多空间之间交互动态性,难以用传统方法描述与度量,处理复杂度很大,需要将高维图像等多媒体数据降维后度量与处理,利用上下文关联进行语义分析,从大量动态而且可能是模棱两可数据中综合信息,并导出可了解内容。(4)可视化展现。使结果更直观方便于洞察。目前,尽管计算机智能化有了很大进步,但还只能针对小规模、有结构或类结构数据进行分析,谈不上深层次数据挖掘,现有数据挖掘算法在不一样行业中难以通用。 第37页Thanks!第38页1、不是井里没有水,而是你挖不够深。不是成功来得慢,而是你努力不够多。2、孤独一人时间使自己变得优异,给来人一个惊喜,也给
13、自己一个好交代。3、命运给你一个比他人低起点是想告诉你,让你用你一生去奋斗出一个绝地还击故事,所以有什么理由不努力!4、心中没有过分贪求,自然苦就少。口里不说多出话,自然祸就少。腹内食物能降低,自然病就少。思绪中没有过分欲,自然忧就少。大悲是无泪,一样大悟无言。缘来尽可能要惜,缘尽就放。人生原来就空,对人家笑笑,对自己笑笑,笑着看天下,看日出日落,花谢花开,岂不自在,哪里来尘埃!5、心情就像衣服,脏了就拿去洗洗,晒晒,阳光自然就会蔓延开来。阳光那么好,何须自寻烦恼,过好每一个当下,一万个漂亮未来抵不过一个温暖现在。6、不论你正遭遇着什么,你都要从落魄中站起来重振旗鼓,要继续保持热忱,要继续保持
14、微笑,就像从未受伤过一样。7、生命漂亮,永远展现在她进取之中;就像大树漂亮,是展现在它负势向上高耸入云蓬勃生机中;像雄鹰漂亮,是展现在它搏风击雨如苍天之魂翱翔中;像江河漂亮,是展现在它波涛汹涌一泻千里奔流中。8、有些事,不可防止地发生,阴晴圆缺皆有规律,我们只能坦然地接收;有些事,只要你愿意努力,矢志不渝地付出,就能慢慢改变它轨迹。9、与其埋怨世界,不如改变自己。管好自己心,做好自己事,比什么都强。人生无完美,波折亦风景。别把失去看得过重,放弃是另一个拥有;不要经常艳羡他人,人做到了,心悟到了,相信属于你风景就在下一个拐弯处。10、有些事想开了,你就会明白,在世上,你就是你,你痛痛你自己,你累
15、累你自己,就算有些人同情你,那又怎样,最终收拾残局还是要靠你自己。11、人生一些障碍,你是逃不掉。与其费尽周折绕过去,不如勇敢地攀登,或许这会铸就你人生高点。12、有些压力总是得自己扛过去,说出来就成了充满负能量埋怨。寻求抚慰也无济于事,还徒增了他人烦恼。13、认识到我们所见所闻都是假象,认识到此生都是虚幻,我们才能真正认识到佛法真相。钱多了会压死你,你承受得了吗?带,带不走,放,放不下。时时刻刻发悲心,饶益众生为他人。14、梦想总是跑在我前面。努力追寻它们,为了那一瞬间同时,这就是感人生命奇迹。15、懒惰不会让你一下子跌倒,但会在不知不觉中降低你收获;勤奋也不会让你一夜成功,但会在不知不觉中积累你结果。人生需要挑战,更需要坚持和勤奋!16、人生在
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 2025年环保设备市场前景预测:产品创新与绿色产业发展报告
- 中心医院CT、DSA维保服务采购招标文件
- 西藏自治区2025年初中学业水平考试语文试题(含答案)
- 知识产权档案管理制度
- 广西南宁市横州市2024-2025学年八年级下学期期中检测数学试题(含答案)
- 巡查工作流程课件
- 岩石爆破基本原理课件
- 输电巡线安全培训总结课件
- 小麦的秘密课件
- 小鸭子走路课件
- 电工套管试验原始记录
- 水运工程施工质量检验表格
- GB/T 12612-2005多功能钢铁表面处理液通用技术条件
- 三级安全教育档案模板(完整版)
- 2023年公务员职业道德培训考试题库
- 第三单元名著导读《朝花夕拾》之《二十四孝图》详解 课件(共17张ppt) 部编版语文七年级上册
- 八纲辨证-课件
- 房产归属协议书范本
- 服务类合同补充协议
- 学生休学申请表(新)
- 350吨履带吊地基承载力验算
评论
0/150
提交评论