版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
1、信息资源管理-扩展知识大数据及其典型应用1.2022/9/32引子棱镜门波士顿马拉松爆炸案PredPol少数派报告2013 大数据元年video.一、大数据的相关概念二、国内外大数据分析的研究现状三、构建大数据分析平台四、公共安全领域大数据应用案例目录2022/9/33.一、大数据的相关概念2022/9/34.数据管理技术发展历史数据管理技术历经人工管理、文件管理、数据库管理等时代,大数据技术的出现使该领域进入了一个新的发展阶段- 5 - 194619511956196119701974197919912001200320082011第一台计算机ENIAC面世磁带+卡片人工管理磁盘被发明,进入
2、文件管理时代网络型SQLE-RGE公司发明第一个网络模型数据库,但仅限于GE自己的主机1960年代,IT系统规模和复杂度变大,数据与应用分离的需求开始产生,数据库技术开始萌芽并蓬勃发展,并在1990年后逐步统一到以关系型数据库为主导IBM E.F.Dodd提出关系模型SQL语言被发明关系型数据库ORACLE发布第一个商用SQL关系数据库,后续快速发展数据仓库数据仓库开始涌现,关系数据库开始全面普及且平台无关,进入成熟期2001年后,互联网迅速发展,数据量成倍递增,量变引起质变,开始对数据管理技术提出全新的要求1946年,电脑诞生,数据与应用紧密捆绑在文件中,彼此不分Hadoop成为Apache
3、顶级项目,重点支持海量数据分布式管理和分布式计算GFS谷歌发表论文介绍分布式计算.大数据发展背景全球信息化发展已步入大数据时代150亿个设备连接到互联网全球每秒钟发送 290万封电子邮件每天有 2.88 万小时视频上传到YoutubeFacebook 每日评论达32亿条,每天上传照片近3亿张,每月处理数据总量约130万TB2011年全球产生数据量1.8ZB,预计2020年将增长到35ZB大数据正迅速成为最值得关注的IT领域之一2011年5月,EMC World 2011大会主题“云计算相遇大数据”,EMC 除了一直倡导的云计算外,还抛出大数据(BigData)概念2011年6月底,IBM、麦肯
4、锡等众多国外机构发布大数据相关研究报告,予以积极跟进2011 年10 月,Gartner 认为2012 年十大战略技术将包括大数据2011 年11 月底,IDC 将大数据放入2012 年信息通信产业十大预测之一- 6 - IDC全球数据量预测( 1ZB = 1百万PB = 10亿TB)Google网站 Big data关键词搜索及新闻引用量.什么是大数据123大数据的定义理解大数据的“4V”特征大数据的产生、增长2022/9/37.“大数据”是如何产生的?facebook社交网络淘宝电子商务微博、Apps移动互联 21世纪是数据信息大发展的时代,移动互联、社交网络、电子商务等极大拓展了互联网的
5、边界和应用范围,各种数据正在迅速膨胀并变大。 互联网(社交、搜索、电商)、移动互联网(微博)、物联网(传感器,智慧地球)、车联网、GPS、医学影像、安全监控、金融(银行、股市、保险)、电信(通话、短信)都在疯狂产生着数据。 半个世纪以来,随着计算机技术全面融入社会生活,信息爆炸已经积累到了一个开始引发变革的程度。它不仅使世界充斥着比以往更多的信息,而且其增长速度也在加快。信息爆炸的学科如天文学和基因学,创造出了“大数据”这个概念*。如今,这个概念几乎应用到了所有人类智力与发展的领域中。2022/9/38.大数据时代的爆炸增长想驾驭这庞大的数据,我们必须了解大数据的特征。地球上至今总共的数据量:
6、在2006 年,个人用户才刚刚迈进TB时代,全球一共新产生了约180EB的数据;在2011 年,这个数字达到了1.8ZB。而有市场研究机构预测:到2020 年,整个世界的数据总量将会增长44 倍,达到35.2ZB(1ZB=10 亿TB)!GBTBPBEBZB1GB = 230字节1TB = 240字节1PB = 250字节1EB = 260字节1ZB = 270字节2022/9/39.大数据的4V特征“大量化(Volume)、多样化(Variety)、快速化(Velocity)、价值密度低(Value)”就是“大数据”的显著特征,或者说,只有具备这些特点的数据,才是大数据。VolumeVelo
7、cityValueVariety2022/9/310.大数据的构成大数据 = 海量数据 + 复杂类型的数据海量交易数据:企业内部的经营交易信息主要包括联机交易数据和联机分析数据,是结构化的、通过关系数据库进行管理和访问的静态、历史数据。通过这些数据,我们能了解过去发生了什么。大数据包括:交易数据和交互数据集在内的所有数据集海量交互数据:源于Facebook、Twitter、LinkedIn及其他来源的社交媒体数据构成。它包括了呼叫详细记录CDR、设备和传感器信息、GPS和地理定位映射数据、通过管理文件传输Manage File Transfer协议传送的海量图像文件、Web文本和点击流数据、科
8、学信息、电子邮件等等。可以告诉我们未来会发生什么。海量数据处理:大数据的涌现已经催生出了设计用于数据密集型处理的架构。例如具有开放源码、在商品硬件群中运行的Apache Hadoop。2022/9/311.分析技术:数据处理:自然语言处理技术统计和分析:A/B test; top N排行榜;地域占比;文本情感分析数据挖掘:关联规则分析;分类;聚类模型预测:预测模型;机器学习;建模仿真大数据技术:数据采集:ETL工具数据存取:关系数据库;NoSQL;SQL等基础架构支持:云存储;分布式文件系统等计算结果展现:云计算;标签云;关系图等一些相关技术存储结构化数据海量数据的查询、统计、更新等操作效率低
9、非结构化数据图片、视频、word、pdf、ppt等文件存储不利于检索、查询和存储半结构化数据转换为结构化存储按照非结构化存储解决方案:Hadoop(MapReduce技术)流计算(twitter的storm和yahoo!的S4)数据采集数据储存数据管理数据分析与挖掘2022/9/312.2022/9/313大数据的市场潜力.利用GPS数据了解交通状况智能电表应用级家庭能源监测2012年3月29日奥巴马政府公布了”大数据研发计划”。该计划的目标是改进现有人们从海量和复杂的数据中获取知识的能力,从而加速美国在科学与工程领域发明的步伐,增强国家安全,转变现有的教学和学习方式。“大数据战略”上升为美国
10、最高国策对数据占有和控制,做为在陆权、海权、空权之外的另一种国家核心能力。大数据的浪潮谷歌搜索与流感预测大数据与乔布斯的癌症治疗微博&投资沃尔玛的啤酒与纸尿布塔吉特预测少女怀孕沃尔玛蛋挞与飓风用品的关系“魔毯”病人的监控智慧城市&智能化交通谷歌翻译系统14.理解大数据数据已经成为可以与物质资产和人力资本相提并论的重要的生产要素 麦肯锡大数据:下一个创新、竞争和生产力的前沿15.二、国内外大数据分析的研究现状16.流感趋势预测2022/9/317全球每年约10%15%的人群会患上流感,受感染人群约5000万人,死亡人数约50万。这可不是个小数字。如果我们能够尽早提前预测到流感即将爆发,无疑将使全
11、球公众都将受益:政府和医疗机构提前拿出应对措施,就能挽救大量生命。2008年,谷歌推出了其著名的流感趋势网站(http:/flutrends)。该网站假定的前提是:如果用户患上了流感,则他们会搜索更多同流感相关的信息。如此一来,如果对任何一个国家或地区有关流感的搜索量进行统计,就能较好推断出某个国家或地区是否正爆发流感。事实上,谷歌的这项统计数据被证实很有效。谷歌的相应数据,同美国疾病控制与预防中心(CDC)等政府机构所统计的数据非常接近(97%)。在某些情况下,谷歌甚至能够比CDC提前一周预测出哪些地区将爆发流感。.2022/9/318全球每星期会有数以百万计的用户在网上搜索健康信息。正如您
12、所预料的那样,在流感季节,与流感有关的搜索会明显增多;到了过敏季节,与过敏有关的搜索会显著上升;而到了夏季,与晒伤有关的搜索又会大幅增加。某些搜索字词非常有助于了解流感疫情。Google 流感趋势会根据汇总的 Google 搜索数据,近乎实时地对全球当前的流感疫情进行估测。搜索流感相关主题的人数与实际患有流感症状的人数之间存在着密切的关系。当然,并非每个搜索“流感”的人都真的患有流感,但将与流感有关的搜索查询汇总到一起时,便可以找到一种模式。将统计的查询数量与传统流感监测系统的数据进行了对比,结果发现许多搜索查询在流感季节确实会明显增多。通过对这些搜索查询的出现次数进行统计,便可以估测出世界上
13、不同国家和地区的流感传播情况。Detecting influenza epidemics using search engine query data, Nature 457, 1012-1014 (19 February 2009) .2022/9/319上图显示了根据历史查询所得的美国近几年的流感估测结果,以及这些结果与官方的流感监测数据的对比。从图中可以看出,根据与流感相关的 Google 搜索查询所得到的估测结果,与以往的流感疫情指示线非常接近。当然,过去的表现并不能保证以后的结果一定准确。.2022/9/320.2022/9/321.2022/9/322卡耐基梅隆大学的 Jiwei
14、Li 和康乃尔大学的 Claire Cardie,成功利用 Twitter 预测了早期流感爆发。他们的方式与 Google 类似。首先,从 Twitter 数据流中过滤包含与“流感”相关,并带有位置标签的 tweet;然后,在地图上标注这些 tweet 的位置分布,以及随时间产生的变化。同时,还制作了流感的动态变化模型。新模型中,流感包括 4 个阶段:无传染阶段、爆发阶段、稳定阶段以及衰退阶段。此外,采用了全新的算法,试图尽可能快得发现不同时期的转换节点。实际上,Li 和 Cardie 在 2008 年 6 月至 2010 年 6 月间,已经利用 100 万美国人的 360 万条 tweet
15、,验证了该方法的有效性。 为了检验他们的预测是否成真,Li 和 Cardie 将他们的分析与 CDC 进行对比。他们说,“我们确信,流感相关 tweet 与 CDC 提供的流感疾病案例数目,呈显著相关。 ”.2022/9/323.2022/9/324日本国内有一个网站,你只要打开这个网站用自己的 Twitter 账号登录,就可以在短时间内通过数万条 Twitter 找出可能感冒的人,并通过过去的感冒情况和今日的感冒情况进行分析(以及统计目前发烧以及嗓子痛的患者数量),另外该程序还会结合气温和湿度的变化来预测 将来感冒的流行情况,并制作一个“易感冒日历”。目前,此类服务正在日本陆续展开。通过这个
16、服务器的分析,大家就能够知道在自己身边到底有多少人有感冒的症状,并提前做好预防准备。日本国立感染症研究所将会把全国约5000 个医疗诊所的流感患者进行统计并发布数据。经过对比,研究所得出的实际统计数字和网站上预测的结果基本是一致的,那么为什么大数据的结果会很准呢?首先是因为通过网络信息分析的技术有所进步,已经可以通过各种各样的留言自动搜索到相关的数据,并自动分类。就像 Google 现在所使用的技术,就是利用服务器分析与流感关系十分密切的十几个单词进行统计。另一个就是大数据所特有的功能。在流感最严重的时候,每天会有成千上万条 Tweets 发布,即便有一些误差,但通过数据分析也能分析出数据的精
17、准度。以往,公共机构在发布流感情报的时候至少要延迟一周,在有些偏远地区的立杆信息也并不确切,而现在,通过网络能够有效弥补这些缺憾。.2022/9/325.2022/9/326.淘宝的数据化运营实例分析分析流程1. 分析主题确定及数据指标的选择;2. 数据仓库数据提取及清洗;3. 不相关指标剔除;4. 用训练数据建立模型;5. 用测试数据检验模型;6. 预测新的流失用户,并提取用户名单; 7.制订挽留策略:对圈定的客户进一步进行分群,然后逐群制 订有针对的挽留策略。比如有的群组是属于夜间通话多(和 总体的均值相比)的客户,那么针对他们的挽留策略可能是 推荐一些夜间通话优惠的资费方案。 8.实施挽
18、留行动、收集客户反馈。 9.评估挽留效果:2022/9/327.三、构建大数据分析平台28.四、公共安全领域大数据应用案例29.面向公共安全领域的大数据分析技术平台数据挖掘Data Miner多维分析BI Beans查询Discoverer数据仓库管理(OEM)数据提取WarehouseBuilder应用服务器ApplicationServer/PortalDataBase人口数据外部数据犯罪数据报表ReportsData MiningOLAP数据转换中央数据仓库知识发现信息展现应用系统源数据数据获取数据管理数据使用2022/9/330.刑侦的犯罪预防搜集犯罪的信息 推断罪犯的习惯 预测罪案的
19、发生非法出入境判别海关走私模式的分析紧急事件的处理人员的紧急疏散资源的紧急调配 紧急状态的安全管理紧急事件发生的预演交通管理公共安全领域基于大数据的智能分析2022/9/331.信息的来源银行交易历史资料库/知识库公共信息政府数据库Internet截获/监听情报 通信情报人工情报2022/9/332.问题的关键大量的信息(有关/无关)是分析的基础,也是分析的障碍事件的信息往往是随机获得不确定的因素影响分析的结果分析的速度是关键2022/9/333.飞速膨胀的信息多种学科的边缘结合有限的记忆和注意范围长时间持续的分析工作严重依赖分析人员的经验如何用计算机系统支持复杂海量的分析过程 ?限制 他们承
20、担了大部分负担依靠分析人员2022/9/334.限制 分析人员的沉重负担依靠分析人员2022/9/335.当前的分析需求从不同的来源有效的集成知识和信息连续的知识积累提供自动的警告为分析人员的查询提供答案构造不同的案件情节假设2022/9/336.定性, 定量分析时间 & 频率分析Databases经验自由文本统一的知识系统从不同信息来源和格式获取数据2022/9/337.基本信息 组织 个人人工情报事件数据库银行交易其它数据源政府数据库通信情报监听 反馈 人工情报 询问 检查 模拟 联结事件生成 Events:Meeting (What, Who, Where, When, Frequenc
21、y)Travel (Who, How, Where, When, Length)Phone call (Who, When, Length, Content, Frequency)Delivery (Who, When, How, Size, What, Frequent, Payment)Other (What, Who, When, Where)Crime (What, When, Where, Who, How)2022/9/338.典型应用 1 刑事罪案自动分析2022/9/339.参与分析的数据罪犯 犯罪技巧 (爆炸-爆炸物制作, 杀人方式, 动机等等), 属于特定团伙和团伙中的角色
22、 (计划者, 辅助者, 领导者, 执行者/马仔等等), 户籍地/暂住地, 入狱历史团伙 成员, 角色潜在目标 人群/公共机构/商业机构, 他们的位置知识和经验 这些因素如何相互作用 包括外在的影响和经验 (过去发生的事件)新的信息会源源不断 2022/9/340.模拟案例- 西西里, 巴勒莫, 4/4/03 : “Corradi 拘捕了 Don Marcello” (公共信息)理解信息 Corradi 是巴勒莫警方的的首席侦探 Don Marcello 是 Marcello 家族的教父 Marcello 家族具有很强的报复性巴勒莫警方很可能遭到报复文本信息的理解外部数据访问外部数据访问Data
23、 Mining / 先验知识推理, 警报2022/9/341.新的信息理解信息Bob 是 Marcello 家族的成员Bob 是家族中的计划者和谈判代表Marcello 家族的势力只限于巴勒莫 谈判代表到外面的地区寻找家族内没有的炸弹专家炸弹制造和使用是 Marcello 家族没有的技术, Parsi 地区的黑手党家族有这样的专家 Per 是Parsi 地区的黑手党炸弹专家同时间服刑的罪犯经常会一起合作犯案Per 和 Bob 有同时间服刑的历史Marcello 家族有可能以炸弹攻击的方式报复 Don Marcello 的被拘捕Bob 有可能计划用炸弹攻击巴勒莫警方巴勒莫, 4/4/03 : “
24、Corradi 拘捕了 Don Marcello” (公共信息)巴勒莫, 5/5/03 : “Bob 在 Parsi 出现” (警方通报)文本信息的理解外部数据访问外部数据访问外部数据访问Data Mining / 先验知识外部数据访问外部数据访问Data Mining / 先验知识Data Mining / 先验知识推理, 警报外部数据访问2022/9/342.新的信息巴勒莫, 4/4/03 : “Corradi 拘捕了 Don Marcello” (公共信息)巴勒莫, 5/5/03 : “Bob 在 Parsi 出现” (警方通报)罗马, 5/5/03 : “Fabrizzi 将会29号在
25、巴勒莫法庭宣判 Don Marcello (公共信息)巴勒莫, 7/5/03 : “这个月巴勒莫会发生一些事情” (警方情报) 有可能报复巴勒莫警方 可能是一起炸弹攻击有可能针对 Fabrizzi 法官 可能的攻击手段, 谋杀或是炸弹攻击基于时间的相关分析(所有的分析都是与时间高度相关的)2022/9/343.新的信息如果我们拘捕 Per? 炸弹攻击的威胁会降低, 但是不会消失 Marcello 家族的谈判代表还知道其他的炸弹专家, 等等如果我们同时拘捕 Per 和 Bob?推理, 假设分析推理, 假设分析2022/9/344巴勒莫, 4/4/03 : “Corradi 拘捕了 Don Marcello” (公共信息)巴勒莫, 5/5/03 : “Bob 在 Parsi 出现” (警方通报)罗马, 5/5/03 : “Fabrizzi 将会29号在巴勒莫法庭宣判 Don Marcello (公共信息)巴勒莫, 7/5/03 : “这个月巴勒莫会发生一些事情” (警方情报).本月有事情 (突发事件) 在巴勒莫发生Fabrizzi 将在29日宣判Don MarcelloBob 出现在 Parsi密切注意相关人员的接触炸弹有可能在制造中(假设事件与 Marcello 家族有关 - 警告会在三个月内有效)可
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 2025-2030年电机、发动机制造行业跨境出海战略分析研究报告
- 2025-2030年水质污染监测系统企业制定与实施新质生产力战略分析研究报告
- 2025-2030年新闻快速响应报道机制行业深度调研及发展战略咨询报告
- 2025-2030年自动搅拌咖啡机行业深度调研及发展战略咨询报告
- 2025-2030年精准农业生物监测芯片企业制定与实施新质生产力战略分析研究报告
- 小学五年级语文下册第五单元习作教学整体设计方案:让人物在笔尖立体绽放
- 2026年非煤矿山安全培训考试题(A卷)及答案解析
- 2025年免疫学实验室技术应用评价试卷及答案解析
- 2026年萍乡市规划勘察设计院有限责任公司招聘外聘人员3人考试题库及答案解析
- 2026首文科集团校园招聘57人笔试备考试题及答案详解
- GMP计算机系统用户权限管理操作规程
- 2025年7月陕西省普通高中学业水平合格性考试语文试题及答案
- 2025年申论国考真题试卷及答案
- 2025河南编导考试真题及答案
- DB44 07∕T 70-2021 地理标志产品 新会陈皮
- 高压电工证1500题模拟考试练习题-图文
- 国企财务经理招聘笔试题和答案
- 2025年全国青少年人工智能科普知识竞赛备赛试题库150题(含答案)
- 2024-2025学年甘肃省兰州第四十六中学下学期七年级期中数学试卷
- 【语文】广东省珠海市香洲区拱北小学二年级下册期末复习试卷(含答案)
- 2025年住院医师规培-安徽-安徽住院医师规培(口腔全科)历年参考题库含答案解析
评论
0/150
提交评论