《医学计算机基础》教学课件08大数据_第1页
《医学计算机基础》教学课件08大数据_第2页
《医学计算机基础》教学课件08大数据_第3页
《医学计算机基础》教学课件08大数据_第4页
《医学计算机基础》教学课件08大数据_第5页
已阅读5页,还剩136页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

医学计算机基础PPT模板下载:/moban/行业PPT模板:/hangye/节日PPT模板:/jieri/PPT素材下载:/sucai/PPT背景图片:/beijing/PPT图表下载:/tubiao/优秀PPT下载:/xiazai/PPT教程:/powerpoint/Word教程:/word/Excel教程:/excel/资料下载:/ziliao/PPT课件下载:/kejian/范文下载:/fanwen/试卷下载:/shiti/教案下载:/jiaoan/

第八章大数据第一节大数据技术概述第二节大数据技术第三节大数据在医学领域的应用学习目标•了解大数据的基本概念、特点和技术架构。•熟悉大数据的整体技术和关键技术。•熟悉大数据处理分析的几种典型工具。•了解大数据的应用案例和在医疗领域中的应用。•了解大数据未来的发展趋势。第八章大数据大数据是以容量大、类型多、存取速度快、应用价值高为主要特征的数据集合,正快速发展为对数量巨大、来源分散、格式多样的数据进行采集、存储和关联分析,从中发现新知识、创造新价值、提升新能力的新一代信息技术和服务业态。信息技术与经济社会的交汇融合引发了数据迅猛增长,数据已成为国家基础性战略资源,大数据正日益对全球生产、流通、分配、消费活动及经济运行机制、社会生活方式和国家治理能力产生重要影响。第八章大数据第一节大数据技术概述大数据(bigdata)又称巨量资料,是指所涉及的资料量规模巨大到无法通过目前主流的软件和硬件工具,在合理的时间内撷取、管理、处理,并整理成为帮助企业进行经营决策的资讯。从技术层面上看,大数据无法用单台的计算机进行处理,而必须采用分布式计算架构。它的特色在于对海量数据的挖掘,但它必须依托一些现有的数据处理方法,如云计算的分布式处理、分布式数据库、云存储和/或虚拟化技术。第一节大数据技术概述大数据的发展简史一、最早提出bigdata的是2011年麦肯锡全球研究院(McKinseyGlobalInstitute)发布的《大数据:下一个创新、竞争和生产力的前沿》研究报告。这也是专业机构第一次全方面地介绍和展望大数据。之后经高德纳技术成熟度曲线和2012年维克托·舍恩伯格《大数据时代:生活、工作与思维的大变革》的宣传推广,大数据概念开始风靡全球。基于WebofScience数据库中1994年后涉及大数据概念的4495篇文献,采用Citespace知识图谱工具,通过热点关键词和高被引文献分析,能够勾勒出大数据技术从萌芽到成熟的发展历程。第一节大数据技术概述20世纪90年代至21世纪初,是大数据发展的萌芽期,处于数据挖掘技术阶段。随着数据挖掘理论和数据库技术的逐步成熟,一批商业智能工具和知识管理技术开始被应用,如数据仓库、专家系统、知识管理系统等。此时,对于大数据的研究主要集中于algorithms(算法)、model(模型)、patterns(模式)、identification(识别)等热点关键词。第一节大数据技术概述大数据发展的突破期是2003年至2006年,处于围绕非结构化数据自由探索阶段。非结构化数据的爆发带动大数据技术的快速突破,以2004年Facebook创立为标志,社交网络的流行直接导致大量非结构化数据的涌现,而传统处理方法难以应对。此时的热点关键词较为分散,包括了systems(系统)、networks(网络)、evolution(演化)等,高被引文献也很少,说明学术界、企业界正从多角度对数据处理系统、数据库架构进行重新思考,且尚未形成共识。第一节大数据技术概述2006年至2009年,大数据技术形成并行运算与分布式系统,为大数据发展的成熟期。JeffDean在BigTable基础上开发了Spanner数据库(2009)。此阶段,大数据研究的热点关键词再次趋于集中,聚焦performance(性能)、cloudcomputing(云计算)、mapreduce(大规模数据集并行运算算法)、Hadoop(开源分布式系统基础架构)等。2008年年末,大数据得到部分美国知名计算机科学研究人员的认可,它使人们的思维不仅局限于数据处理的机器,并提出:大数据真正重要的是新用途和新见解,而非数据本身。此组织可以说是最早提出大数据概念的机构。第一节大数据技术概述2010年以来,随着智能手机的应用日益广泛,数据的碎片化、分布式、流媒体特征更加明显,移动数据急剧增长。近年来大数据不断地向社会各行各业渗透,使得大数据的技术领域和行业边界越来越模糊和变动不居,应用创新已超越技术本身更受到青睐。大数据技术可以为每一个领域带来变革性影响,并且正在成为各行各业颠覆性创新的原动力和助推器。第一节大数据技术概述2011年5月,麦肯锡全球研究院发布了一份名为《颠覆性技术:技术进步改变生活、商业和全球经济》的研究报告。报告确认的未来12种新兴技术,有望在2025年带来14万亿至33万亿美元的经济效益。令人惊讶的是,最为热门的大数据技术却未被列入其中。麦肯锡专门解释称,大数据已成为这些可能改变世界格局的12项技术中许多技术的基石,包括移动互联网、知识工作自动化、物联网、云计算、先进机器人、自动汽车、基因组学等都少不了大数据应用。第一节大数据技术概述2011年12月,在中华人民共和国工业和信息化部发布的《物联网“十二五”规划》中,把信息处理技术作为4项关键技术创新工程之一被提出来,其中包括了海量数据存储、数据挖掘、图像视频智能分析,这都是大数据的重要组成部分。第一节大数据技术概述2012年1月,在瑞士达沃斯召开的世界经济论坛上,大数据是主题之一,会上发布的报告《大数据,大影响》宣称,数据已经成为一种新的经济资产类别,就像货币或黄金一样。2012年3月,美国奥巴马政府在白宫网站发布了《大数据研究和发展倡议》,这一倡议标志着大数据已经成为重要的时代特征。2012年3月22日,奥巴马政府宣布2亿美元投资大数据领域,是大数据技术从商业行为上升到国家科技战略的分水岭,在次日的电话会议中,政府对数据的定义“未来的新石油”,大数据技术领域的竞争,事关国家安全和未来。第一节大数据技术概述2012年,美国软件公司Splunk于4月19日在纳斯达克成功上市,成为第一家上市的大数据处理公司。鉴于美国经济持续低迷、股市持续震荡的大背景,Splunk首日的突出交易表现尤其令人们印象深刻,首日即暴涨了一倍多。Splunk是一家领先的提供大数据监测和分析服务的软件提供商,成立于2003年。Splunk成功上市促进了资本市场对大数据的关注,同时也促使IT厂商加快大数据布局。第一节大数据技术概述2012年7月,联合国在纽约发布了一份关于大数据政务的白皮书,总结了各国政府如何利用大数据更好地服务和保护人民。这份白皮书举例说明在一个数据生态系统中,个人、公共部门和私人部门各自的角色、动机和需求。例如,通过对价格关注和更好的服务的渴望,个人提供数据和众包信息,并对隐私和退出权力提出需求;公共部门出于改善服务、提升效益的目的,提供了诸如统计数据、设备信息、健康指标及税务和消费信息等,并对隐私和退出权利提出需求;第一节大数据技术概述私人部门出于提升客户认知和预测趋势的目的,提供汇总数据、消费和使用信息,并对敏感数据所有权和商业模式更加关注。白皮书还指出,人们如今可以使用的极大丰富的数据资源,包括旧数据和新数据,来对社会人口进行前所未有的实时分析。联合国还以爱尔兰和美国的社交网络活跃度增长作为失业率上升的早期征兆为例,表明政府如果能合理分析所掌握的数据资源,将能“与数俱进”,快速应变。第一节大数据技术概述2014年4月,世界经济论坛以“大数据的回报与风险”主题发布了《全球信息技术报告(第13版)》。报告认为,在未来几年中针对各种信息通信技术的政策甚至会显得更加重要。接下来将对数据保密和网络管制等议题展开积极讨论。全球大数据产业的日趋活跃,技术演进和应用创新的加速发展,使各国政府逐渐认识到大数据在推动经济发展、改善公共服务,增进人民福祉,乃至保障国家安全方面的重大意义。第一节大数据技术概述2014年5月,美国白宫发布了2014年全球“大数据”白皮书的研究报告《大数据:抓住机遇、守护价值》。报告鼓励使用数据以推动社会进步,特别是在市场与现有的机构并未以其他方式来支持这种进步的领域;同时,也需要相应的框架、结构与研究,来帮助保护美国人对于保护个人隐私、确保公平或是防止歧视的坚定信仰。第一节大数据技术概述大数据的特点二、大数据通常用来形容一个公司创造的大量非结构化和半结构化数据,这些数据下载到关系数据库用于分析时会花费过多时间和金钱。大数据分析常和云计算联系到一起,因为实时的大型数据集分析需要像MapReduce那样的框架来向数十、数百或甚至数千的计算机分配工作。简言之,从各种各样类型的数据中,快速获得有价值信息的能力,就是大数据技术。明白这一点至关重要,也正是这一点促使该技术具备走向众多企业的潜力。第一节大数据技术概述2001年,高德纳分析员道格·莱尼在一份与其2001年的研究相关的演讲中指出,数据增长有3个方向的挑战和机遇:量(volume),即数据多少;速(velocity),即资料输入、输出的速度;类(variety),即多样性。在莱尼的理论基础上,IBM提出大数据的“4V”特征得到了业界的广泛认可:第一,大容量(volume),即数据巨大,从TB级别跃升到PB级别;第二,多样性(variety),即数据类型繁多,不仅包括传统的格式化数据,还包括来自互联网的网络日志、视频、图片、地理位置信息等;第三,快速度(velocity),即处理速度快;第四,真实性(veracity),即追求高质量的数据。第一节大数据技术概述大容量1.2003年,人类第一次破译人体基因密码时,用了10年才完成了30亿对碱基对的排序;而在10年之后,世界范围内的基因仪15分钟就可以完成同样的工作量。伴随着各种随身设备、物联网和云计算、云存储等技术的发展,人和物的所有轨迹都可以被记录,数据因此被大量生产出来。计算机数据最小的基本单位是bit,按顺序给出所有单位:bit、Byte、KB、MB、GB、TB、PB、EB、ZB、YB、BB、NB、DB。它们按照进率1024(2的10次方)来计算,即第一节大数据技术概述1Byte=8bit1KB=1024Bytes=8192bit1MB=1024KB=1048576Bytes 1GB=1024MB=1048576KB1TB=1024GB=1048576MB1PB=1024TB=1048576GB1EB=1024PB=1048576TB第一节大数据技术概述1ZB=1024EB=1048576PB1YB=1024ZB=1048576EB1BB=1024YB=1048576ZB1NB=1024BB=1048576YB1DB=1024NB=1048576BBIDC研究表明,包含结构化和非结构化的大数据正在以每年60%的增长率持续增长,到了2020年,全球数据总量将增长44倍,达到35.2ZB。第一节大数据技术概述移动互联网的核心网络节点是人,不再是网页,人人都成为数据制造者,短信、微博、照片、录像都是其数据产品;数据来自无数自动化传感器、自动记录设施、生产监测、环境监测、交通监测、安防监测等;来自自动流程记录,刷卡机、收款机、电子不停车收费系统、互联网点击、电话拨号等设施及各种办事流程登记等。大量自动或人工产生的数据通过互联网聚集到特定地点,包括电信运营商、互联网运营商、政府、银行、商场、企业、交通枢纽等机构,形成了大数据之海。第一节大数据技术概述多样性2.随着传感器、智能设备及社交协作技术的飞速发展,组织中的数据也变得更加复杂,因为它不仅包含传统的关系型数据,还包含来自网页、互联网日志文件(包括点击流数据)、搜索索引、社交媒体论坛、电子邮件、文档、主动和被动系统的传感器数据等原始、半结构化和非结构化数据。第一节大数据技术概述在大数据时代,数据格式变得越来越多样,涵盖了文本、音频、图片、视频、模拟信号等不同的类型;数据来源也越来越多样,不仅产生于组织内部运作的各个环节,也来自组织外部。例如,在交通领域,北京市交通智能化分析平台数据来自路网摄像头/传感器、公交、轨道交通、出租车及省际客运、旅游、化危运输、停车、租车等运输行业,还有问卷调查和地理信息系统数据。4万辆浮动车每天产生2000万条记录,交通卡刷卡记录每天1900万条,手机定位数据每天1800万条,出租车运营数据每天100万条,电子停车收费系统数据每天50万条,定期调查覆盖8万户家庭等,这些数据在体量和速度上都达到了大数据的规模。第一节大数据技术概述发掘这些形态各异、快慢不一的数据流之间的相关性,是大数据做前人之未做、能前人所不能的机会。大数据不仅是处理巨量数据的利器,更为处理不同来源、不同格式的多元化数据提供了可能。多样化的数据来源正是大数据的威力所在,如交通状况与其他领域的数据都存在较强的关联性。据相关数据研究发现,可以从供水系统数据中发现早晨洗澡的高峰时段,加上一个偏移量(通常是40~45min)就能估算出交通早高峰时段;同样可以从电网数据中统计出傍晚办公楼集中关灯的时间,加上偏移量估算出晚上的堵车时段。第一节大数据技术概述快速度3.在数据处理速度方面,有一个著名的“1秒定律”,即要在秒级时间范围内给出分析结果,超出这个时间,数据就失去价值了。例如,IBM有一则广告,讲的是“1秒,能做什么”。1s,能检测出台湾的铁道故障并发布预警;也能发现得克萨斯州的电力中断,避免电网瘫痪;还能帮助一家全球性金融公司锁定行业欺诈,保障客户利益。第一节大数据技术概述涉及感知、传输、决策、控制开放式循环的大数据,对数据实时处理有着极高的要求,通过传统数据库查询方式得到的“当前结果”很可能已经没有价值。时间就是金钱。如果说价值是分子,那么时间就是分母,分母越小,单位价值就越大。面临同样大的数据“矿山”,“挖矿”效率是竞争优势。像其他商品一样,数据的价值会折旧,等量数据在不同时间点价值不等。而且在某些特殊领域,数据跟新闻一样具有时效性,很多传感器的数据产生几秒之后就失去意义,如美国国家海洋和大气管理局的超级计算机能够在日本地震后9min计算出海啸的可能性,但9min的延迟对于瞬间被海浪吞噬的生命来说还是太长了。第一节大数据技术概述英特尔中国研究院首席工程师吴甘沙认为,快速度是大数据处理技术和传统的数据挖掘技术最大的区别。大数据是一种以实时数据处理、实时结果导向为特征的解决方案,它的“快”有两个层面:一是数据产生得快,有的数据是爆发式产生,GPS(全球定位系统)位置信息等;二是数据处理得快,正如水处理系统可以从水库调出水进行处理,也可以处理直接涌进来的新水流。大数据也有批处理(“静止数据”转变为“正使用数据”)和流处理(“动态数据”转变为“正使用数据”)两种范式,以实现快速的数据处理。第一节大数据技术概述真实性4.数据的重要性就在于对决策的支持,数据的规模并不能决定其能否为决策提供帮助,数据的真实性和质量才是获得真知和思路最重要的因素,是制定成功决策最坚实的基础。追求高数据质量是一项重要的大数据要求和挑战,即使最优秀的数据清理方法也无法消除某些数据固有的不可预测性,如人的感情和诚实性、天气形势、经济因素及未来。并确定如何充分利用这一点。例如,采取数据融合,即通过结合多个可靠性较低的来源创建更准确、更有用的数据点,或者通过鲁棒优化技术和模糊逻辑方法等先进的数学方法。第一节大数据技术概述业界还有人把大数据的基本特征从“4V”扩展到了“11V”,包括价值密度低(value)、可视化(visualization)、有效性(validity)等。例如,价值密度低是指随着物联网的广泛应用,信息感知无处不在,信息海量,但在连续不间断的视频监控过程中,可能有用的数据仅一两秒。如何通过强大的机器算法更迅速地完成数据的价值“提纯”,是大数据时代亟待解决的难题。第一节大数据技术概述国际数据公司报告里有一句话,概括出了大数据基本特征之间的关系:大数据技术通过使用高速的采集、发现或分析,从超大容量的多样数据中经济地提取价值。无所遁形的大数据时代已经到来,以迅雷不及掩耳之势渗透到每一个职能领域内,如何借助大数据浪潮持续创新发展,使企业成功转型,在当下具有非凡的意义。第一节大数据技术概述大数据的作用三、大数据是继云计算、物联网之后IT产业又一次颠覆性的技术变革。当今信息时代所产生的数据量已经大到无法用传统的工具进行采集、存储、管理和分析。根据中国信息通信研究院发布的《2015年中国大数据发展调查报告》显示,2015年中国大数据市场规模将达到115.9亿元,增速达38%。大数据的快速发展,充分说明了它的重要性。第一节大数据技术概述宏观作用1.中华人民共和国国务院在2015年印发《促进大数据发展行动纲要》(以下简称《纲要》),对大数据开放应用等工作提供指导意见。《纲要》认为,全球范围内运用大数据推动经济发展、完善社会治理、提升政府服务和监管能力正成为趋势,有关发达国家相继制定实施大数据战略性文件,大力推动大数据发展和应用。坚持创新驱动发展,加快大数据部署,深化大数据应用,已成为稳增长、促改革、调结构、惠民生和推动政府治理能力现代化的内在需要和必然选择。第一节大数据技术概述1)大数据成为推动经济转型发展的新动力以数据流引领技术流、物质流、资金流、人才流,将深刻影响社会分工协作的组织模式,促进生产组织方式的集约和创新。大数据推动社会生产要素的网络化共享、集约化整合、协作化开发和高效化利用,改变了传统的生产方式和经济运行机制,可显著提升经济运行水平和效率。大数据持续激发商业模式创新,不断催生新业态,已成为因特网等新兴领域促进业务创新增值、提升企业核心价值的重要驱动力。大数据产业正在成为新的经济增长点,将对未来信息产业格局产生重要影响。第一节大数据技术概述2)大数据成为重塑国家竞争优势的新机遇在全球信息化快速发展的大背景下,大数据已成为国家重要的基础性战略资源,正引领新一轮科技创新。充分利用我国的数据规模优势,实现数据规模、质量和应用水平同步提升,发掘和释放数据资源的潜在价值,有利于更好地发挥数据资源的战略作用,增强网络空间数据主权保护能力,维护国家安全,有效地提升国家竞争力。第一节大数据技术概述3)大数据成为提升政府治理能力的新途径大数据应用能够揭示传统技术方式难以展现的关联关系,推动政府数据开放共享,促进社会事业数据融合和资源整合,将极大地提升政府整体数据分析能力,为有效地处理复杂社会问题提供新的手段。建立“用数据说话、用数据决策、用数据管理、用数据创新”的管理机制,实现基于数据的科学决策,将推动政府管理理念和社会治理模式进步,加快建设与社会主义市场经济体制和中国特色社会主义事业发展相适应的法治政府、创新政府、廉洁政府和服务型政府,逐步实现政府治理能力现代化。第一节大数据技术概述对企业的作用2.以企业为例,对企业内部的纷乱数据通过分析进行决策的目的就是帮助企业领导者更好地管理企业。对于企业来说,大数据能够帮助企业预测经济形势、把握市场态势、了解消费需求、提高研发效率,不仅具有巨大的潜在商业价值,而且为企业提升竞争力提供了新思路。第一节大数据技术概述1)企业决策大数据化现代企业大都具备决策支持系统,以辅助决策。但现行的决策支持系统仅收集部分重点数据,数据量小,数据面窄。企业决策大数据化的基础是企业信息数字化,重点是数据的整理分析。首先,企业需要进行信息数字化采集系统的更新升级,按各决策层级的功能建立数据采集系统,以横向、纵向、实时三维模式广泛采集数据。在人为影响起次要作用的底层,推进决策指标量化,完善决策支持系统和决策机制。大数据决策机制让数据说话,可以减少人为干扰因素,提高决策精准度。第一节大数据技术概述2)成本控制大数据化目前,很多企业在采购、物流、储存、生产、销售等环节引入了成本控制系统,但系统间融合度较低。企业可对现有成本控制系统进行改造升级,打造大数据综合成本控制系统。其一,在成本控制的全过程采集数据,以求最大限度地描述事物,实现信息数字化、数据大量化。其二,推进成本控制标准、控制机理系统化。将成本控制所涉及的从原材料采购到产品生产、运输、储存、销售等环节有机结合起来,形成一个综合评价体系,为成本控制提供可靠依据。成本控制大数据化以预先控制为主、过程控制为中、产后控制为辅的方式,可以最大限度降低企业运营成本。第一节大数据技术概述3)服务体系大数据化品牌和服务是企业的核心竞争力,服务体系直接影响企业的生存发展。优化服务体系的重点是健全沟通机制、联络机制和反馈机制,利用大数据优化服务体系的关键是找到服务体系中存在的问题。首先,加强数据收集,对消费者反馈的信息进行分类分析,实现快速处理;比对失败则转入人工服务系统,对新服务需求进行研究处理,并快速将新服务机制添加至系统,优化服务系统。服务体系大数据化,可以实现服务体系的高度自动化,最大限度提高服务质量和效率。第一节大数据技术概述4)产品研发大数据化产品研发存在较高风险,大数据能精确分析客户需求,降低风险,提高研发成功率。产品研发的主要环节是消费需求分析,产品研发大数据化的关键环节是数据收集、分类整理和分析利用。企业官网的消费者反馈系统、贴吧、论坛、新闻评价体系等是消费者需求信息的主要来源,应注重从中收集数据。同时,可与论坛、贴吧、新闻评价体系合作构建消费者综合服务系统,完善消费者信息反馈机制,实现信息收集大量化、全面化、自动化,为产品研发提供信息源。第一节大数据技术概述然后,对收集的非结构化数据进行分类整理,以达到精确分析消费需求、缩短产品研发周期、提高研发效率的目的。产品研发大数据化,可以精准分析消费者需求,提高产品研发质量和效率,使企业在竞争中占据优势。总之,大数据对企业精细运营起到的价值是非常巨大的,可以让企业在社交平台上的运营更加完善,尽量让企业有一个理想的口碑,并对一些不良的言论做舆情监测等,然后根据数据进行产品改进,并且利用大数据还能更好地驱动用户体验,促进企业运营目标朝着正确的方向前进,这都是大数据为企业带来的价值。第一节大数据技术概述大数据的应用领域四、随着大数据的应用越来越广泛,应用的行业也越来越低,我们每天都可以看到大数据的一些新奇的应用,从而帮助人们从中获取真正有用的价值。第一节大数据技术概述理解客户、满足客户服务需求1.大数据的应用目前在这一领域是最广为人知的。重点是如何应用大数据更好地了解客户及他们的爱好和行为。企业非常喜欢收集社交方面的数据、浏览器的日志、分析出文本和传感器的数据,为了更加全面地了解客户。在一般情况下,建立出数据模型进行预测。例如,美国的著名零售商Target就是通过大数据的分析,得到有价值的信息,精准地预测到客户在什么时候想要小孩。另外,通过大数据的应用,电信公司可以更好预测出流失的客户,沃尔玛则更加精准地预测哪个产品会大卖,汽车保险行业会了解客户的需求和驾驶水平,政府也能了解到选民的偏好。第一节大数据技术概述业务流程优化2.大数据也更多地帮助业务流程的优化。可以通过利用社交媒体数据、网络搜索及天气预报挖掘出有价值的数据,其中大数据的应用最广泛的就是供应链及配送路线的优化。在这两个方面,地理定位和无线电频率的识别追踪货物和送货车,利用实时交通路线数据制定更加优化的路线。人力资源业务也通过大数据的分析来进行改进,这其中就包括人才招聘的优化。第一节大数据技术概述大数据正在改善我们的生活3.大数据不单单是应用于企业和政府,同样也适用我们生活当中的每个人。我们可以利用穿戴的装备(如智能手表或者智能手环)生成最新的数据,这让我们可以根据我们热量的消耗及睡眠模式来进行追踪。还可以利用大数据分析来寻找属于我们的爱情,大多数交友网站就是利用大数据应用工具来帮助需要的人匹配合适的对象。第一节大数据技术概述提高医疗和研发4.大数据分析应用的计算能力让我们在几分钟内就可以解码整个DNA,并且让我们可以制订出最新的治疗方案,同时可以更好地去理解和预测疾病。就像人们戴上智能手表等可以产生的数据一样,大数据同样可以帮助病人对于病情进行更好的治疗。大数据技术目前已经在医院应用监视早产婴儿和患病婴儿的情况,通过记录和分析婴儿的心跳,医生针对婴儿的身体可能会出现的不适症状做出预测,这样可以帮助医生更好地救助婴儿。第一节大数据技术概述提高体育成绩5.现在很多运动员在训练时应用大数据分析技术。例如,用于网球鼻塞的IBMSlamTracker工具,我们使用视频分析来追踪足球或棒球比赛中每个球员的表现,而运动器材中的传感器技术(如篮球或高尔夫俱乐部)让我们可以获得比赛的数据及如何改进。很多精英运动队还追踪比赛环境外运动员的活动,即通过使用智能技术来追踪其营养状况及睡眠,以及通过社交对话来监控其情感状况。第一节大数据技术概述优化机器和设备性能6.大数据分析还可以让机器和设备在应用上更加智能化和自主化。例如,大数据工具曾经就被谷歌公司利用研发谷歌自驾汽车。丰田的普瑞就配有相机、GPS及传感器,在交通上能够安全地驾驶,不需要人类的干预。大数据工具还可以应用于优化智能电话。第一节大数据技术概述改善安全和执法7.大数据现在已经广泛应用到安全执法的过程当中。美国安全局利用大数据进行恐怖主义打击,甚至监控人们的日常生活。而企业则应用大数据技术进行防御网络攻击。警察应用大数据工具进行捕捉罪犯,信用卡公司应用大数据工具来监视欺诈性交易。第一节大数据技术概述改善城市8.大数据还被应用于改善城市。例如,基于城市实时交通信息、利用社交网络和天气数据来优化最新的交通情况。目前很多城市都在进行大数据的分析和试点。第一节大数据技术概述金融交易9.大数据在金融行业主要是应用金融交易。高频交易(HFT)是大数据应用比较多的领域。其中,大数据算法应用于交易决定。现在很多股权的交易都是利用大数据算法进行的,这些算法现在越来越多地考虑了社交媒体和网站新闻来决定在未来几秒内是买出还是卖出。随着大数据的应用越来越普及,还有很多新的大数据的应用领域及新的大数据应用。第一节大数据技术概述思考题1.什么是大数据?简述大数据的发展。2.大数据有什么特点?3.简述大数据的作用。第二节大数据技术各种各样的大数据应用迫切需要新的工具和技术来存储、管理和实现商业价值。新的工具、流程和方法支撑起了新的技术架构,使得企业能够建立、操作和管理这些超大规模的数据集和存储数据的存储环境。第二节大数据技术大数据技术架构一、在全新的数据增长速度条件下,一切都必须重新评估。这项工作必须从全盘入手,并考虑大数据分析要容纳数据本身,IT基础架构必须能够以经济的方式存储比以往量更大、类型更多的数据。此外,还必须能适应数据速度,即数据变化的速度。数量如此大的数据难以在当今的网络连接条件下快速来回移动。大数据基础架构必须分布计算能力,以便能在接近用户的位置进行数据分析,减少跨越网络所引起的延迟。第二节大数据技术随着企业逐渐认识到必须在数据驻留的位置进行分析,提升计算能力,以便为分析工具提供实时响应带来挑战。考虑到数据速度和数据量,来回移动数据进行处理是不现实的。相反,计算和分析工具可能会移到数据附近,而且云计算模式对大数据的成功至关重要。云模型在从大数据中提取商业价值的同时也在驯服它。这种交付模型能为企业提供一种灵活的选择,以实现大数据分析所需的效率、可扩展性、数据便携性和经济性。但仅仅存储和提供数据还不够,只有以新方式合成、分析和关联数据,才能提供商业价值。部分大数据方法要求处理未经建模的数据。第二节大数据技术因此,可以用毫不相干的数据源比较不同类型的数据和进行模式匹配,从而使大数据的分析能以新视角挖掘企业传统数据,并带来传统上未曾分析过的数据洞察力。基于上述考虑,一般可以构建出适合大数据的4层堆栈式技术架构,如图8-1所示。图8-14层堆栈式技术架构第二节大数据技术基础层1.第一层作为整个大数据技术架构基础的最底层,也是基础层。要实现大数据规模的应用,企业需要一个高度自动化的、可横向扩展的存储和计算平台。这个基础设施需要从以前的存储孤岛发展为具有共享能力的高容量存储池。容量、性能和吞吐量必须以线性扩展。云模型鼓励访问数据并提供弹性资源池来应对大规模问题,解决了如何存储大量数据,及如何积聚所需的计算资源来操作数据的问题。在云中,数据跨多个节点调配和分布,使得数据更接近需要它的用户,从而可以缩短响应时间和提高生产率。第二节大数据技术管理层2.要支持在多源数据上做深层次的分析,大数据技术架构中需要一个管理平台,使结构化和非结构化数据管理为一体,具备实时传送和查询、计算功能。本层既包括数据的存储和管理,也涉及数据的计算。并行化和分布式是大数据管理平台所必须考虑的要素。第二节大数据技术分析层3.大数据应用需要大数据分析。分析层提供基于统计学的数据挖掘和机器学习算法,用于分析和解释数据集,帮助企业获得对数据价值深入的领悟。可扩展性强、使用灵活的大数据分析平台更可成为数据科学家的利器,起到事半功倍的效果。第二节大数据技术应用层4.大数据的价值体现在帮助企业进行决策和为终端用户提供服务的应用。不同的新型商业需求驱动了大数据的应用。反之,大数据应用为企业提供的竞争优势使得企业更加重视大数据的价值。新型大数据应用对大数据技术不断提出新的要求,大数据技术也因此在不断的发展变化中日趋成熟。第二节大数据技术大数据的整体技术和关键技术二、大数据需要特殊的技术,以有效地处理那些在允许时间范围内的大量数据。适用于大数据技术应用的领域包括大规模并行处理数据库、数据挖掘电网、分布式文件系统、分布式数据库、云计算平台、互联网和可扩展的存储系统。大数据技术分为整体技术和关键技术两个方面。第二节大数据技术整体技术1.大数据处理整体技术一般包括数据采集、数据存取、基础架构、数据处理、统计分析、数据挖掘、模型预测和结果呈现等。(1)数据采集:ETL(extracttransformload)工具负责将分布的、异构数据源中的数据如关系数据、平面数据文件等抽取到临时中间层后进行清洗、转换、集成,最后加载到数据仓库或数据集市中,成为联机分析处理、数据挖掘的基础。(2)数据存取:关系数据库、SQL等。(3)基础架构:云存储、分布式文件存储等。第二节大数据技术(4)数据处理:自然语言处理(naturallanguageprocessing,NLP)是研究人与计算机交互的语言问题的一门学科。处理自然语言的关键是要让计算机理解自然语言,一方面它是语言信息处理的一个分支,另一方面它是人工智能(artificialintelligence,AI)的核心课题之一。(5)统计分析:假设检验、显著性检验、差异分析、相关分析、T检验、方差分析、logistic回归分析、曲线估计、因子分析、聚类分析、主成分分析、因子分析、快速聚类法与聚类法、判别分析、对应分析、多元对应分析(最优尺度分析)、bootstrap技术等。第二节大数据技术(6)数据挖掘:分类、估计、预测、相关性分组或关联规则、聚类、描述和可视化、复杂数据类型(文本、网页、图像、视频、音频等)挖掘。(7)模型预测:预测模型、机器学习、建模仿真。(8)结果呈现:云计算、标签云、关系图等。第二节大数据技术关键技术2.数据是指通过RFID射频数据、传感器数据、社交网络交互数据及移动互联网数据等方式获得的各种类型的结构化、半结构化(或称为弱结构化)及非结构化的海量数据,是大数据知识服务模型的根本。设计质量评估模型,提高开发数据质量技术。大数据处理关键技术一般包括大数据采集技术、大数据预处理技术、大数据存储及管理技术、开发大数据安全技术、大数据分析及挖掘技术、大数据展现和应用(大数据检索、大数据可视化、大数据应用、大数据安全等)技术。第二节大数据技术1)大数据采集技术大数据采集一般分为大数据智能感知层,主要包括数据传感体系、网络通信体系、传感适配体系、智能识别体系及软硬件资源接入系统,实现对结构化、半结构化、非结构化的海量数据的智能化识别、定位、跟踪、接入、传输、信号转换、监控、基础支撑层:提供大数据服务平台所需的虚拟服务器,结构化、半结构化及非结构化数据的数据库及物联网资源等基础支撑环境。重点攻克分布式虚拟存储技术,大数据获取、存储、组织、分析和决策操作的可视化接口技术,大数据的网络传输与压缩技术,大数据隐私保护技术等。第二节大数据技术2)大数据预处理技术大数据预处理技术主要完成对已接收数据的抽取、清洗等操作。(1)抽取。因获取的数据可能具有多种结构和类型,数据抽取过程可以帮助将这些复杂的数据转化为单一的或便于处理的构型,以达到快速分析、处理的目的。(2)清洗。由于在海量数据中,并不全是有价值的,有些数据并不是我们所关心的内容,而另一些数据则是完全错误的干扰项,因此,要对数据通过过滤“去噪”,从而提取出有效数据。第二节大数据技术3)大数据存储及管理技术大数据存储与管理要用存储器把采集到的数据存储起来,建立相应的数据库,并进行管理和调用。重点解决复杂结构化、半结构化和非结构化大数据管理与处理技术,主要解决大数据的可存储、可表示、可处理、可靠性及有效传输等几个关键问题。开发可靠的分布式文件系统(.DFS)、能效优化的存储、异构数据的数据融合技术、数据组织技术、研究大数据建模技术;突破大数据索引技术;突破大数据移动、备份、复制等技术;开发大数据可视化技术。第二节大数据技术4)开发大数据安全技术开发大数据安全技术包括改进数据销毁、透明加解密、分布式访问控制、数据审计等技术;突破隐私保护和推理控制、数据真伪识别和取证、数据持有完整性验证等技术。第二节大数据技术5)大数据分析及挖掘技术改进已有数据挖掘和机器学习技术,开发数据网络挖掘、特异群组挖掘、图挖掘等新型数据挖掘技术,突破基于对象的数据连接、相似性连接等大数据融合技术,突破用户兴趣分析、网络行为分析、情感语义分析等面向领域的大数据挖掘技术。数据挖掘就是从大量的、不完全的、有噪声的、模糊的、随机的实际应用数据中,提取隐含在其中的、人们事先不知道的,但又是潜在有用的信息和知识的过程。第二节大数据技术数据挖掘涉及的技术方法很多,包括多种分类法。根据挖掘任务可分为:分类或预测模型发现、数据总结、聚类、关联规则发现、序列模式发现、依赖关系或依赖模型发现、异常和趋势发现等;根据挖掘对象可分为关系数据库、面向对象数据库、空间数据库、时态数据库、文本数据源、多媒体数据库、异质数据库、遗产数据库及环球网Web;根据挖掘方法可粗分为机器学习方法、统计方法、神经网络方法和数据库方法。第二节大数据技术机器学习可细分为归纳学习方法(决策树、规则归纳等)、基于范例学习、遗传算法等。统计方法可细分为:回归分析(多元回归、自回归等)、判别分析(贝叶斯判别、费歇尔判别、非参数判别等)、聚类分析(系统聚类、动态聚类等)、探索性分析(主元分析法、相关分析法等)等。神经网络方法可细分为:前向神经网络(BP算法等)、自组织神经网络(自组织特征映射、竞争学习等)等。数据库方法主要是多维数据分析或OLAP方法,另外还有面向属性的归纳方法。第二节大数据技术从挖掘任务和挖掘方法的角度,要着重突破以下几点:(1)可视化分析。数据可视化无论是对于普通用户,还是数据分析专家,都是最基本的功能。数据图像化可以让数据自己说话,让用户直观地感受到结果。(2)数据挖掘算法。图像化是将机器语言翻译给人看,而数据挖掘就是机器的母语。分割、集群、孤立点分析还有各种各样的算法让我们精炼数据,挖掘价值。这些算法一定要能够应付大数据的量,同时还具有很快的处理速度。第二节大数据技术(3)预测性分析。预测性分析可以让分析师根据图像化分析和数据挖掘的结果做出一些前瞻性判断。(4)语义引擎。语义引擎需要设计到有足够的人工智能以足以从数据中主动地提取信息。语言处理技术包括机器翻译、情感分析、舆情分析、智能输入、问答系统等。(5)数据质量和数据管理。数据质量与数据管理是管理的最佳实践,透过标准化流程和机器对数据进行处理可以确保获得一个预设质量的分析结果。第二节大数据技术6)大数据展现与应用技术大数据技术能够将隐藏于海量数据中的信息和知识挖掘出来,为人类的社会经济活动提供依据,从而提高各个领域的运行效率,大大提高整个社会经济的集约化程度。第二节大数据技术在我国,大数据将重点应用于以下三大领域:商业智能、政府决策和公共服务,如商业智能技术、政府决策技术、电信数据信息处理与挖掘技术、电网数据信息处理与挖掘技术、气象信息分析技术、环境监测技术、警务云应用系统(道路监控、视频监控、网络监控、智能交通、反电信诈骗、指挥调度等公安信息系统)、大规模基因序列分析比对技术、Web信息挖掘技术、多媒体数据并行化处理技术、影视制作渲染技术、其他各种行业的云计算和海量数据处理应用技术等。第二节大数据技术大数据处理分析的常用工具三、

大数据分析是在研究大量数据的过程中寻找模式、相关性和其他有用的信息,可以帮助企业更好地适应变化,并做出更明智的决策。第二节大数据技术Hadoop1.Hadoop是一个能够对大量数据进行分布式处理的软件框架,其是以一种可靠、高效、可伸缩的方式进行处理的。Hadoop

是可靠的,因为它假设计算元素和存储会失败,因此,它维护多个工作数据副本,确保能够针对失败的节点重新分布处理,Hadoop

是高效的,因为它以并行的方式工作,通过并行处理加快处理速度,Hadoop

还是可伸缩的,能够处理PB级数据。此外,Hadoop依赖于社区服务器,因此,它的成本比较低,任何人都可以使用。第二节大数据技术Hadoop

是一个能够让用户轻松架构和使用的分布式计算平台。用户可以轻松地在

Hadoop上开发和运行处理海量数据的应用程序。它主要有以下几个优点:(1)高可靠性。Hadoop

按位存储和处理数据的能力值得人们信赖。(2)高扩展性。Hadoop

是在可用的计算机集簇间分配数据并完成计算任务的,这些集簇可以方便地扩展到数以千计的节点中。第二节大数据技术(3)高效性。Hadoop

能够在节点之间动态地移动数据,并保证各个节点的动态平衡,因此,处理速度非常快。(4)高容错性。Hadoop

能够自动保存数据的多个副本,并且能够自动将失败的任务重新分配。Hadoop

带有用

Java语言编写的框架,因此,运行在

Linux生产平台上是非常理想的。Hadoop上的应用程序也可以使用其他语言编写,如

C++等。第二节大数据技术HPCC2.HPCC是highperformancecomputingandcommunications(高性能计算与通信)的缩写。1993年,美国科学、工程、技术联邦协调理事会向国会提交了“重大挑战项目:高性能计算与通信”的报告,也就是被称为HPCC计划的报告,即美国总统科学战略项目,其目的是通过加强研究与开发解决一批重要的科学和技术挑战问题。HPCC是美国实施信息高速公路而实施的计划,该计划的实施将耗资百亿美元,其主要目标要达到:开发可扩展的计算系统及相关软件,以支持太位级网络传输性能,开发千兆比特网络技术,扩展研究和教育机构及网络连接能力。第二节大数据技术该项目主要由以下5部分组成:(1)高性能计算机系统(HPCS),内容包括今后几代计算机系统的研究、系统设计工具、先进的典型系统及原有系统的评价等。(2)先进软件技术与算法(ASTA),内容有巨大挑战问题的软件支撑、新算法设计、软件分支与工具、计算及高性能计算研究中心等。第二节大数据技术(3)国家科研与教育网格(NREN),内容有中接站及10亿位级传输的研究与开发。(4)基本研究与人类资源(BRHR),内容有基础研究、培训、教育及课程教材,被设计是通过奖励调查者开始的,长期的调查在可升级的高性能计算中来增加创新意识流,通过提高教育和高性能的计算训练及通信来加大熟练的与训练有素的人员的联营,以及提供必需的基础架构来支持这些调查和研究活动。(5)信息基础结构技术和应用(IITA),目的在于保证美国在先进信息技术开发方面的领先地位。第二节大数据技术STORM3.STORM是自由的开源软件,一个分布式的、容错的实时计算系统。STORM可以非常可靠地处理庞大的数据流,用于处理Hadoop

的批量数据,因为Hadoop

不擅长实时计算,Hadoop

天然就是为批量处理而生的。STORM很简单,支持许多种编程语言,使用起来非常有趣。STORM由Twitter开源而来,其他知名的应用企业包括

Groupon、淘宝、支付宝、阿里巴巴、乐元素、

Admaster

等。第二节大数据技术STORM主要适用于以下几种情形:(1)流数据处理。流数据是一组顺序、大量、快速、连续到达的数据序列,一般情况下,流数据可被视为一个随时间延续而无限增长的动态数据集合,应用于网络监控、传感器网络、航空航天、气象测控和金融服务等领域。STORM可以用来处理源源不断流进来的消息,处理之后将结果写入某个存储中去。第二节大数据技术(2)分布式RPC。RPC(remoteprocedurecallprotocol)是远程过程调用协议,它是一种通过网络从远程计算机程序上请求服务,而不需要了解底层网络技术的协议。由于STORM的处理组件是分布式的,而且处理延迟极低,所以可以作为一个通用的分布式RPC框架来使用。其实搜索引擎本身也是一个分布式RPC系统。一种通过网络从远程计算机程序上请求服务)、

ETL(extractiontransformationloading,数据抽取、转换和加载)等。STORM的处理速度惊人:经测试,每个节点每秒钟可以处理100万个数据元组。STORM可扩展、容错,很容易设置和操作。第二节大数据技术RapidMiner4.RapidMiner是世界领先的数据挖掘解决方案,在一个非常大的程度上有着先进技术。它数据挖掘任务涉及范围广泛,包括各种数据艺术,能简化数据挖掘过程的设计和评价。RapidMiner提供的数据挖掘和机器学习程序包括:数据加载和转换(ETL)、数据预处理和可视化、建模、评估和部署。数据挖掘的流程是以XML文件加以描述,并通过一个图形用户界面显示出来。RapidMiner是由Java编程语言编写的,其中还集成了WEKA的学习器和评估方法,并可以与R语言进行协同工作。第二节大数据技术RapidMiner的功能和特点如下:(1)免费提供数据挖掘技术和库。(2)100%用

Java代码(可运行在操作系统)。(3)数据挖掘过程简单、强大和直观。(4)内部

XML保证了标准化的格式来表示交换数据挖掘过程。(5)可以用简单脚本语言自动进行大规模进程。(6)多层次的数据视图,确保有效和透明的数据。第二节大数据技术(7)图形用户界面的互动原型。(8)命令行(批处理模式)自动大规模应用。(9)JavaAPI(应用编程接口)。(10)简单的插件和推广机制。(11)强大的可视化引擎,许多尖端的高维数据的可视化建模。(12)众多数据挖掘运营商支持。第二节大数据技术大数据应用案例四、近两年,“大数据”这个词越来越为大众所熟悉,但是对于大多数人而言,想要理解大数据的应用并不是很容易的。通过一些经典的案例,人们发现它其实就在自己身边。第二节大数据技术啤酒与尿布的故事1.“啤酒与尿布”的故事是营销界的神话,“啤酒”和“尿布”两个看上去没有关系的商品摆放在一起进行销售并获得了很好的销售收益,这种现象就是卖场中商品之间的关联性,研究“啤酒与尿布”关联的方法就是购物篮分析。购物篮分析曾经是沃尔玛秘而不宣的独门武器,可以帮助人们在门店的销售过程中找到具有关联关系的商品,并以此获得销售收益的增长。第二节大数据技术沃尔玛的“啤酒与尿布”案例是正式刊登在1998年的《哈佛商业评论》上,该案例产生于20世纪90年代的美国沃尔玛超市中。沃尔玛的超市管理人员分析销售数据时发现了一个令人难以理解的现象:在某些特定的情况下,“啤酒”与“尿布”两件看上去毫无关系的商品会经常出现在同一个购物篮中,这种独特的销售现象引起了管理人员的注意,经过后续调查发现,这种现象出现在年轻的父亲身上。第二节大数据技术在美国有婴儿的家庭中,一般是母亲在家中照看婴儿,年轻的父亲前去超市购买尿布。父亲在购买尿布的同时,往往会顺便为自己购买啤酒,这样就会出现啤酒与尿布这两件看上去不相干的商品经常会出现在同一个购物篮的现象。如果这个年轻的父亲在卖场只能买到两件商品之一,则他很有可能会放弃购物而到另一家商店,直到可以一次同时买到啤酒与尿布为止。沃尔玛发现了这一独特的现象,开始在卖场尝试将啤酒与尿布摆放在相同的区域,让年轻的父亲可以同时找到这两件商品,并很快地完成购物;而沃尔玛超市也可以让这些客户一次购买两件商品而不是一件,从而获得了很好的商品销售收入,这就是“啤酒与尿布”故事的由来。第二节大数据技术当然“啤酒与尿布”的故事必须具有技术方面的支持。1993年,美国学者Agrawal提出通过分析购物篮中的商品集合,从而找出商品之间关联关系的关联算法,并根据商品之间的关系,找出客户的购买行为。艾格拉沃从数学及计算机算法角度提出了商品关联关系的计算方法——Aprior算法。沃尔玛从20个世纪90年代尝试将Aprior算法引入POS机数据分析中,并获得了成功。第二节大数据技术第一,沃尔玛先进的计算机技术是“啤酒与尿布”故事产生的强大支持后盾。零售业目前使用的很多新技术都是沃尔玛率先“尝鲜”的,如沃尔玛最早在门店尝试计算机记账,最早在门店收款台尝试使用外形丑陋的俗称“牛眼”的条码扫描器进行收款,世界上第一个发射私人通信卫星等。“前人栽树,后人乘凉”,目前运用于门店管理的很多技术手段都是沃尔玛“第一个吃螃蟹”的,我们只不过坐享其成而已。由于沃尔玛具备先进的技术手段,“啤酒与尿布”的故事在沃尔玛产生就一点也不奇怪了。第二节大数据技术第二,沃尔玛拥有一双锐利的慧眼。沃尔玛是一家极其讲究卖场现场管理的企业,沃尔玛创始人老沃尔顿最大的乐趣就是不停地在卖场巡视,更多地运用自己的双眼而不是数据来发现事实。因此,不能忽略的是,没有沃尔玛管理人员的慧眼,“啤酒与尿布”的故事也会淹没在大量的零售数据中。第二节大数据技术谷歌成功预测甲型H1N1流感1.2009年出现了一种新的流感病毒。这种甲型H1N1流感结合了导致禽流感和猪流感的病毒的特点,在短短几周之内迅速传播开来。全球的公共卫生机构都担心一场致命的流行病即将来袭。有的评论家甚至警告说,可能会爆发大规模流感。更糟糕的是全世界还没有研发出对抗这种新型流感病毒的疫苗。公共卫生专家能做的只是减慢它传播的速度。但要做到这一点,他们必须先知道这种流感出现在哪里。第二节大数据技术美国和所有其他国家一样,都要求医生在发现新型流感病例时告知疾病控制与预防中心。但由于病人可能患病多日实在受不了了才会去医院,同时这个信息传回疾控中心也需要时间,因此,通告新流感病例时往往会有一两周的延迟。而且,疾控中心每周只进行一次数据汇总。然而,对于一种飞速传播的疾病,信息滞后两周的后果将是致命的。这种滞后导致公共卫生机构在疫情爆发的关键时期反而无所适从。第二节大数据技术在甲型H1N1流感爆发的几周前,互联网巨头谷歌公司的工程师在《自然》杂志上发表了一篇引人注目的论文。它令公共卫生官员和计算机科学家感到震惊。文中解释了谷歌为什么能够预测冬季流感的传播:不仅是全美范围的传播,而且可以具体到特定的地区和州。谷歌通过观察人们在网上的搜索记录来完成这个预测,而这种方法以前一直是被忽略的。谷歌保存了多年来所有的搜索记录,而且每天都会收到来自全球超过30亿条的搜索指令,如此庞大的数据资源足以支撑和帮助它完成这项工作。第二节大数据技术谷歌公司把5000万条美国人最频繁检索的词条和美国疾控中心在2003年至2008年间季节性流感传播时期的数据进行了比较,他们希望通过分析人们的搜索记录来判断这些人是否患上了流感。其他公司也曾试图确定这些相关的词条,但是他们缺乏像谷歌公司一样庞大的数据资源、处理能力和统计技术。第二节大数据技术虽然谷歌公司的员工猜测,特定的检索词条是为了在网络上得到关于流感的信息,如“哪些是治疗咳嗽和发热的药物”,但是找出这些词条并不是重点,他们也不知道哪些词条更重要。更关键的是,他们建立的系统并不依赖于这样的语义理解。他们设立的这个系统唯一关注的就是特定检索词条的使用频率与流感在时间和空间上的传播之间的联系。第二节大数据技术谷歌公司为了测试这些检索词条,总共处理了4.5亿个不同的数学模型。在将得出的预测与2007年、2008年美国疾控中心记录的实际流感病例进行对比后,谷歌公司发现,他们的软件发现了45条检索词条的组合,将它们用于一个特定的数学模型后,他们的预测与官方数据的相关性高达97%。和疾控中心一样,他们也能判断出流感是从哪里传播出来的,而且判断非常及时,不会像疾控中心一样要在流感爆发一两周之后才可以做到。第二节大数据技术所以,2009年甲型H1N1流感爆发时,与习惯性滞后的官方数据相比,谷歌成为一个更有效、更及时的指示标,使公共卫生机构的官员获得了非常有价值的数据信息。惊人的是,谷歌公司的方法甚至不需要分发口腔试纸和联系医生——它是建立在大数据的基础之上的。这是当今社会所独有的一种新型能力:以一种前所未有的方式,通过对海量数据进行分析,获得有巨大价值的产品和服务,或深刻的洞见。基于这样的技术理念和数据储备,下一次流感来袭时,世界将会拥有一种更好的预测工具,以预防流感的传播。第二节大数据技术百度大数据——旅游预测3.每一天,全中国都有数以百万计的互联网用户在利用百度搜索各种旅游相关信息。我们发现,旅游的相关搜索数量随着季节和节假日的时间呈现周期性的上涨与下浮。百度大数据部通过对搜索数据的深度挖掘,已经发现旅游相关词搜索数量和实际旅游人数之间的密切关系,并依此建立了旅游预测模型。通过和北京市旅游委的景点实际人数对比,准确度达到90%以上,可以充分反映各旅游景点未来的人流趋势。第二节大数据技术图8-2展示了百度大数据部故宫旅游人数预测值和北京市旅游委提供的故宫当日实际人数的对比。图8-2百度大数据部故宫旅游人数预测值和北京市旅游委提供的故宫当日实际人数的对比第二节大数据技术旅游预测是百度将大数据信息带入日常生活的众多产品中的一个。除此之外,基于百度大数据的百度预测还有经济指数预测、疾病预测、城市预测、高考预测等。第二节大数据技术思考题1.简述大数据的4层堆栈式技术架构。2.大数据的整体技术包括哪几方面?3.大数据的关键技术包括哪几方面?4.列举大数据处理分析的常用工具。第三节大数据在医学领域的应用早期,大部分医疗相关数据是以纸张化的形式存在的,而非电子数据化存储,如官方的医药记录、收费记录、护士医生手写的病例记录、处方药记录、X光片记录、磁共振成像(MRI)记录、CT影像记录等。随着强大的数据存储、计算平台及移动互联网的发展,现在的趋势是医疗数据的大量爆发及快速的电子数字化。以上提到的医疗数据都在不同程度上向数字化转化。第三节大数据在医学领域的应用医疗大数据概述一、有报告显示,2011年,单单美国的医疗健康系统数据量就达到了150EB。照目前的增长速度,ZB的级别也会很快达到。例如,KaiserPermanente是一个在加州发展起来的医疗健康网络系统,其拥有上千万的会员,被认为拥有数十甚至上百PB的电子健康记录。IT时代涌现的还有各种网络社交媒体数据,公开发布的基因DNA微阵列达到50万之多,每一阵列包含数万的分子表达值。在生物医药方面,功能性磁共振影像的数据量也达到了数万TB级别,每一幅影像包含有5万像素值。第三节大数据在医学领域的应用此外,各种健身、健康可穿戴设备的出现,使得血压、心率、体重、血糖、心电图等的监测都变为现实和可能,信息的获取和分析的速度已经从原来的按“天”计算,发展到了按“小时”、按“秒”计算。比如,一家名为BlueSpark的科技公司已经生产出能24h实时监测体温的新型温度计贴片。这种数据的扩展速度和覆盖范围是前所未有的,数据的格式也五花八门,可能是无格式文件(flatfile)、CSV、关系表、ASCII/纯文本文件等。第三节大数据在医学领域的应用同时,数据的来源也纷繁复杂,可能来自不同的地区、不同的医疗机构、不同的软件应用。不可否认,一旦理顺了多格式、多源头、呈爆炸性成长的大数据的整合和分析,医疗大数据将在提高医疗质量、强化患者安全、降低风险、降低医疗成本等方面发挥无与伦比的巨大作用。有效的整合和利用数字化的医疗大数据对个体医生、康复中心、大型医院和医疗研究机构都有着显著的好处,包括以下几个方面:第三节大数据在医学领域的应用(1)更多、更准确的数据使得疾病能在早期被监测到,从而使治疗更容易和有效。(2)通过对特定个体或人群的健康管理,快速有效地监测保健诈骗。(3)基于大量的历史数据,预测和估计特定疾病或人群的某些未来趋势。例如,预测特定病人的住院时间,哪些病人会选择非急需性手术,哪些病人不会从手术治疗中受益,哪些病人会更容易出现并发症等。麦肯锡估计,单就美国而言,医疗大数据的利用可以为医疗开支每年节省出3千亿美元。第三节大数据在医学领域的应用大数据在临床操作上的应用二、相对更有效的医学研究,发展出临床相关性更强和成本效益更高的方法来诊断和治疗病人。在临床业务方面,主要有以下几个主要场景的大数据应用:第三节大数据在医学领域的应用比较效果研究1.通过全面分析病人特征数据和疗效数据,然后比较多种干预措施的有效性,可以找到针对特定病人的最佳治疗途径。基于疗效的研究包括比较效果研究。研究表明,对同一病人来说,医疗服务提供方不同、医疗护理方法和效果不同,成本上也存在着很大的差异。精准分析包括病人体征数据、费用数据和疗效数据在内的大型数据集,可以帮助医生确定临床上最有效和最具有成本效益的治疗方法。第三节大数据在医学领域的应用医疗护理系统实现比较效果研究,将有可能减少过度治疗(如避免那些副作用比疗效明显的治疗方式),及治疗不足。从长远来看,不管是过度治疗还是治疗不足,都将给病人身体带来负面影响,及产生更高的医疗费用。世界各地的很多医疗机构(如英国的NICE、德国IOWIG、加拿大普通药品检查机构等)已经开始了比较效果研究项目并取得了初步成功。2009年,美国通过的复苏与再投资法案,就是向这个方向迈出的第一步。第三节大数据在医学领域的应用临床决策支持系统2.临床决策支持系统可以提高工作效率和诊疗质量。目前的临床决策支持系统分析医生输入的条目,比较其与医学指引不同的地方,从而提醒医生防止潜在的错误,如药物不良反应。通过部署这些系统,医疗服务提供方可以降低医疗事故率和索赔数,尤其是那些临床错误引起的医疗事故。在美国Metropolitan儿科重症病房的研究中,两个月内,临床决策支持系统就削减了40%的药品不良反应事件数量。第三节大数据在医学领域的应用大数据分析技术将使临床决策支持系统更智能,这得益于对非结构化数据的分析能力的日益加强。例如,可以使用图像分析和识别技术,识别医疗影像(X光、CT、MRI)数据,或者挖掘医疗文献数据建立医疗专家数据库,从而给医生提出诊疗建议。此外,临床决策支持系统还可以使医疗流程中大部分的工作流流向护理人员和助理医生,使医生从耗时过长的简单咨询工作中解脱出来,从而提高治疗效率。第三节大数据在医学领域的应用医疗数据透明度3.提高医疗过程数据的透明度,可以使医疗从业者、医疗机构的绩效更透明,间接促进医疗服务质量的提高。根据医疗服务提供方设置的操作和绩效数据集,可以进行数据分析并创建可视化的流程图和仪表盘,促进信息透明。数据分析可以带来业务流程的精简,通过精益生产降低成本,找到符合需求的、工作更高效的员工,从而提高护理质量并给病人带来更好的体验。第三节大数据在医学领域的应用远程病人监控4.远程病人监控从对慢性病人的远程监控系统收集数据,并将分析结果反馈给监控设备(查看病人是否正在遵从医嘱),从而确定今后的用药和治疗方案。全世界有数以亿计的慢性病患者,如糖尿病、充血性心脏衰竭、高血压患者,他们的医疗费用占到了医疗卫生系统医疗成本的绝大部分。远程病人监护系统对治疗慢性病患者是非常有用的。远程病人监护系统包括家用心脏监测设备、血糖仪,甚至还包括芯片药片。芯片药片被病人摄入后,实时传送数据到电子病历数据库。第三节大数据在医学领域的应用例如,远程监控可以提醒医生对充血性心脏衰竭病人采取及时治疗措施,防止紧急状况发生,因为充血性心脏衰竭的标志之一是由于保水产生的体重增加现象,这可以通过远程监控实现预防。更多的好处是,通过对远程监控系统产生的数据的分析,可以减少病人住院时间,减少急诊量,实现提高家庭护理比例和门诊医生预约量的目标。第三节大数据在医学领域的应用对病人档案的先进分析5.在病人档案方面应用高级分析可以确定哪些人

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论