版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
大数据研究与实践郑纬民zwm-dcs@清华大学计算机系一、什么叫大数据二、清华大学大数据研究与实践1.大数据存储
(1)云存储系统MeePo(2)删冗处理2.大数据处理平台3.社交网络4.海量数据处理课程2一、什么叫大数据3什么是大数据定义1:
大数据是指无法在一定时间内用常规软件工具对其内容进行抓取、管理和处理的数据集合(维基百科定义)Bigdatausuallyincludesdatasetswithsizesbeyondtheabilityofcommonly-usedsoftwaretoolstocapture,curate,manage,andprocessthedatawithinatolerableelapsedtime.Wiki4什么是大数据定义2:3VBigDataarehigh-volume,high-velocity,and/orhigh-varietyinformationassetsthatrequirenewformsofprocessingtoenableenhanceddecisionmaking,insightdiscoveryandprocessoptimization--Gartner
5大数据的4V特性VolumeVolumeVarietyVolume模态多样VeracityVolume真伪难辨VelocityVolume速度极快体量巨大文本视频图片音频到2020年,数据总量达40ZB,人均5.2TB分享的内容条目超过25亿个/天,增加数据超过500TB/天6什么是大数据定义3:
当数据的规模和性能要求成为数据管理分析系统的重要设计和决定因素时,这样的数据就被称为大数据不是简单地以数据规模来界定大数据,要考虑数据查询与分析的复杂程度以目前计算机硬件的发展水平看针对简单查询(如关键字搜索),数据量为TB至PB级时可称为大数据针对复杂查询(如数据挖掘),数据量为GB至TB级时即可称为大数据7什么是大数据定义4:
大数据有两个基本特征不同于传统的数据集:
1.大数据不一定存储于固定的数据库,而是分布在不同地方的网络空间
2.大数据以半结构化或非结构化数据为主,具有较高的复杂性。8大数据涉及诸多不同的领域
用户生成数据DeepWeb数据多模态内容数据天文气象基因医学经济物理其他领域网络与关系数据9大数据的价值科研价值1998年图灵奖得主、数据库技术奠基人JimGray认为数据驱动的研究将是第四种科学研究范式”TheFourthParadigm:Data-IntensiveScientificDiscovery”大数据已为多个不同学科的研究工作提供了宝贵机遇经济价值麦肯锡全球研究院:大数据可为世界经济创造巨大价值,提高企业和公共部门的生产率和竞争力,并为消费者创造巨大的经济利益著名Gartner公司:到2015年,采用大数据和海量信息管理的公司将在各项财务指标上,超过未做准备的竞争对手20%工业价值分析使用:揭示隐藏其中的信息,例如零售业中对门店销售、地理和社会信息的分析能提升对客户的理解二次开发:创造出新产品和服务。例如Facebook通过结合大量用户信息,定制出高度个性化的用户体验,并创造出一种新的广告模式社会价值例如:2009年淘宝网推出淘宝CPI来反映网络购物的消费趋势和价格动态其他价值…DataisthenextIntelInside.Thefuturebelongstothecompaniesandpeoplethatturndataintoproducts.
著名出版公司O‘Reilly的创始人TimO‘Reilly10深网挖掘深空探索2012年我国神州九号进入太空深海探测2012年我国蛟龙号探测水下7000米实现大数据价值的
深度挖据和高度利用!大数据的战略意义大数据的深度资源挖掘与价值利用是国家战略从深空
+
深海深网11大数据的产业价值大数据是各行各业面临的共同问题促进工业与信息产业的生产效率提升未来产业竞争的核心要素研究共性问题,突破核心技术12大数据的现实需求:感知现在13感知现在:历史数据与当前数据的融合,潜在线索与模式的挖掘,
事件、群体与社会发展状态的感知中国发展指数(物价、环境、健康)需求:掌握现状,如淘宝CPI、环境指数难点:PB级社会媒体数据,百亿级日志数据,结构与非结构数据关联,历史与流式数据并存犯罪线索挖掘需求:发现线索,如罪犯行为轨迹难点:PB级日志数据、EB级监控数据中发现嫌疑人及其行为模式犹如大海捞针问题与挑战:数据规模巨大、模态多样、关联复杂、真伪难辨
现有数据处理方法感知度量难、特征融合难、模式挖掘难13大数据的现实需求:预测未来联合国“全球脉动”(GlobalPulse):利用网络大数据预测失业率与疾病爆发等现象,利用数字化的早期预警信号来提前指导援助项目。问题与挑战:数据交互性强、实时性强、动态演变,导致传统数据计算方法:
数据生命周期的割裂、时效性与准确性难以兼顾、演变趋势难以预测基于Twitter数据的选举结果预测:通过对Twitter等网上公开数据的实时感知、动态获取与综合分析,结合仿真调控,预测大选结果。预测未来:全量数据、流式数据、离线数据的关联分析,态势与效应的判定与调控,揭示事物发展的演变规律,进而对事物发展趋势进行预测14美国的大数据规划-大数据上升为国家意志2012年3月29日,美国联邦政府整合6个部门宣布2亿美元的“BigDataResearchandDevelopmentInitiative”促进采集、存储、维护、管理、分析和共享海量数据的核心技术;利用以上技术来加速科学与工程发现的步伐,强化国家安全,改变教育和学习;培养开发和使用大数据技术的人力资源。CoreTechnologiesforAdvancingBigDataScience&EngineeringDatatoDecisions1000GenomesProjectDataAvailableonCloudScientificDiscoveryThroughAdvancedComputingBigDataforEarthSystemScienceXDATA15欧盟的大数据规划-基础设施是先导Horizon2020-TheFrameworkProgrammeforResearchandInnovation面向大数据的数据信息化基础设施(E-Infrastructure)是优先资助领域GRDI2020-GlobalResearchDataInfrastructures建立针对科研大数据的基础设施,实现数据管理系统、数字数据图书馆、研究图书馆、数据工具和研究团体的整合FP7Call8IntelligentInformationManagement-BigData预算5千万欧元,2012-1-17截止目标:提升发现、分析、开采、使用大数据及其基础设施的能力通过对大数据收集与分析创造更大价值探索基于大规模互联数据资源与专用基础设施的新型科学研究面向大数据的人力资源开发16目前大数据的规模IDC公司发布的数字宇宙研究报告称:全球信息总量每两年就会增长一倍,2011年全球被创建和被复制的数据总量为1.8ZB(1021)。IDC认为,到下一个十年(2020年),全球所有IT部门拥有服务器的总量将会比现在多出10倍,所管理的数据将会比现在多出50倍。预计到2020年,全球将总共拥有35ZB的数据量2011年企业创造、采集、管理和储存信息的成本已经下降到2005年的1/6,而同期企业关于数据的总投资自2005年以来却反而上升了50%。数据成本的下降助推了数据量的增长,而新的数据源和数据采集技术的出现则大大增加了未来数据的类型,数据类型的增加导致现有数据空间维度增加,极大地增加了未来大数据的复杂度。17目前大数据规模─示例天文观测数据:SloanDigitalSkySurvey:2000年部署几周收集的数据比历史上收集的数据还多每晚收集200G的数据,已收集了140TB=1.4x105GB的数据LargeSynopticSurveyTelescope:2016年完成部署每5天可收集105GB的数据物理实验数据:LargeHadronCollider:2010年一年产生13PB=1.3x107GB数据互联网数据:Facebook:用户超7亿,每月上传10亿照片,每天生成3x105GB日志数据淘宝:有3.7亿会员,在线商品8.8亿,每天交易数千万,产生2x104GB数据IBM估计:全球每天生成2.5EB=2.5x109GB数据,90%的已有数据是过去两年生成的Cisco预测:到2013年,互联网上的数据将达到667EB=6.67x1011GB18大数据总量增长态势19收集的数据还没有实现高度共享和深度利用
2.超大规模:为保证可靠性,需要存储数据副本,实际存储的数据量数倍于净数据量
3.时空属性:包含时间与位置信息
4.模糊高维:数据未必精确和完整:传感器误差,网络中断……
5.数据维度高:例如一次体检可以得到数百项生命体征数据大数据特点20大数据与常规数据的对比常规数据范围广模态多增长快关联繁数据规模较小模态属性受限增长速度较慢关联相对简单稠密与稀疏共存冗余与缺失并在动态与静态互现显式与隐藏均有特性问题描述与存储的挑战分析与理解的挑战挖掘与预测的挑战挑战大数据应用目标相对比较明确数据结构相对比较简单时序长持续时间较短处理方法通常为模型化、参数化21学术界对大数据的关注2012年1月,NaturePhysics上出版专刊“Complexity”特别指出大数据为科学研究,特别是复杂性科学的研究提供了史无前例的机遇2008年,Nature出版专刊“BigData”从互联网技术、互联网经济学、超级计算、环境科学、生物医药等多个方面介绍了大数据所带来的技术挑战2011年,Science刊登专刊“DealingwithData”讨论了数据洪流(Datadeluge)所带来的挑战,也特别指出倘若能够更有效地组织和使用这些数据,人们将得到更多的机会发挥科学技术对社会发展的巨大推动作用2012年4月,欧洲信息学与数学研究协会会刊ERCIMNews上出版专刊“BigData”讨论了大数据时代的数据管理、数据密集型研究的创新数据库技术等问题,并介绍了欧洲科研机构开展的研究活动和取得的创新性进展22大数据会议/WorkshopBDA:InternationalConferenceonBigDataAnalyticshttp://cs.du.ac.in/BDA2012/bda12.html2012:12月24-26日,印度;第1届BigMine:WorkshoponBigData,StreamsandHeterogeneousSourceMining:Algorithms,Systems,ProgrammingModelsandApplications/2012:与SIGKDD合办;8月12日,北京;第1届BigDataEurope系列会议/展示大数据实践与方案;加强业界人员交流2012:
Zurich,Vienna,Paris,Frankfurt,London2013:Stockholm,Warsaw,IstanbulBigDataAnalytics2012http://www.whitehallmedia.co.uk/bda/6月20日,伦敦学术会议工业会议23二、清华大学大数据研究与实践25关键问题及技术大数据的获取、表示及传输大数据存储大数据处理大数据查询/分析26关键问题及技术部分典型的大数据技术实现MLBaseGraphLibHDFS/GFS/MooseFSHadoop/MRSparkDryadPregel/Hama……HiveSharkDryadLINQ大数据存储大数据处理大数据查询/分析大数据表示/压缩非确定性线性系统/稀疏编码……271.大数据存储28大数据存储要求高可用
–数据能够随时访问,不丢失成本低
–对磁盘容量要求低性能
–访问速度要快低开销
–对CPU,网络资源占用少优先级由于I/O的速度远低于CPU和网络,优先级应为高可用>成本低>性能>低开销高可用和低成本是两个主要目标29大数据存储如何在保证数据高可用性的同时,又最小化存储容量需求这个问题可以简单抽象为:给定F个文件,存储在P台机器上,每台机器有M块硬盘,每块硬盘的容量为C字节,如何存储这些文件,使得在2块硬盘或两台机器故障的情况下,系统仍然能够恢复出所有F个文件的内容,并使得所占用的存储容量最小30(1).清华云存储:MeePo31MeePo能做什么公共社区个人空间社区空间个人空间:每个注册用户享有20GB的个人空间,可以离线使用社区空间:简单申请可以建立社区,拥有1TB的初始社区空间公共社区:系统自建的社区,向全部用户开放,包含课程视频、学习软件、影音资料等实现文件数据的存储和共享,将网络资源与本地无缝集成根据不同的需求采取不同的缓存策略,增强用户体验32MeePo客户端完全本地化的使用体验MeePo客户端个人空间:在线访问、同步、备份社区空间:带权限控制的共享公共空间:数据大集市MeePo客户端基于关系的共享MeePo移动客户端MeePo
Website下载客户端查看、上传、下载创建社区加入社区消息发布MeePo:在线访问在MeePo磁盘中播放视频38MeePo:在线访问在MeePo磁盘中编辑文档39MeePo不只是存储!从存储平台到资源平台自主管理使用方便良性循环41实验室、班级建设不只是存储平台!FTP服务器群发E-Mail使用方便容量大长期存储42课程教学不只是存储平台!网络学堂使用方便容量大交互性强43学生社团不只是存储平台!使用方便容量大长期存储FTP服务器群发E-Mail44清华跳水队不只是存储平台!训练视频动作分析参考资料45信息发布汇总不只是存储平台!讲座资料活动资料信息汇总群发E-Mail46就业指导中心每天发布招聘信息发布各种文档表格公司介绍和宣讲就业指导学习材料不只是存储平台!网站发布查看方便节约资源易于管理群发E-Mail47从存储平台到社交平台人与人的联系共同的关注共同的爱好共同的背景共同的理想共同的性格……找到人与人之间的联系加深人与人之间已有的联系建立人与人之间更多的联系找到有联系的人与人48从存储平台到社交平台数据支撑的社交网络49从存储平台到支撑平台!社团建设班级管理课程教学娱乐分享办公支撑自主学习实验室管理资源汇总学生科研学生学生学工行政教学教学50一个完整的MeePo系统MeePo系统架构存储服务器存储服务器存储服务器存储服务器MeePo云存储系统平台分布式存储管理(MeePoFS)数据存储与共享服务(MeePoLM)校园网络Windows客户端Linux/Mac客户端Web客户端52MeePo使用方式互联网络个人用户个人用户个人用户社区MeePo存储服务器客户端网站53MeePo客户端与资源管理器无缝集成共享空间个人空间公共空间54MeePo用户网站下载虚拟磁盘工具查看社区空间数据申请创建社区空间申请加入社区空间查看个人空间数据55MeePo管理后台常用功能入口统计信息后台入口56MeePo监控后台服务状态监控存储容量监控介质状态监控网络流量监控存储平台监控57MeePo与其他产品的比较比较RayFileQQ网盘DropBox华为网盘云应用数据网页磁盘本地虚拟磁盘点对点共享数据开放式共享数据特定群体共享存储个人数据备份个人数据同步……云存储系统同步工具126网盘云诺网盘金山快盘115网盘……59比较RayFileQQ网盘DropBox华为网盘……126网盘云诺网盘金山快盘115网盘……云应用数据网页磁盘本地虚拟磁盘点对点共享数据开放式共享数据特定群体共享存储个人数据备份个人数据同步云存储系统同步工具60MeePo在行动:清华大学20032–注册用户数511–注册社区数89.88TB–数据总量300TB–系统存储容量5-10MB/s–数据传输速度6TB–日均出口流量500GB–日均入口流量2600+–同时在线人数峰值1082–每秒请求数峰值社区类型比例@清华大学一份数据被共享了几次?共享率@清华大学出入流量比例:12:1
理论公式:
12倍的对外流量12份的内部存储12次的复制粘贴(2).删冗处理
64数据无处不在,但许多数据是重复的或者没有价值,未来的任务主要不是获取越来来越多的数据,而是数据的去冗分类、去粗取精,从数据中挖掘知识。数据量大到一定程度,数据压缩就必不可少。去重、压缩和归档技术是大数据处理技术中不可或缺的组成部分。“大数据”有简单和复杂之分。个体间联系很少,只是个体数量庞大的“大数据”问题并不难解决;组合爆炸的困难产生于个体之间的联系,社会网络的复杂性来源于社会联系。“小世界”也会产生“大数据”。几百年来,科学研究一直在做“从薄到厚”的事情,把“小数据”变成“大数据”,现在要做的事情是“从厚到薄”,要把大数据变成小数据。变“大数据”为“小数据”65SecondFridayFullBackupBCDEFLGHABCDEFGHIJFridayFullBackupABCDAEFGMonIncrementalABHTuesIncrementalCBIThursIncrementalACKWedsIncrementalEGJBackup Logical Estimated Physical Data Reduction周一的增量备份
300GB 100GB实际7–10x周二的增量备份
300GB 100GB实际7–10xKL周三的增量备份
300GB 100GB实际7–10x周四的增量备份
300GB 100GB实际7–10x第二个周五的全备份
800GB 100GB实际50–60xTOTAL 2800GB 1200GB周五的全备份
800GB 700GB实际2–4x
高效主存储删冗系统构建方法什么是删冗(DataDeduplication):一种数据精减方法(DataReduction),将重复数据以指针代替66云存储领域:多个用户共享同一存储,重复数据出现的概率极大提高。高性能计算领域:每轮计算产生的数据量极大,且有很大相似性。网络社区,网络游戏等Internet服务领域,数据重复出现的概率极大网络邮件系统:相同的邮件数量非常大,比如垃圾邮件和频繁转发的邮件等。数据库应用领域:许多用户数据和用户信息均可能有相似之处。…………可能的应用场景67学术界近年的情况:FAST
2011DedupSession存储界近年的收购集中在删冗领域:2009,EMC收购DataDomain,21亿$2010,Dell收购Ocarina,传言1.5亿$2010,IBM收购Storwize,传言1.4亿$潜在的收购:Netapp/EMC/Oracle收购Permabit?存储删冗成为研究热点68主存储目标:高性能,面向在线动态增长的数据延缓主存储开销减少主存储空间消耗提高主存储性能Data备份存储目标:数据保护减少备份媒体的开销减小备份窗口减小恢复时间目标:删冗主存储,具有高性能,扩展性,可靠性DataData$$$$$$$$$$$$$两种删冗方案:
备份存储删冗和主存储器删冗69主存储删冗系统好处延缓主存储增长的速度节省存储空间,降低存储成本提高主存储系统性能减少备份数据量,增强通过网络异地备份数据的能力主存储删冗难点:主存储性能要求高写数据时删冗过程计算开销大数据划分造成元数据量激增,元数据访问成为瓶颈。高效主存储删冗系统构建方法70高效主存储删冗系统构建方法主要的创新:提出了基于相似数据段元数据索引组织方法。使用位置敏感哈希函数快速匹配相似数据段。以重复数据判断率的少许下降换取性能提升71基于LSH的相似文件快速识别相似文件映射到同一哈希桶概率高基于p-stable位置敏感哈希函数读操作处理流程查询文件ID、块号、数据段号读取对应数据段元数据集合根据数据块元数据记录存储地址读取数据块内容到缓存区返回缓存区数据给应用写操作处理流程工作原理72提出了基于位置敏感哈希的元数据快速匹配和索引构建方法可用于创建通用设备,在通用情况下提高了元数据查询和更新性能对于不同元数据存储介质(HDD或者SSD)都有效可调参数适应不同类型文件存储可控制系统缓存开销扩展性非常好,适用于创建集群化的分级删冗存储设备,也非常适用于创建云存储设备应用于发改委人大附中基础教育试点项目中,卖给同有公司200万样机已发表文章2篇,申请专利1项高效主存储删冗系统构建方法73主存储删冗系统PDFS关键问题:数据如何有效组织传统思路:在一个大集合中找一个数据,如何能尽快确定地找到PDFS思路:在一个大集合中找一个数据,是否能仅在其某个子集合中查找,找到则进行数据精简,否则立即放弃。通过以数据压缩率的些许降低,获得了与普通主存储设备几乎一样的读写性能74现有大数据存储技术分布式文件系统分布式RAID冗余删除系统75分布式文件系统GFS,HDFS,MooseFS等使用多副本技术提高数据的可用性和性能当一个副本失效,系统自动进行数据的重分布,尽快恢复成3个副本多副本不仅带来可用性上的好处,也带来了性能上的好处缺点:需要3X的存储容量,存储效率低,成本高76分布式RAIDGarthGibson等提出,并在Hadoop中实现了原型将RAID的思想扩展到网络连接的服务器上,分布式RAID6的效果是在典型负载下,以1.3X左右的容量获得容2个错的能力提出异步编码,即对新加入的文件,不马上进行RAID编码,而是先进行多副本拷贝缺点:对常见的单点故障,数据恢复开销大77现有的存储冗余删除技术在文件系统中存在广泛的冗余多用户存储的相同文件,同一文件的不同版本,同一类文件的相近的文件头等等冗余删除技术寻找文件内、文件之间的冗余数据块对同一块数据,只保存一份新加入的文件,分块后通过hash函数查找是否已保存有相同内容的数据块变长的数据块比定长数据块能够删除更多的冗余数据根据使用场景不同,分为用于备份的删冗存储系统,如Venti,DataDomain等用于主存储系统的删冗系统,可以在典型负载下,降低存储需求30-40%缺点:未考虑数据的可靠性,多个文件依赖同一数据块,如果该数据块损坏,多个文件都损坏78大数据的高效可靠存储解决方法分布式RAID冗余删除分布式RAID和冗余删除的简单组合不能解决问题,两个技术在很多设计决策方面有冲突在块大小的选取块长是否可变编码时机编码范围数据块的摆放系统化地将数据可用性和冗余删除技术统一考虑容2个错容量需求仅为0.9X高可用性+冗余删除✖792.大数据处理平台
80关系数据库曾经是万能的关系数据模型医院信息管理系统(HIS)临床信息系统(CIS)医学影像信息系统(PACS)ICU监护系统电子病历远程健康监护平台用药管理系统虚拟医院81关系数据模型的优点具有强大的知识表达能力能够方便地为各种对象以及对象之间的联系设计逻辑模型关系代数理论十分完备,并且易于实现支持结构化查询语言,让用户无需了解数据库的实现82传统关系数据库的特点重视关系数据模型功能的完整实现原子性、一致性、分离性和持久性(ACID)优化并发访问性能不重视设计容错的并行化执行引擎对“一次写多次读”的数据进行存储结构优化数据规模增大导致查询执行性能差的问题83大数据时代关系数据库的困境实现关系数据模型理论的全部内容,同时对所有查询做到高效执行,几乎是不可能的同样的查询,多种执行方式,如何优化执行?数据与查询在变化,不存在普适的物理存储结构和查询优化方法数据规模增大,原来高效的算法会变得低效实现事务处理要求的原子性、一致性、分离性和持久性(ACID)的开销巨大84能够并行化不意味着高可扩展性复杂分析查询结果1000小时复杂分析查询结果复杂分析查询结果1小时?1个节点100小时10个节点10小时?100个节点复杂分析查询结果1000个节点节点失效、网络中断将成为常态!执行过程中出错,传统的并行数据库将重新执行整条查询!可能永远也无法完成查询85大数据存储管理系统分类结构化存储(如关系型数据库与数据仓库):优点:数据结构良好、功能完备、速度快缺点:灵活性差、不易扩展、预处理开销大日志式存储(如HadoopHive):优点:无需预处理、灵活性强、易于扩展缺点:功能较弱,需用户介入以提供高级查询功能半结构化存储(如BigTable、Key/Value存储):优点:速度快,易于扩展,预处理开销适中缺点:功能相对较弱,介于前两者之间86例一·用电信息的大数据处理87用电信息的典型业务应用场景业务应用场景低压数据完整率统计终端通讯流量统计低压日电量计算用户负荷数据查询测试的目的比较传统Oracle数据库以及新型的大数据处理方法的性能88用电信息的大数据处理特征计算业务数据量规模十分庞大,并且随着数据获取精度的提高,数据规模增长非常迅速计算任务会涉及到不同的计算场景,即构造不同的应用来获取不同的数据进行计算计算任务会从多个数据源获得数据,并进行联合分析,做数据的交叉89新的并行计算设计范式:MapReduceCarolBobCarolAliceAliceAliceBobAliceBobCarolBobBob文件
2文件
1文件
4文件
3Map节点Map节点Map节点Map节点(Alice,4)(Bob,5)(Carol,3)(Carol,1)(Carol,1)(Bob,1)(Alice,1)(Alice,1)(Alice,1)(Bob,1)(Alice,1)(Bob,1)(Carol,1)(Bob,1)(Bob,1)中间结果写入本地磁盘Reduce节点Reduce节点Reduce节点通过网络远程读取中间结果数据混洗/归并90MapReduce+GFS与并行数据库的比较水平扩展并行数据库查询速度快(100节点以内)缺点:可扩展性差容错性差价格昂贵MapReduce+GFS高可扩展开源免费缺点:进行复杂查询时,需要专门编写代码垂直扩展网络存储结构数据处理模式91测试环境本次测试环境由6台机器构成,采用Hadoop架构,其中1台作为Master,另外5台作为Salve或RegionServer,测试通过在Master节点上执行Shell/HQL脚本以及即时查询来完成。计算节点CPU:XeonE748071.87G4核8线程共计2颗操作系统:CentOS网卡:1000M网卡内存:32GOracle测试节点配置情况两台小型机上HP安腾小型机,16路,64G内存,硬件造价在300万左右,通过OracleRAC的方式承担数据存储和数据计算的任务92测试数据记录数目某省3个月用电数据任务表:456958条低压低压测量点表:6100615条低压表记表:3400231条低压用户表:5716317条低压数据主表:3653409条低压电量数据表:464562614条终端资产表:890620条934类场景测试结果对比测试中所使用的4个场景,性能平均提升9.8倍94例二·社保系统审计大数据处理审计署全国社会保障数据采集情况
为了开展针对我国社会保障的摸底性审计工作,审计署于2012年开展了全国社会保障资金审计。
对全国各省、市、县,13种资金类别的历年社会保障数据开展了数据采集工作。数据细化到每个参保人、每个参保企业各月的缴费及支付信息。
最终获得近100T的社会保障数据。96
由于我国社会保障信息化建设呈现非常显著的“碎片化”特点,即不同地区、不同资金甚至不同年度,所采用的信息系统均不相同。
导致本次国家审计的数据采集工作涉及到几百种异构信息系统,多数信息系统包含上百张表、上千数据项。涉及Oracle、DB2、SQLServer、Sybase、MySQL、Access、FoxPro等几乎全部主流DBMS系统,也不乏Excel、Txt等利用文件管理的情况,部分地区甚至仍处于手工纸质管理阶段。社会保障数据的“碎片化”现状97划分方式
数据存储方式
险种的差异
统筹地域与行政区划的异同
社保的业务流程集中存储分散存储混合征缴管理发放社会保障数据的“碎片化”现状
社保信息系统的碎片化可按照险种、存储方式等划分的几类实际情况,其他因素包括信息化推进程度、地域执行、行业、时间等。基本养老基本医疗工伤等低保等统筹层次与区划相同统筹层次高于区划统筹层次低于区划混合98地市区划或行业划分业务流程险种森工行业企业职工基本养老保险发放数据A市职工基本医疗保险征缴数据数据采集示例-数据集中情况此图示中所代表的不同划分方式下的社保数据碎片化程度社会保障数据的“碎片化”现状
某省社保数据按照险种、行业和业务经办的不同,造成的割裂情况。99地区所含数据大小描述A市数据地税、社保、其它225GOracle数据备份A市数据财政、社保、统计155GOracle数据备份A市数据养老、工伤、医疗、失业、生育181GDB2数据库备份B市社保数据养老、工伤、医疗、失业、生育15GDB2数据库备份B市社保数据5.28GOracle数据备份C市社保数据失业、医疗、养老8GDB2数据库备份D省直社保数据社保368MOracle数据备份D省直医保数据医保10.5GOracle数据备份E省社保数据社保1.56GOracle数据备份E省医保数据医保17.7GOracle数据备份E省某市监狱管理局345MOracle数据备份E省某市社保数据社保10.5GOracle数据备份F省社保数据养老244GDB2数据库备份F省农垦数据养老34GDB2数据库备份F省农垦数据养老37.4GSybase数据库备份F省行业数据铁路/铁路集体430MExcel等F省业务数据(特派办)1.78G文本F省本级养老财务数据1.30M文本G省本级医疗财务数据537M文本G省地税征收明细数据11.7MExcel、文本等H市593MFoxpro数据库备份
部分地区数据库类型及信息管理方式的差异。社会保障数据的“碎片化”现状100政策分析模型绩效监测模型分析型监测模型合法性合规性监测模型基础数据统计业务审计、财务审计、复核审计供养比、替代率、基尼系数可持续性、政策一致性等社会保障审计监测模型体系架构审计署全国社会保障数据分析特点101例三·某省移动大数据处理2023/7/29102某省移动大数据处理任务需求描述
移动的每次业务(通话,上网,发短信)都会产生一个类似日志一样的记录,这个记录跟地理位置相关,记录了业务的详细信息。移动公司希望通过这些业务记录数据的挖掘,对服务质量,进而对基站设置、布局等提出评估和指导。
计算任务主要两部分:(1)对业务的地理位置进行定位。日志收上来之后,没有了地理位置信息,要逐条记录进行恢复,这部分计算量很大,且要求接近实时的方式完成。(2)对定位好的日志信息,进行统计,如一段时间一个地理范围内,短信的丢失率,掉话率等。统计的指标没有特别确定的条件,随时可能更改,这部分也要对用户在界面上的操作尽心快速响应。例三·某省移动大数据处理局部地县的数据【现状】配置:数据库服务器硬件配置:
HP
DL380G7
2个Intel®
Xeon®处理器
E5645
(六核
2.40
GHz,12MB三级缓存),16G内存。
操作系统:WindowsServer2003R264企业版。数据库:Oracle10.2g64位,单实例数据:1000载频的采集规模,10分钟的MR文件大小为1G,MR数据条数为300万条,可以在10分钟以内完成定位计算;例三·某省移动大数据处理省级数据超过6万载频的采集规模,10分钟的MR文件大小>60G,MR数据条数>18000万条;目前无法满足10分钟完成所有MR的定位。
selectcell_idas"小区号",totalmras"MR采样数(个)",round(totalmr*0.48/3600,3)as"话务总量(Erl)",round(sum(totalmr)*100.0/totalnum,3)as"MR采样数占比(%)"from(selectcell_id,nvl(sum(mr_num),0)totalmrfrommr_lose_crosswherebscin(6)anddate_time>=to_date('2012-03-2614:00:00','yyyy-mm-ddhh24:mi:ss')anddate_time<=to_date('2012-03-2618:50:00','yyyy-mm-ddhh24:mi:ss')groupbycell_id)a,(selectsum(mr_num)totalnumfrommr_lose_crosswherebscin(6)anddate_time>=to_date('2012-03-2614:00:00','yyyy-mm-ddhh24:mi:ss')anddate_time<=to_date('2012-03-2618:50:00','yyyy-mm-ddhh24:mi:ss'))bwheretotalnum>0groupbycell_id,totalmr,totalnumorderbytotalmrdesc指标统计时所使用的组合查询的例子:涉及到2个表的组合查询:1063.社交网络
107社交网络数据-Volume新浪1000万人每人(最多)1000条微博–5TB3亿用户~100TB还没包括评论和图片用户Profile100GB量级用户关系数亿用户,几百亿条边,100GB量级数十亿用户,几个TB量级108社交网络数据-Velocity每天新浪发出上亿条微博512*108Byte~=50GB关注关系的演化结点的增加按半年增加8000万用户估算,每天平均新增40万关注关系的增加与取消109社交网络数据-Variety微博–自然语言Profile/Tags用户关注关系–图非结构化数据微博的转发与评论关系-图110社会化网络分析举例网络的统计分析理解网络的特点,比如幂律分布,网络直径,6度联系,小世界模型等社区发现如果要做广告,给1000个人付费转发,应该请哪1000个人合适结点标记已知部分用户的特征,如何根据网络结构传播这些特征影响力分析一个用户在哪方面具有影响力…111深度社会化网络分析基于内容的分析对微博内容的分析情感分析(例如股票预测)动态网络分析引入动态信息可增加结果的准确度,例如最近添加的边比过去的边对未来的边的预测更有意义例如预测移动和联通电话的用户的流失实时分析与反馈从了解社会的行为到改善社会的互动112深入微博分析的例子:影响力测试*ABCtt-1ABCt-1t-1??问题:社会网络中是否存在影响力?那种影响力的显著的?方法:比较具有两种关系三角形,但他们具有不同的时间戳.12假设:如果P1(B->C)远大于P2(B->C),那么影响力是存在的*来自清华大学唐杰113社会化网络分析对系统软件的挑战图算法的数据局部性较差,使得数据访问开销很大一次L2/3CacheMiss要约200个时钟周期,远程访问要1000个以上的时钟周期对内存和外存都存在这个问题数据量较大,有时单机内存难以存放,I/O量大分布式系统多机聚合内存多个磁盘同时读写并行计算但图划分后由于网络的Powerlaw使得平衡的划分下通信量巨大114社会化网络分析对系统软件的挑战对增量数据的支持困难保存多份快照,浪费空间,图的结构特点使得传统删冗方法不一定适用采用Log的方法对构造某一时刻的快照时间复杂度太高基于内容的分析,实时分析与反馈微博内容量巨大,现有深入的NLP技术还不能使用,仅使用简单的关键词方法分析算法对大图速度慢、成本高,结点大时计算量巨大115大计算量举例
BetweennessCentrality–Allpairshortestpath(全点对最短路径)复杂度
O(E*V)串行算法,6467个点,26467条边的图,需要10秒数亿结点,百亿条边需要多少时间?116社会化网络分析的发展算法系统目标117解决挑战的思路三个计算机系统有关领域的结合编程抽象易于程序员表达易于运行时系统优化数据存储的格式提高访问的局部性支持增量数据运行时系统访存优化(如,预取)通信优化(如,批处理)118示例一图划分和通信优化GRACE.USENIXATC2012]把图划分为若干子图,子图内边较多,子图之间边较少,提高局部性通信进行批处理,先结点内通信,后结点间通信[PowerGraph.OSDI2012]GAS(Gatther,Apply,Scatter),拆分高度数结点119120示例二稀疏矩阵方法利用稀疏矩阵方法[Yanget.al,VLDB2011]稀疏矩阵广泛应用于有限元方法、天气预报、EDA等科学与工程计算领域社交网络可以表示为稀疏矩阵,很多重要的社交网络分析算法如PageRank,HITS都可以表达为稀疏矩阵运算原有稀疏矩阵表示方法CSR(CompressedSparseRow)等不适合于按幂律分布的社会网络稀疏矩阵121
CSR(CompressedSparseRow)122123124示例三笔记本上的图分析引擎社会网络数据大,但也不是那么大新浪微博4亿用户,关系图在内存100GB可以保存微博数据,1000万人的大约5TB[OSDI12]GraphChi通过优化对外存的访问使小内存的计算机单机系统也能进行有效的社会化网络分析数据放在硬盘上,通过排序和分片,把内存作为滑动窗口,并让对外存数据的访问都是顺序访问,而且降低读写次数125示例四对时序数据分析的存储和编程支持硬件系统使用SSD外存,内存不足以存下所需分析的图,图保存在SSD上输入系统初始快照和Log分析所需生成多个快照的规则输出在SSD上高效保存的多个快照,支持局部性优化访问SSD上多个快照的API支持预取和缓存机制的126SSD上的多快照数据布局图在SSD上的保存形式边的数组多份图快照大量数据冗余基准
+增量
D1:当n很大时,vertex的局部性会很差,要获得SSn代价很大快照组n可根据情况调整SS0SS1SSn…SS0D1Dn…SS0D1Dn-1…SSnDn+1D2n-1……Group1Group2e11e12…e1ne21e22…e2mv1v2…e11’e13’…e21’e22’…v1’v2’…127访问图的APIGraphTraversefor(partition->IterateVertices(sid,vh);vh.HasNext();vh.Next()){ uint32_tcounter=0; for(vh.IterateEdgesSnapshot(eh);eh.HasNext();eh.Next()){
eh.GetTarget(tvh); volatileuint32_tvi=tvh.index(); counter++; }}128预取和替换预取的必要性内存不够放下全图,需要从SSD上读取API给出了一定的暗示,但不足够手工预取API定义高层的抽象,实现更有效的预取编译分析for(partition->IterateVertices(sid,vh);vh.HasNext();vh.Next()){ uint32_tcounter=0; for(vh.IterateEdgesSnapshot(eh);eh.HasNext();eh.Next()){
eh.GetTarget(tvh); volatileuint32_tvi=tvh.index(); counter++; }}129持续更新图的挑战在接受图的动态更新的情况下,仍能保持局部性优化的存储,并可提供任意时刻的快照输入流优化局部性图存储系统任意时刻快照社会网络分析应用130总结社交网络分析是典型的大数据分析问题,需要处理数据的Volume,Velocity和Variety社会网络分析的主要方法是图算法,局部性、大数据量和大计算量对计算机系统提出了挑战计算机系统研究者将通过编程抽象、数据存储和运行时系统三个方面的结合来面对这些挑战131正在做什么事?132大数据存储方法大数据统计与查询系统效能评价2012201020112003美国Google公司公布了大规模分布式文件系统GFSFacebook推出了专门针对海量小文件的文件系统Haystack2006开源社区开发了Hadoop分布式文件系统HDFS发布基准测试程序集合SPECCPU2006Princeton发布多核基准测试程序套件PARSEC3.0Yahoo!提出可扩展的流处理引擎S4Yahoo!提出支持有状态的增量数据计算模式NovaGoogle提出针对离线批量处理的map/reduce编程框架2004Google开发了全球规模扩展的数据库SpannerCMU提出强调I/O能力重要性的DISC模型2007面对大数据处理,现有系统架构的不足片面强调计算与存储效能,割裂了全量数据、流式数据和离线数据Life
Cycle通过弱一致性约束提高并发度,忽略了大数据异质性带来的访问局部性差问题计算复杂性数据
复杂性系统
复杂性研究内容与思路研究现状与问题研究内容:
全周期感知的网络大数据计算系统架构体系
1331、感知、存储与计算融合的分布式系统架构2、低延迟高可靠的流式大数据计算框架与方法3、弱数据访问局部性的批量大数据处理方法包括:富语义编程模型;数据和计算双向流动理论;感知、存储与计算融合大数据分布策略与约简策略包括:系统节点弹性替代机制;细粒度的数据依赖性;资源调度与轻量的失效转移算法等包括:穿透数据访问时空局部性的大数据访问关联规则,研究贯穿整个存储器栈的数据调度算法等研究内容与思路研究现状与问题计算复杂性数据
复杂性系统
复杂性
研究内容:
全周期感知的网络大数据计算系统架构体系
针对网络大数据感知、存储、计算全生命周期,设计自适应感知、弹性存储、离线简约计算和在线增量计算融合的体系架构,并提出针对性的新型效能模型和优化方法,实现网络大数据简约感知、弹性存储与实时高效计算134示范应用一:
网络违法犯罪线索发现与行为预警北京烟台上海可达系统处理能力:每天流式数据100亿条每天数据增量30TB数据感知、存储与关联线索融合分析:PB级分布式网络大数据处理平台分析全量数据发现犯罪行为基于公安部的实际需求,在分布式全量数据资源平台上,对互联网运营商/服务商的服务端全量日志数据和社区、论坛与微博的全量社会媒体数据进行实时感知,融合离线数据与在线数据分析,发现犯罪行为线索135
示范应用二:
社会发展指数的现状感知与态势预测
数据特点新华通讯社拥有的遍布全球的实时新闻媒体数据新华舆情拥有的覆盖全国的社会舆情数据新华08拥有的国内最大规模的非结构化+结构化金融服务数据阿里云所支持的国内最大规模的网络在线商品交易数据数据类型新闻媒体数据舆情数据金融数据在线交易数据依托新华社和阿里云的重要应用背景,利用网络大数据资源,建立分布式网络大数据分析平台,实现对健康、教育、物价、环境污染等各项社会发展相关指数的现状感知与态势预测1364.海量数据处理课程137清华大学计算机系在本科生大三结束之后的暑假,为了提高学生的实践能力,特别设置专业实践暑期课程。专业实践提供了学生设计和实现比较大的系统的机会,实践老师将进行实际训练的指导,使得学生能够尽快入门。专业实践需要应用到比较复杂的软件与硬件技术,用以解决特定的问题,而不是单项知识点的教学。暑期课程概述1382007年开始开设课程,部分教材和资料由谷歌google提供,是全球第二个开展相关课程的学校相关资料可在网上查询获得/edu/parallel/index.html5个星期的专业实践课,全部时间用于做实验与项目,没有其它课程课程组织包括5次讲课,3个实验以及一个大项目先修课程为:网络原理,操作系统,以及Java编程语言基于集群的大规模数据处理139对分布式系统中的一些基本概念进行介绍,讨论在进行分布式系统设计中会涉及到的实际问题。针对真正的分布式系统的例子,例如google的分布式系统展开详细地讨论,使得学生能够获得初步的分布式系统的设计概念。另外,在课程设计中,会有很强的实践环节,学生将会通过对真正的分布式系统进行编程获得实践经验。教学目标140课程的组织5次讲课的内容课程相关论文的阅读论文讨论,提交作业3个课程相关的实验最后的大项目(FinalProject)提交计划中期报告,项目结题报告项目最后检查汇报141学生需要提交的内容作业(论文读后感,思考题等)(占总成绩20%)3个实验报告(占总成绩30%)大项目相关(占总成绩50%)大项目的建议书大项目结题报告大项目展示口头报告142课程内容与实验描述课程
1网络与分布式系统简介课程
2Map/Reduce的理论与实现课程
3分布式文件系统与Google文件系统课程
4分布式图算法与PageRank课程
5MapReduce在聚类中的应用实验0Hadoop环境的配置实验1简单的倒排表实验实验2PageRank实验实验3MapReduce在聚类上的实验143Hadoop简介HDFS,MapReduceNameNode,DataNode,JobTracker,TaskTracker,基本的HDFS文件系统的操作Ls,copyFromLocal,运行例子程序分析例子程序源代码MapReduceWordCountinJava源程序的编写,编译与执行学生手动运行例子程序LineIndexerLab0:Hadoop环境的配置144倒排表是搜索引擎的基础,在做实验之前对搜索引擎做必要介绍Step1:噪音词的识别Step2:在ShakespeareCorpus(5.4M)数据集上计算并且获得倒排表Step3:建议的扩展实验数据清理在倒排索引上完成查询程序完整的倒排索引其它的相关实验Lab1:简单的倒排表实验145Wikipedia的数据是直接从网上下载的英文原文的wikipedia的数据总的数据容量为10G各个网页之间有链接互相联系,分析链接可计算PageRank学生需要完成下面三个步骤:graphBuilder:从下载的数据中建立有向图pageRankIterator:通过MapReduce迭代进行PageRank的计算,获得每一个页面的PageRank值pageRankViewer:显示最终结果Lab2:在Wikipedia数据集上完成PageRank146数据集容量为2G,是Netflix网站上所提供的数据,为电影的标识以及用户对电影的评价。实验的目标是使用聚类算法,通过给定的记录数据,找出400个左右的相关电影的集合。聚类算法为K-Means算法加上CanopyClustering算法Lab3:在Netflix数据上的K-means与Canopy算法的设计与实现147学生可以自由选择所需要完成的大项目,并且可以按照2~3个人作为一个小组,锻炼团队能力、项目必须体现出是分布式系统相关的项目建议基于hadoop的集群进行构建项目的工作强度为全时2.5~3周时间大项目类别的举例:垂直搜索引擎,N单元的模拟,机器学习最后的大项目148小型的20个节点的集群,每个节点双路四核cpu,150GSATA硬盘两个,4GB内存,通过1G以太网络进行连接在大约15个学生之间进行共享使用最新版本的Hadoop进行实验和编程环境配置实验环境的设置149学生自由选择项目的课题,必须与分布式系统相关,建议使用hadoop集群系统完成运算学生的选题主要集中在以下三个方面垂直搜索引擎N-Body系统的模拟,离散事件模拟机器学习学生的大项目作业情况概述150专注于某一个专门类别的搜索,独立构建一个小型的搜索引擎NotebookHuntress:专门用于搜索笔记本的搜索引擎ComgIT:专门用于消费类电子产品的搜索引擎SMine水木精华区搜索:专门用于论坛的搜索IMAGESPY图片搜索引擎:从互联网上下载图片数据以及相关文本,构建图片搜索引擎大项目——垂直搜索引擎类151构建用于消费类电子产品的垂直搜索引擎,通过论坛信息的搜集和检索,为用户购买消费类电子产品提供帮助大项目展示
-ComgIT152大项目展示——NotebookHuntress构建笔记本搜索引擎153通过MapReduce针对N-Body系统进行模拟,以及对离散事件进行模拟,模拟现有的一些物理现象,进行统计特性分析等物理现象模拟(天体物理,布朗运动等)学校生活系统的模拟与统计学校商业的模拟大项目——N-Body系统的模拟,离散事件模拟类154模拟了小球的碰撞,大气物理,布朗运动,星球运动等物理现象大项目展示——物理现象的模拟y155模拟学生在校园里的活动,从而可以模拟和跟踪传染病在校园内的传播情况大项目展示
-Epidemic!156模拟学校的生活,模拟在清华学生宿舍一座小桥边卖煎饼的情况,每天的各种原料的进口以及煎饼的贩卖情况大项目展示——小桥煎饼摊模拟157通过分布式计算,扩展机器学习所能够处理数据的量音乐聚类与检索系统Netflix数据的LSI分解方法文本信息分类的方法大项目——机器学习类158WedeeplyappreciateGoogleandthegroupofHPCforprovidingsuchagreatopportunitytolearnMassDataComputingtechniques.ManythankstotheinstructorKangChenandtheTAYubingYin,fortheirwarm-heartedguideandhelp.Wehaveexperiencedagoodclassthesedays.Theprojectsareallgood,butthetimeseemstobealittleshorttofinishallthework.ManythankstoourteacherMr.ChenandTAYubing.ThisfiveweeksisaniceexperienceformeandI'venevertakenacourseinallthe3yearsthatmakesmesoenthusiasticforit.学生报告中的反馈159学生的实验情况:网络应用程序构建,物理系统的模拟,机器学习算法的并行化。“学习到很多平时课堂上学不到的知识”同学的课后总结。Google公司参与最后的评定,很多大实验项目被认为具有研究生的水平。教学效果与评价160课程对于全国高校的影响举办了有关此课程的全国著名高校研讨班,第一期:北京大学,上海交通大学,浙江大学,华中科技大学,北京科技大学第二期:北京邮电大学,北京交通大学,北京信息科技大学,北京大学,上海交通大学,复旦大学,同济大学,中山大学,华南理工大学,南京大学,东南大学,西安交通大学,中国科学技术大学,电子科技大学,兰州大学,烟台大学,大连理工大学,四川大学,天津大学,辽宁师范大学161MagneticResonanceImaging磁共振成像发生事件作者或公司磁共振发展史1946发现磁共振现象BlochPurcell1971发现肿瘤的T1、T2时间长Damadian1973做出两个充水试管MR图像Lauterbur1974活鼠的MR图像Lauterbur等1976人体胸部的MR图像Damadian1977初期的全身MR图像
Mallard1980磁共振装置商品化1989
0.15T永磁商用磁共振设备中国安科
2003诺贝尔奖金LauterburMansfierd时间MR成像基本原理实现人体磁共振成像的条件:人体内氢原子核是人体内最多的物质。最易受外加磁场的影响而发生磁共振现象(没有核辐射)有一个稳定的静磁场(磁体)梯度场和射频场:前者用于空间编码和选层,后者施加特定频率的射频脉冲,使之形成磁共振现象信号接收装置:各种线圈计算机系统:完成信号采集、传输、图像重建、后处理等
人体内的H核子可看作是自旋状态下的小星球。自然状态下,H核进动杂乱无章,磁性相互抵消zMyx进入静磁场后,H核磁矩发生规律性排列(正负方向),正负方向的磁矢量相互抵消后,少数正向排列(低能态)的H核合成总磁化矢量M,即为MR信号基础ZZYYXB0XMZMXYA:施加90度RF脉冲前的磁化矢量MzB:施加90度RF脉冲后的磁化矢量Mxy.并以Larmor频率横向施进C:90度脉冲对磁化矢量的作用。即M以螺旋运动的形式倾倒到横向平面ABC在这一过程中,产生能量
三、弛豫(Relaxation)回复“自由”的过程
1.
纵向弛豫(T1弛豫):
M0(MZ)的恢复,“量变”高能态1H→低能态1H自旋—晶格弛豫、热弛豫
吸收RF光子能量(共振)低能态1H高能态1H
放出能量(光子,MRS)T1弛豫时间:
MZ恢复到M0的2/3所需的时间
T1愈小、M0恢复愈快T2弛豫时间:MXY丧失2/3所需的时间;T2愈大、同相位时间长MXY持续时间愈长MXY与ST1加权成像、T2加权成像
所谓的加权就是“突出”的意思
T1加权成像(T1WI)突出组织T1弛豫(纵向弛豫)差别
T2加权成像(T2WI)突出组织T2弛豫(横向弛豫)差别。
磁共振诊断基于此两种标准图像磁共振常规h检查必扫这两种标准图像.T1的长度在数百至数千毫秒(ms)范围T2值的长度在数十至数千毫秒(ms)范围
在同一个驰豫过程中,T2比T1短得多
如何观看MR图像:首先我们要分清图像上的各种标示。分清扫描序列、扫描部位、扫描层面。正常或异常的所在部位即在同一层面观察、分析T1、T2加权像上信号改变。绝大部分病变T1WI是低信号、T2WI是高信号改变。只要熟悉扫描部位正常组织结构的信号表现,通常病变与正常组织不会混淆。一般的规律是T1WI看解剖,T2WI看病变。磁共振成像技术--图像空间分辨力,对比分辨力一、如何确定MRI的来源(一)层面的选择1.MXY产生(1H共振)条件
RF=ω=γB02.梯度磁场Z(GZ)
GZ→B0→ω
不同频率的RF
特定层面1H激励、共振
3.层厚的影响因素
RF的带宽↓
GZ的强度↑层厚↓〈二〉体素信号的确定1、频率编码2、相位编码
M0↑--GZ、RF→相应层面MXY
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 2025年破产企业投资权益转让合同范本
- 2025年低压电工作业人员电力线路架设测验卷及答案
- 2025年日照社区专职工作人员招聘真题及答案
- 2025商业综合体地下停车场租赁合同
- 2025关于服务租赁合同
- 市直单位党组书记2025年度抓基层党建工作述职报告
- 2025年下半年呼伦贝尔市海拉尔区事业单位招考专业技术人员易考易错模拟试题(共500题)试卷后附参考答案
- 2025年下半年吕梁市岚县招聘煤炭“三支队伍”工作人员易考易错模拟试题(共500题)试卷后附参考答案
- 2025年下半年吉林长白山保护开发区广播电视台招考合同制人员易考易错模拟试题(共500题)试卷后附参考答案
- 2025年下半年吉林炎陵新闻网招考新闻采编人员易考易错模拟试题(共500题)试卷后附参考答案
- GB/T 16895.38-2025低压电气装置第5-57部分:电气设备的选择和安装固定型蓄电池组的安装
- 2025年及未来5年中国腹膜透析液行业市场运行现状及投资战略研究报告
- 2025年家政服务员(整 理收纳师)初级技能考试复习参考题库(含答案)
- 2025年计算机专业专升本《C语言程序设计》真题解析模拟试卷,通关
- 班风学风校风主题班会课件
- 2025年工商管理硕士《管理经济学理论与应用》备考题库及答案解析
- 2025-2026学年译林版(2024)八年级上学期期中测试卷
- 2024年纪检监察应知应会试题库及参考答案版
- 2025年高速公路收费员考笔试试题及答案
- 《痛风抗炎症治疗指南(2025版)》解读
- 教育学原理 第二版 课件 马工程 第6-10章 学校教育制度-教育科学研究
评论
0/150
提交评论