大数据课堂测验2

上传人：油*** IP属地：浙江上传时间：2023-05-13 格式：DOC 页数：22 大小：936KB 积分：15 举报 版权申诉

已阅读5页，还剩17页未读，继续免费阅读

版权说明：本文档由用户提供并上传，收益归属内容提供方，若内容存在侵权，请进行举报或认领

文档简介

大数据课堂测验2大数据课堂测验221/22PAGE21第页（共3页）大数据课堂测验2PAGE1第页（共×页）中国医科大学试卷纸大数据课堂测验2简述大数据的来源与数据类型大数据的来源非常多，如信息管理系统、网络信息系统、物联网系统、科学实验系统等，其数据类型包括结构化数据、半结构化数据和非结构化数据。2、大数据产生的三个阶段（1）被动式生成数据（2）主动式生成数据感知式生成数据3、大数据处理的基本流程1．数据抽取与集成2．数据分析3．数据解释4、大数据的特征4V1OVolume，Variety，Value，Velocity，On-Line5、适合大数据的四层堆栈式技术架构6、大数据的整体技术和关键技术大数据的整体技术一般包括：数据采集、数据存取、基础架构、数据处理、统计分析、数据挖掘、模型预测和结果呈现等。大数据处理关键技术一般包括：大数据采集、大数据预处理、大数据存储及管理、开发大数据安全大数据分析及挖掘、大数据展现和应用（大数据检索、大数据可视化、大数据应用、大数据安全等）。7、新一代数据体系的分类新一代数据体系中，将传统数据体系中没有考虑过的新数据源进行归纳与分类，可将其归纳到线上行为数据与内容数据两大类别。8、EDC系统的定义临床试验电子数据采集（ElectricDataCapture，EDC）系统，在临床试验中的应用可以有效解决纸质CRF存在的问题。EDC是通过互联网从试验中心（Sites）直接远程收集临床试验数据的一种数据采集系统。9、EDC系统的基本功能数据录入、数据导出、试验设计、编辑检查、操作痕迹、系统安全、在线交流、医学编码和支持多语言。10、EDC系统的优点（1）提高了临床研究的效率，缩短了临床研究周期（2）通过逻辑检查提高了数据质量（3）对研究质量的监测更加方便11、大数据采集的数据来源大数据的三大主要来源为商业数据、互联网数据与传感器数据。12、网络数据采集和处理的四个主要模块网络爬虫（Spider）、数据处理（DataProcess）、URL队列（URLQueue）和数据（Data）。13、大数据集成在大数据领域中，数据集成技术也是实现大数据方案的关键组件。大数据中的集成是将大量不同类型的数据原封不动的保存在原地，而将处理过程适当的分配给这些数据。这是一个并行处理的过程，当在这些分布式数据上执行请求后，需要整合并返回结果。14、数据集成时应解决的问题数据集成时应解决的问题包括数据转换、数据的迁移、组织内部的数据移动、从非结构化数据中抽取信息和将数据处理移动到数据端。15、网络数据处理的四个模块及主要功能分词（WordsAnalyze）、排重（ContentDeduplicate）、整合（Integrate）和数据，如图2-17所示。这四个模块的主要功能如下。1）分词：对抓取到的网页内容进行切词处理。2）排重：对众多的网页内容进行排重。3）整合：对不同来源的数据内容进行格式上的整合。4）数据：包含两方面的数据，SpiderData和DpData。16、大数据建模概念大数据建模是为了理解事物而对事物做出的一种抽象，是对事物的一种无歧义的书面描述。17、大数据分析模式分类根据实时性，可分为在线分析和离线分析根据数据规模，可分为内存级、BI级和海量级根据算法复杂度的分类18、大数据建模流程定义问题、数据理解、数据准备、模型建立、模型评估、模型更新与结果部署等。19、大数据建模应遵循的规律以业务目标作为实现目标业务知识是每一步的核心做好数据预处理试验对寻找解决方案是必要的数据中总含有模式数据挖掘增大对业务的认知预测提高了信息作用能力大数据建模的价值不在于预测的准确率模式因业务变化而变化20、数据可视化的概念数据可视化技术是指运用计算机图形学和图像处理技术，将数据转换为图形或图像，然后在屏幕上显示出来，利用数据分析和开发工具发现其中未知信息的交互处理的理论、方法和技术。21、数据可视化流程22、数据可视化工具的特性1）实时性2）简单操作3）更丰富的展现4）多种数据集成支持方式23、数据可视化在生物领域中的应用测序数据可视化分子结构数据可视化关系网络可视化临床数据可视化24、Hadoop优点1）可扩展（Scalable）2）低成本（Economical）3）高效率（Efficient）4）可靠（Reliable）25、Hadoop的核心模块HDFS、MapReduce、Common及YARN，其中HDFS提供了海量数据的存储，MapReduce提供了对数据的计算，Common为在通用硬件上搭建云计算环境提供基本的服务及接口，YARN可以控制整个集群并管理应用程序向基础计算资源的分配。26、YARN的基本设计思想将MapReduce中的JobTracker拆分成了两个独立的服务：一个全局的资源管理器ResourceManager和每个应用程序特有的ApplicationMaster。其中ResourceManager负责整个系统的资源管理和分配，而ApplicationMaster则负责单个应用程序的管理。27、HiveHive最早是由Facebook设计，基于Hadoop的一个数据仓库工具，可以将结构化的数据文件映射为一张数据库表，并提供类SQL查询功能。28、HBaseHBase即HadoopDatabase，是一个分布式、面向列的开源数据库。HBase主要用于需要随机访问、实时读写的大数据。29、AvroAvro是一个数据序列化系统。类似于其他序列化机制，Avro可以将数据结构或者对象转换成便于存储和传输的格式，其设计目标是用于支持数据密集型应用，适合大规模数据的存储与交换。30、ChukwaChukwa是开源的数据收集系统，用于监控和分析大型分布式系统的数据。31、PigPig是一个对大型数据集进行分析和评估的平台。32、Spark原理Spark是一个开源的通用并行分布式计算框架，由加州大学伯克利分校的AMP实验室开发，支持内存计算、多迭代批量处理、流处理和图计算等多种范式。Spark基于MapReduce算法实现的分布式计算，拥有MapReduce所具有的优点；但不同于MapReduce的是Job中间输出和结果可以保存在内存中，从而不再需要读写HDFS，因此Spark能更好地适用于数据挖掘与机器学习等需要迭代的MapReduce的算法。33、Spark的优点轻量级快速处理支持多语言支持复杂查询实时的流处理可以与Hadoop数据整合34、HDFS的设计目标高效的硬件响应流式数据访问大规模数据集简单的一致性模型异构软硬件平台间的可移植性35、HDFS架构——解释下图答案在P107-P10836、以一个文件FileA（大小100MB）为例，说明HDFS的工作原理。读操作流程写操作流程答案在P109-P11137、HDFS的4类源代码基础包实体实现包应用包WebHDFS相关包38、MapReduceMapReduce是一个针对大规模群组中海量数据处理的分布式编程模型。39、HDFS接口远程过程调用接口与客户端相关接口HDFS各服务器间的接口40、HDFS和MapReduce的关系HDFS在集群上实现了分布式文件系统，MapReduce在集群上实现了分布式计算和任务处理。HDFS在MapReduce任务处理过程中提供了对文件操作和存储的支持。MapReduce在HDFS的基础上实现任务的分发、跟踪、执行等工作，并收集结果。41、MapReduce技术特征易于使用良好的伸缩性大规模数据处理42、MapReduce工作机制答案在P116-P11743、MapReduce执行流程Map（映射）和Reduce（化简）是它的主要思想，Map负责将数据打散，Reduce负责对数据进行聚集，用户只需要实现Map和Reduce两个接口，即可完成TB级数据的计算。向MapReduce框架提交一个计算作业时，它会首先进行Split（分片），将File（文件）分配为多个数据片段，保证作业的并行效率。然后Map把计算作业拆分成若干个Map任务，然后分配到不同的结点上去执行，每一个Map任务处理输入数据中的一部分。当Map任务完成后，它会生成一些中间文件，把这些文件重新组织作为Reduce阶段的输入，该过程称为Shuffle（洗牌），洗牌的操作一般包含本地化混合、分区、排序、复制及合并。Reduce任务的主要目标就是把前面经过洗牌的文件汇总到一起并输出。44、CommonCommon为Hadoop的其他模块提供了一些常用工具程序包，主要包括系统配置工具Configuration、远程过程调用RPC、序列化机制和Hadoop抽象文件系统FileSystem等。在通用硬件上搭建云计算环境提供基本的服务，同时为软件开发提供了API。45、大数据的一致性策略CAP，即一致性（Consistency）、可用性（Availability）和分区容错性（PartitionTolerance）46、大数据分区技术通过一定的规则将超大型表分割成若干小块来分别处理。表进行分区时需要使用分区键来标志每一行属于哪一个分区，分区键以列的形式保存在表中。47、几种常见的数据分区算法范围分区列表分区哈希分区48、分布式环境下的数据缓存技术特点高性能动态扩展性高可用性易用性49、NoSQL数据库种类键值（Key-Value）存储列存储（Column-Oriented）文档（Document-Oriented）存储图形存储（Graph-Oriented）。50、四种类型NoSQL的特点及典型产品存储类型特性典型工具键值存储可以通过键快速查询到值，值无需符合特定格式Redis列存储可存储结构化和半结构化数据，对某些列的高频率查询具有很好的I/O优势Bigtable、Hbase、Cassandra文档存储数据以文档形式存储，没有固定格式CouchDB、MongoDB图形存储以图形的形式存储数据及数据之间的关系Neo4J51、BigtableBigtable是Google开发的一个分布式结构化数据存储系统，运用按列存储数据的方法，是一个未开源的系统。52、Bigtable数据库的架构答案在P135.53、Bigtable数据库特点适合大规模海量数据，PB级数据。分布式、并发数据处理，效率极高。易于扩展，支持动态伸缩。适用于廉价设备。适合于读操作，不适合写操作。不适用于传统关系型数据库。54、云计算定义云计算是一种用于对可配置共享资源池（网络、服务器、存储、应用和服务）通过网络方便的、按需获取的模型，它可以以最少的管理代价或以最少的服务商参与，快速地部署与发布。55、云计算基本特征规模经济性强大的虚拟化能力高可靠性高可扩展性通用性强按需服务价格低廉支持快速部署业务56、云计算服务模式基础设施即服务（IaaS）、平台即服务（PaaS）、软件即服务（SaaS）是云计算的三种应用服务模式57、云计算部署模式公有云、私有云和混合云58、虚拟化技术把有限的、固定的资源根据不同需求进行重新规划以达到最大利用率的思路，在IT领域就称为虚拟化技术。59、云计算数据中心的构成云计算数据中心本质上由云计算平台和云计算服务构成60、云计算安全关键技术可信访问控制密文检索与处理数据存在与可使用性证明数据隐私保护虚拟安全技术云资源访问控制可信云计算61、大数据解决方案系统架构及各层功能平台层：其中的大数据存储平台提供大数据存储服务，大数据计算平台提供大数据计算服务，多数据中心调度引擎为多区域智能中心的分析架构提供数据调度服务。功能层：包括大数据集成、存储、管理和挖掘部分，各部分为大数据存储和挖掘提供相应功能。服务层：基于Web技术和OpenAPI技术提供大数据最终的展现服务。62、医学大数据的种类医院医疗大数据区域卫生信息平台大数据基于大量人群的医学研究或疾病监测大数据自我量化大数据网络大数据生物信息大数据63、大数据挖掘与传统数据挖掘方法的区别传统数据挖掘大数据挖掘样本数量少量数据样本分析与事物相关的所有数据，研究的样本数量趋近于总体数量事物之间的关系遵循事物之间的因果关系寻找事物之间的相关关系追求的目标追求绝对的准确性追求效率和趋势挖掘方式采集方法，内容分类，采信标准等都已存在即有规则，方法论完整挖掘新鲜事物，还没有形成清晰的方法、路径及评判标准64、医学大数据挖掘的特点医学数据挖掘隐私性医学数据的多样性医学数据的不完整性医学数据的冗余性医学数据的动态性65、医学大数据挖掘的主要方法自动疾病预测趋势和行为关联分析聚类分析模糊系统与进化算法66、医学大数据挖掘的应用方向临床决策支持系统医疗数据透明度医学图像挖掘生物信息学——DNA分析公众健康67、基于互联网大数据生物监

人人文库> 全部分类> 行业资料 > 信息产业

温馨提示

1. 本站所有资源如无特殊说明，都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
2. 本站的文档不包含任何第三方提供的附件图纸等，如果需要附件，请联系上传者。文件的所有权益归上传用户所有。
3. 本站RAR压缩包中若带图纸，网页内容里面会有图纸预览，若没有图纸预览就没有图纸。
4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
5. 人人文库网仅提供信息存储空间，仅对用户上传内容的表现方式做保护处理，对用户上传分享的文档内容本身不做任何修改或编辑，并不能对任何下载内容负责。
6. 下载文件中如有侵权或不适当内容，请与我们联系，我们立即纠正。
7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

大数据课堂测验2

文档简介

温馨提示

最新文档

评论

大数据课堂测验2

文档简介

温馨提示

最新文档

评论

相关文档