大数据技术与应用习题及答案汇张贵炜第1-10章

上传人：y*** IP属地：山东上传时间：2026-03-30 格式：DOCX 页数：26 大小：41.62KB 积分：50 举报 版权申诉

已阅读5页，还剩21页未读，继续免费阅读

版权说明：本文档由用户提供并上传，收益归属内容提供方，若内容存在侵权，请进行举报或认领

文档简介

第一章课后习题答案：1.大数据的发展经历了哪些主要阶段？大数据的发展主要经历了4个阶段，分别为萌芽阶段、突破阶段、成熟阶段和大规模应用阶段。2.简述大数据的发展趋势（1）大数据与物联网、人工智能技术深度融合（2）人工智能技术助力数据要素配置进一步市场化（3）云计算和边缘计算将进一步融合（4）大数据存储需求刺激云和混合云平台创新，以及数据湖的增长（5）持续增强数据可视化和叙事能力（6）数据隐私与道德规范将受到更多关注3.大数据的特征有哪些？大数据5V特征如下：（1）Volume（数据量大）（2）Variety（数据类型繁多）（3）Velocity（处理速度快）（4）Veracity（真实性）（5）Value（低价值密度）4.大数据的商业价值主要体现在哪些方面？试举例说明。（1）大数据技术帮助企业进行精准的市场营销。（2）运用大数据模拟实境发掘新需求和提高投入回报率（3）大数据能够为企业提供强大的决策支持（4）大数据驱动商业模式、产品和服务的创新发展例如：电商平台如亚马逊利用用户浏览和购买记录，推荐相关商品，提高销售额。零售企业如沃尔玛通过分析销售数据，预测需求，优化库存管理。电信公司通过分析客户通话和投诉数据，提供个性化服务，减少客户流失。5.大数据的主要来源有哪些？大数据主要来源于以下几个方面。（1）互联网大数据。随着互联网的普及和数字化进程的加速，用户在互联网上的行为、交互和交易产生了海量数据，为大数据分析提供了丰富的资源。（2）传统行业大数据。传统行业在数字化转型过程中也产生了大量数据，这些数据成为大数据的重要组成部分。传统行业通常指些固定的行业，如电信、银行、金融、医疗、教育、电力等行业。（3）移动设备和物联网。移动设备上的应用软件可以收集用户的位置信息、使用习惯、消费行为等数据，这些数据可以用于优化产品设计、推广产品和服务等方面。随着物联网的快速发展，越来越多的传感器被应用于各个领域，感知和记录各种物理量，这类数据体量大，且具有实时性。（4）企业和政府数据。企业和政府机构在日常运营和管理过程中产生了大量的数据。这类数据具有较高的可信度和完整性，为大数据分析提供了可靠的基础。6.大数据的分析过程包括哪些环节？大数据的分析过程一般包括大数据采集、大数据存储、大数据分析、大数据可视化。第2章习题1.Linux下如何设置和切换到root用户。sudo-ipasswdroot2.Linux下的主要配置文件在哪个目录下？并找出配置网络和环境变量的相应文件阅读。主要在/etc目录下，/etc/netplan和/etc/profile为两个主要配置文件3.在Linux中，系统管理员（root）状态下的提示符是否和普通用户一样。不一样，root下是#，普通用户是$4.如何快速跳转到指定文件的目录。使用cd命令5.想要终止当前Linux命令的执行，需要使用哪个快捷键？Ctrl+c快捷键6.Ubuntu下安装软件，需要使用什么命令？apt-getinstall命令7.Ubuntu下使用终端的快捷命令是什么？Ctrl+alt+t第3章习题1.Hadoop中的核心配置文件有哪些？核心配置文件有hadoop-env.sh和yarn-env.sh2.Hadoop3.1.3中的block大小为多少？HDFS数据块的默认大小是128M3.格式化HDFS的命令是什么？hdfsnamenode–format4.简述shuffle的工作原理。shuffle的工作原理是将数据集划分为若干个小的数据块，每个数据块包含若干个数据记录。然后，对这些数据块进行重新排列，使每个数据块的数据记录都混合在一起，不同数据块之间的顺序也被打乱。这样做是为了确保随机的分布式处理，使每个节点都可以处理不同的数据，从而减轻整个系统的压力。同时，每个处理节点也可以对自己所处理的数据块进行shuffle操作，以便更好地优化数据的传输和计算效率。总之，shuffle的目的是优化数据处理效率，使整个系统变得更加高效和灵活。5.Zookeeper实现数据发布/订阅的机制是什么？‌ZooKeeper通过其Watcher机制实现数据的发布与订阅‌。在分布式系统中，服务节点可以注册监听某个ZNode，当新的配置写入该ZNode时，所有服务节点都会收到事件通知，从而实现配置的集中管理和动态更新‌。具体实现方式：‌发布者‌：发布者在ZooKeeper中创建或更新节点，表示发布新的数据或事件。当节点数据发生变化时，所有监听该节点的订阅者都会收到通知‌。‌订阅者‌：订阅者监听特定的ZooKeeper节点。当节点的数据发生变化或子节点发生变化时，订阅者会收到通知并进行相应的处理‌。第4章习题1.数据的定义是什么？数据（data）是对客观事物的逻辑归纳，是对客观事物的性质、状态以及相互关系等进行记载的物理符号或这些物理符号的组合。数据是进行各种统计、计算、科学研究或技术设计等所依据的数值（是反映客观事物属性的数值），是表达知识的字符的集合。2.常见的数据类型有哪些？在宏观角度下，数据类型主要分为定性数据和定量数据两种。按表现形式，数据还可以分为数字数据和模拟数据。3.数据采集的数据源有哪些？传感器数据、互联网数据、日志数据和企业业务系统数据是数据采集的常见来源。4.典型的数据分析过程包括哪些？典型的数据分析过程包括：数据采集与预处理、数据存储与管理、数据处理与分析、数据建模、数据可视化等，具体如下：（1）数据采集与预处理：从各种来源（数据库、文件、网络等）获取数据，并确保数据的完整性和准确性。清理数据中的错误、缺失或不一致的部分，填补缺失值，去除重复数据等。还需对数据进行格式转换、规范化、标准化等操作，以便后续分析使用。（2）数据存储与管理：将清洗和转换后的数据存储到合适的数据库、数据仓库或数据湖中，以便后续安全的访问和有效使用，充分有效地发挥数据的作用。（3）数据处理与分析：对数据进行初步探索和分析，了解数据的特征、分布和相关性。（4）数据建模：应用统计分析、机器学习等技术建立数据模型，发现数据之间的规律和关联，运用数据挖掘技术从数据中发现隐藏的模式、趋势或规律。（5）数据可视化：将分析结果以图表、图形、地图等形式进行可视化呈现，以便更直观地理解数据。提供交互式的可视化界面，让用户可以自由地探索数据、调整参数和进行比较分析。5.介绍三种常见的数据采集工具。数据采集工具或软件是用于从不同的数据源收集数据，并将其转换为可用于分析、处理或存储的格式的工具。常见的数据采集工具和软件有WebScraper.io，Import.io，Scrapy，ApacheNutch，DataMiner，ApacheKafka，Flume。第5章习题答案一、单项选择题1．下列哪项不是NoSQL数据库的特点（C）。A．灵活的数据模型 B．高扩展性C．强事务支持 D．最终一致性2．BASE原则中的“S”指的是（B）。A．StrongConsistency B．Soft-stateC．Scalability D．StructuredData3．在HBase的数据模型中，唯一标识一行数据的字段是（C）。A．列族（ColumnFamily） B．时间戳（Timestamp）C．行键（RowKey） D．列限定符（Qualifier）4．以下哪种数据库最适合存储社交网络中的好友关系（C）。A．键值数据库 B．文档数据库C．图数据库 D．列族数据库二、问答题1．简述NoSQL数据库与关系数据库的核心差异。答：数据模型：NoSQL支持灵活模式（如键值、文档），关系型为固定表结构。扩展性：NoSQL水平扩展易，关系型垂直扩展为主。事务：NoSQL弱化ACID，强调BASE；关系型强事务。一致性：NoSQL支持最终一致性，关系型强一致性。2．解释BASE原则的组成及其设计目标。答：组成：基本可用（服务降级）、软状态（允许中间态）、最终一致性。目标：通过牺牲强一致性，实现高可用性和扩展性，适应分布式场景。3．列举一种HBase的典型应用场景，并说明其技术优势。答：（1）实时日志分析：高写入吞吐量，支持时间戳版本查询。（2）用户画像存储：稀疏列动态扩展，灵活存储用户属性。三、综合应用题1．场景设计。某电子商务平台需要存储以下数据。（1）用户购物车信息（实时更新，高并发读写）；（2）商品评论（包含用户ID、评论内容、时间戳等字段）；（3）商品间的关联推荐关系（如“买了A商品的用户也买了B商品”）。请分别为这三类数据选择合适的NoSQL数据库类型（键值数据库、列族数据库、文档数据库、图数据库），并说明理由。答：（1）购物车：键值数据库（如Redis），支持高并发读写。（2）商品评论：文档数据库（如MongoDB），动态字段易扩展。（3）关联推荐：图形数据库（如Neo4j），高效处理关系网络。2.案例分析某物流公司使用HBase数据库存储车辆轨迹数据，行键设计为“车牌号+时间戳”。分析该行键设计的优缺点。答：优点：按时间排序，便于范围查询。缺点：同一车牌数据集中，可能引发写入热点。第6章习题答案1.定义并解释大数据的三个特性，并给出一个现实世界中体现这三个特性的案例。阐述业务理解与数据认知阶段在大数据分析过程中的重要性，并举例说明如何在这阶段进行需求分析和数据特征提取。特性：数据规模大（Volume）：指数据量巨大，通常达到TB、PB甚至EB级别。数据类型多样（Variety）：包括结构化、半结构化和非结构化数据，如文本、图片、视频等。数据处理速度快（Velocity）：数据生成和处理的速度快，需要实时或准实时分析。案例：社交媒体平台Volume：每天产生海量用户行为数据（如发帖、评论、点赞）。Variety：数据包括文本、图片、视频、用户行为日志等多种类型。Velocity：需要实时处理用户行为数据，以提供个性化推荐和实时趋势分析。重要性：避免盲目分析：明确业务目标（如提高用户留存率）可聚焦分析方向。数据可行性验证：确认数据是否存在缺失或偏差（如用户画像中的年龄字段缺失率过高）。需求分析与特征提取示例：在零售行业分析用户复购率时：需求分析：与业务部门讨论定义“复购率”计算逻辑（如30天内重复购买）。数据特征提取：提取用户ID、购买时间、商品类别等字段，识别关键特征（如购买频次、品类偏好）。解释数据预处理和清洗在大数据分析中的作用，并列出三种常用的数据清洗方法。作用：提高数据质量，确保后续分析的准确性。处理缺失值、异常值、重复值等问题。常用方法：缺失值处理：删除缺失值样本，或用均值、中位数填充。重复值去重：移除完全相同的记录。异常值检测与处理：使用统计方法（如Z-score）检测异常值，并进行修正或删除。数据转换：如归一化、标准化，使数据适合建模。特征选择：选择最相关的特征，减少维度。数据编码：将分类数据转换为数值数据（如独热编码）。描述Spark在内存计算和并行处理上的优势，并给出一个Spark在实时流处理中的具体应用场景。优势：（1）内存计算的优势Spark的核心设计通过内存计算显著提升了数据处理效率，主要优势包括：减少磁盘I/O开销：与传统MapReduce（每个阶段需读写磁盘）不同，Spark将中间数据缓存在内存中，避免了频繁的磁盘操作，尤其适合迭代式任务（如机器学习训练）和交互式查询。高效的DAG调度：通过有向无环图（DAG）优化任务执行流程，将多个操作合并为更少的阶段（Stage），减少任务调度开销。例如，`filter`、`map`、`join`操作可能被合并为一个阶段。支持复杂计算：内存计算使Spark能够高效处理需要多次数据重用的场景（如图计算、SQL查询），性能比MapReduce提升数倍甚至百倍。（2）并行处理的优势自动数据分片：数据被划分为多个分区（Partition），分布到集群节点并行处理，如读取HDFS文件时自动按块分片。动态资源调度：结合资源管理器（如YARN、Kubernetes），Spark可动态分配资源，根据负载调整任务并行度，提升集群利用率。丰富的并行操作：支持`map`、`reduce`、`join`等并行操作，结合宽窄依赖优化，避免不必要的Shuffle（如`broadcastjoin`减少数据传输）。Spark在实时流处理中的具体应用场景：金融交易实时反欺诈检测（1）数据源：实时交易流水（如信用卡交易、转账记录）通过消息队列（如Kafka）持续输入，每秒处理数万条交易。（2）处理流程：流式接入：SparkStructuredStreaming从Kafka读取数据，按事件时间（EventTime）窗口（如5秒微批次）处理。特征计算：实时提取交易特征（如单笔金额、近期交易频率、地理位置突变）。模型推理：加载预训练的机器学习模型（如随机森林、深度学习），实时对交易进行风险评分。动态规则引擎：结合规则（如单日累计金额超限、异常IP地址）与模型结果，触发风险警报。（3）输出与响应：高风险交易实时拦截，并推送告警至风控系统。统计结果（如每分钟欺诈交易数）写入Elasticsearch，供实时仪表盘展示。（4）技术优势：低延迟：StructuredStreaming支持毫秒级延迟的连续处理模式（ContinuousProcessing）。容错性：通过Checkpoint和WAL（Write-AheadLog）保证Exactly-Once语义。扩展性：水平扩展应对流量峰值，如“双十一”或突发交易高峰。使用SparkSQL或Pig脚本，创建一个Hive表，并加载CSV数据。然后，编写一个查询来计算某个字段的平均值。#初始化SparkSessionfrompyspark.sqlimportSparkSessionspark=SparkSession.builder\.appName("CSVtoHive")\.enableHiveSupport()\.getOrCreate()#读取CSV文件csv_file_path="hdfs://path/to/your/file.csv"df=spark.read.csv(csv_file_path,header=True,inferSchema=True)#创建Hive表spark.sql("""CREATETABLEIFNOTEXISTSyour_database.your_table(column1STRING,column2INT,column3FLOAT)ROWFORMATDELIMITEDFIELDSTERMINATEDBY','STOREDASTEXTFILE""")#将数据写入Hive表df.write.mode('append').insertInto("your_database.your_table")#查询字段平均值result_df=spark.sql("SELECTAVG(column3)FROMyour_database.your_table")result_df.show()使用SparkMLlib进行一个简单的分类任务，如鸢尾花数据集的KNN分类，解释每一步操作的目的。（1）数据加载与预处理```pythonfrompyspark.ml.featureimportVectorAssembler#加载鸢尾花数据集（假设已转换为DataFrame）data=spark.read.csv("iris.csv",header=True,inferSchema=True)#合并特征列assembler=VectorAssembler(inputCols=["sepal_length","sepal_width","petal_length","petal_width"],outputCol="features")data=assembler.transform(data)```目的：将原始特征合并为模型可处理的向量格式。（2）划分训练集与测试集```pythontrain,test=data.randomSplit([0.8,0.2],seed=42)```**目的**：评估模型泛化能力。（3）模型训练（以KNN为例）```python#注：SparkMLlib未原生支持KNN，需自定义或使用扩展库（如SparkKNN）fromspark_sklearn.knnimportKNNClassifierknn=KNNClassifier(k=3,labelCol="species")model=knn.fit(train)```目的：基于邻居投票机制进行分类。（4）预测与评估```pythonpredictions=model.transform(test)frompyspark.ml.evaluationimportMulticlassClassificationEvaluatorevaluator=MulticlassClassificationEvaluator(labelCol="species")accuracy=evaluator.evaluate(predictions)print(f"Accuracy:{accuracy}")```目的：量化模型性能。在数据建模阶段，解释如何进行数据转换，包括归一化、标准化和特征编码，以及在哪些情况下使用这些方法。方法及适用场景（1）归一化（Min-MaxScaling）操作：将特征缩放到[0,1]区间，公式：场景：特征尺度差异大且模型对距离敏感（如KNN、神经网络）。（2）标准化（Z-ScoreScaling）操作：使特征均值为0、标准差为1，公式：场景：假设数据服从正态分布（如SVM、线性回归）。（3）特征编码类别编码（One-HotEncoding）：将类别变量转换为二进制向量（如“颜色”字段的“红/绿/蓝”变为[1,0,0]、[0,1,0]等）。场景：非序类别特征（如决策树、逻辑回归）。标签编码（LabelEncoding）：将类别映射为整数（如“高/中/低”变为0/1/2）。场景：有序类别特征（如树模型）。分析一个实际案例，说明如何使用SparkStreaming进行实时数据分析，例如实时监控网络流量或用户行为。案例：实时检测DDoS攻击（1）数据源：网络设备（如防火墙）通过Kafka发送流量日志（源IP、目标IP、字节数、时间戳）。（2）处理流程：流式接入：```pythonfrompyspark.sql.functionsimportwindowdf=spark.readStream.format("kafka").option("kafka.bootstrap.servers","host:9092").load()```解析与聚合：```python#按源IP统计每分钟流量aggregated=df.groupBy(window("timestamp","1minute"),"source_ip").agg(sum("bytes").alias("total_bytes"))```异常检测：```python#定义阈值（如单IP流量超过1GB/分钟）alerts=aggregated.filter("total_bytes>1073741824")```输出与响应：实时告警写入Elasticsearch，触发防火墙自动封禁IP。流量趋势可视化在Grafana仪表盘。8.针对实时推荐系统，提出一种新的基于Spark的用户兴趣建模算法，并解释其改善推荐效果的原理。算法：基于实时行为数据的用户兴趣建模原理：实时行为采集：通过SparkStreaming实时收集用户行为数据（如点击、购买）。兴趣特征提取：从行为数据中提取用户兴趣特征（如商品类别、浏览时长）。兴趣模型更新：使用增量学习算法（如FTRL）实时更新用户兴趣模型。个性化推荐：根据最新兴趣模型，生成个性化推荐列表。改善推荐效果的原理：实时性：及时捕捉用户兴趣变化，避免兴趣漂移。增量学习：利用新数据持续优化模型，提高推荐准确性。第7章习题答案1.Hive中的内部表和外部表有什么区别？答案内部表（ManagedTable）数据所有权：创建一个内部表时，Hive会将数据移动到其自身的仓库目录下（通常是/user/hive/warehouse/），这意味着Hive对这些数据拥有完全的控制权。生命周期管理：如果删除了一个内部表，不仅表的元数据会被删除，实际存储的数据也会从HDFS中移除。使用场景：希望Hive完全负责数据的生命周期管理时使用，适用于那些只在Hive中使用的数据。外部表（ExternalTable）数据所有权：外部表允许指定数据的位置，数据可以存储在任何HDFS位置。Hive不会将数据移动到自己的仓库目录下，而是直接读取指定位置的数据。生命周期管理：删除一个外部表，只有表的元数据会被删除，而表对应的实际数据不会被删除。这对于需要共享数据或者数据还需要被其他应用程序访问的情况非常有用。灵活性：外部表提供了更高的灵活性，因为它们允许你在不改变原始数据位置的情况下查询数据，并且不影响数据的其他用途。2.假设你正在处理一个大型电子商务平台的日志数据，这些日志记录了用户的浏览行为、购买行为等信息。为了分析用户的行为模式，你决定使用Hive来处理这些数据。你的目标是查询那些在过去一个月内至少购买过一次商品，并且在购买前浏览过该商品详情页的用户。已知表结构如下：user_logs（用户日志表）包含以下字段：user_id（用户ID）、event_type（事件类型，如'view'表示浏览，'purchase'表示购买）、product_id（产品ID）、event_time（事件时间）数据量：大约有10亿条记录请根据以上描述设计一个高效的Hive查询语句，并简述你在查询中采用了哪些优化策略以提高执行效率。答案Hive查询语句WITHpurchase_eventsAS(SELECTuser_id,product_id,event_timeaspurchase_timeFROMuser_logsWHEREevent_type='purchase'ANDevent_time>=DATE_SUB(CURRENT_DATE,30)--过去一个月的数据),view_eventsAS(SELECTuser_id,product_id,event_timeasview_timeFROMuser_logsWHEREevent_type='view')SELECTDISTINCTp.user_idFROMpurchase_eventspJOINview_eventsvONp.user_id=v.user_idANDduct_id=duct_idWHEREv.view_time<=p.purchase_time;采用的优化策略分区：user_logs按照event_time进行分区，在查询时仅选择相关的分区（例如过去一个月的数据）。这样可以显著减少需要扫描的数据量。字段选择：只选择必要的字段（如user_id,product_id,event_time），而不是整个行的所有字段。这样做可以减少I/O操作，加快查询速度。JOIN条件优化：确保JOIN操作尽可能高效，比如通过限定user_id和product_id相同以及浏览时间早于或等于购买时间来缩小匹配范围。索引和桶：利用桶排序（bucketing）、分区等技术来加速查询。3.创建一个名为sales的表，该表记录了一个在线零售商店的所有销售记录。表结构如下：transaction_id:每笔交易的唯一标识符(INT)customer_id:顾客的唯一标识符(INT)product_id:商品的唯一标识符(INT)quantity:购买的商品数量(INT)price:单价(FLOAT)transaction_date:交易日期(STRING,格式为'YYYY-MM-DD')编写一个关于以下问题的Hive查询：计算2024年每个季度中销量最高的前5种商品（根据购买的数量），并列出这些商品在对应季度的总销售额（单价*数量）。答案--创建sales表CREATETABLEIFNOTEXISTSsales(transaction_idINT,customer_idINT,product_idINT,quantityINT,priceFLOAT,transaction_dateSTRING);--计算每个季度销量最高的前5种商品及其总销售额WITHquarterly_salesAS(SELECTproduct_id,QUARTER(TO_DATE(transaction_date))ASquarter,--提取交易日期所在的季度SUM(quantity)AStotal_quantity,--统计每种商品的总销量SUM(quantity*price)AStotal_sales--计算每种商品的总销售额FROMsalesWHEREYEAR(TO_DATE(transaction_date))=2024--仅计算2024年的数据GROUPBYproduct_id,QUARTER(TO_DATE(transaction_date))),ranked_productsAS(SELECTquarter,product_id,total_quantity,total_sales,ROW_NUMBER()OVER(PARTITIONBYquarterORDERBYtotal_quantityDESC)ASrankFROMquarterly_sales)SELECTquarter,product_id,total_quantity,total_salesFROMranked_productsWHERErank<=5ORDERBYquarter,rank;第8章数据可视化1.数据可视化分析之前，我们要对数据进行哪些处理?数据加工和处理2.在营销数据可视化分析中，产品的市场份额、用户的分布情况可以使用哪种图表？饼图或堆积图（答案不唯一）3.FineBI这类采用自助数据分析模式的软件与传统BI软件相比，优势体现在哪些方面?FineBI自助式BI使业务人员能够根据自己的需求查询和分析数据，从而做出决策，无需要让IT团队创建大多数报告或者减少沟通次数；提高灵活性和效率可以帮助业务用户和部门更快地根据数据洞察采取行动，为企业数据化决策运营提供强有力的支撑。某企业现有回款金额、合同金额、省份、城市、门店字段的数据，我们要对这一数据表进行分析，统计不同省市所有分店的合同金额，并在分组表中进行展示，如何在FineBI软件中实现这一可视化?选择分组表，将省份、城市、门店分别拖入维度栏，将合同金额拖入指标栏。第10章大数据安全大数据安全的法律法规有哪些？书中已列举了一些，你能否再列举一些？答：大数据安全的法规和政策旨在保护个人隐私、确保数据安全、促进数据的合法使用，并平衡数据利用与安全之间的关系。以下是中国及国际上主要的大数据安全法规和政策框架：一、中国的大数据安全法规与政策（1）《数据安全法》（2021年9月1日生效）核心内容：确立数据分类分级保护制度，对重要数据实行严格管理。要求数据处理活动符合社会公共利益，不得危害国家安全。规定跨境数据流动的安全评估要求。（2）《个人信息保护法》（2021年11月1日生效）核心内容：明确个人信息处理的“最小必要”原则和知情同意原则。对敏感个人信息（如生物识别、医疗健康等）实施更严格保护。限制跨境传输个人信息，需通过安全评估或认证。（3）《网络安全法》（2017年6月1日生效）核心内容：要求关键信息基础设施运营者（CIIO）将境内产生的数据本地化存储。规定网络运营者需履行数据保护义务，防止泄露、篡改、丢失。（4）《数据出境安全评估办法》（2022年9月1日生效）规范数据出境流程，要求重要数据和个人信息出境前需通过国家网信部门的安全评估。（5）行业性规定金融、医疗、汽车等行业有特定数据安全要求（如《金融数据安全分级指南》《汽车数据安全管理若干规定》）。（6）地方性法规例如《上海市数据条例》《深圳经济特区数据条例》等，细化数据权益、共享与开放规则。二、国际大数据安全法规与政策（1）欧盟《通用数据保护条例》（GDPR）全球最严格的隐私保护法规，适用于处理欧盟公民数据的任何组织。核心原则：数据最小化、用户同意、数据可移植性、被遗忘权等。违规处罚可达全球营业额的4%或2000万欧元（较高者为准）。（2）美国《加州消费者隐私法案》（CCPA）：赋予消费者访问、删除个人数据的权利。《健康保险可携性和责任法案》（HIPAA）：保护医疗数据安全。《澄清境外数据合法使用法案》（CLOUDAct）：允许美国政府跨境调取数据。（3）其他地区巴西《通用数据保护法》（LGPD）：类似GDPR，强调数据主体权利。新加坡《个人信息保护法》（PDPA）：要求企业保障数据安全并限制跨境传输。从数据生命周期角度描述大数据面临的主要安全威胁有哪些？答：根据数据生命周期的防护需求，数据安全的分级防护可大体分为数据采集、数据传输、数据存储、数据处理、数据应用、数据销毁六个环节。（1）数据采集的安全威胁主要体现在以下5个方面：1）缺少数据分类分级，采集的数据无序且不区分类别，会影响数据安全防护和管理中策略的制定；2）缺少合规原则和最小化采集等基本要求，使得个人数据被过度采集及重要数据被泄露；3）缺少采集访问控制及可信认证，对数据源未进行身份鉴别和记录，

人人文库> 全部分类> 教育资料 > 考试试卷

温馨提示

1. 本站所有资源如无特殊说明，都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
2. 本站的文档不包含任何第三方提供的附件图纸等，如果需要附件，请联系上传者。文件的所有权益归上传用户所有。
3. 本站RAR压缩包中若带图纸，网页内容里面会有图纸预览，若没有图纸预览就没有图纸。
4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
5. 人人文库网仅提供信息存储空间，仅对用户上传内容的表现方式做保护处理，对用户上传分享的文档内容本身不做任何修改或编辑，并不能对任何下载内容负责。
6. 下载文件中如有侵权或不适当内容，请与我们联系，我们立即纠正。
7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

大数据技术与应用 习题及答案汇 张贵炜 第1-10章

文档简介

温馨提示

最新文档

评论

相关文档

大数据技术与应用习题及答案汇张贵炜第1-10章