2026年公需科目(数据开放与共享)考试题及答案_第1页
2026年公需科目(数据开放与共享)考试题及答案_第2页
2026年公需科目(数据开放与共享)考试题及答案_第3页
2026年公需科目(数据开放与共享)考试题及答案_第4页
2026年公需科目(数据开放与共享)考试题及答案_第5页
已阅读5页,还剩16页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

2026年公需科目(数据开放与共享)考试题及答案一、单项选择题(每题2分,共30分)1.根据《中华人民共和国数据安全法》,公共数据开放应当遵循的首要原则是A.经济效益最大化B.国家安全优先C.促进数字产业发展D.提高政府透明度答案:B解析:数据安全法第七条明确“维护国家安全”为数据活动不可突破的底线,开放共享须以国家安全为前提。2.在数据共享交换平台中,用于描述“数据集主题、更新周期、数据粒度”的元数据元素属于A.管理元数据B.技术元数据C.业务元数据D.安全元数据答案:C解析:业务元数据聚焦数据内容本身,如主题、粒度、业务定义;技术元数据侧重格式、接口;管理元数据侧重权责、生命周期;安全元数据侧重分级、脱敏策略。3.某市交通管理局拟开放“出租车GPS轨迹”数据,下列脱敏方式最能兼顾可用性与隐私保护的是A.直接删除车牌字段B.将经纬度保留小数点后一位C.采用k-匿名并添加(ε,δ)-差分隐私噪声D.仅开放聚合到小时的区域订单数答案:C解析:k-匿名降低重识别风险,差分隐私提供可量化隐私保证,同时保留轨迹时空模式研究价值;A、B、D均过度损失数据效用。4.下列关于“数据沙箱”环境的描述,错误的是A.允许外部用户导出原始数据B.提供安全隔离的计算资源C.所有操作可审计D.通常搭配数据使用协议答案:A解析:沙箱核心原则是“数据可用不可见”,原始数据不得出域,仅输出经过审核的结果。5.在政务数据共享负面清单制度中,列入清单的数据通常基于A.数据容量大小B.数据更新频率C.数据敏感级别D.数据所属部门答案:C解析:负面清单以“敏感级别”作为是否禁止共享的核心标准,与容量、频率、部门无直接关联。6.某省开放平台提供“企业登记信息”API,返回字段含“统一社会信用代码、企业名称、注册资本、成立日期”,但未提供“法定代表人身份证号”,这体现了A.数据完整性原则B.最小够用原则C.实时性原则D.可扩展性原则答案:B解析:最小够用原则要求仅开放满足需求的最小数据集,避免泄露过度信息。7.下列关于“数据资产卡片”的说法,正确的是A.等同于数据库表结构文档B.必须包含数据血缘关系图C.是数据资产目录的微观载体D.只需在数据首次开放时填写一次答案:C解析:资产卡片是目录体系的最小单元,动态记录资产属性、质量、血缘、开放条件等,需持续更新。8.在数据跨境传输安全评估中,不属于“风险再评估”触发条件的是A.境外接收方上市B.数据出境规模增加20%C.数据用途发生重大变化D.境内数据源系统升级补丁答案:D解析:系统补丁若未改变数据类型、规模、用途、接收方,则无需再评估;A、B、C均可能引入新风险。9.某市大数据中心采用“联邦查询”技术实现人社、税务两部门数据协同,其技术本质是利用A.集中式数据仓库B.区块链不可篡改账本C.分布式计算与加密传输D.数据复制镜像答案:C解析:联邦查询在原始数据不汇聚前提下,通过分布式引擎与加密通道完成跨库计算,避免复制。10.下列指标最能直接衡量数据开放平台的“数据可发现性”A.API平均响应时间B.元数据检索召回率C.日均PV浏览量D.开发者注册数答案:B解析:召回率=检索到的相关数据集数/库内相关数据集总数,直接反映用户能否找到所需数据。11.根据《个人信息保护法》,对开放平台上的“已公开个人信息”进行再处理时,仍需遵守A.无需遵守任何义务B.仅遵守合同法C.在合理范围内处理,不得侵害个人重大利益D.仅需向网信办备案答案:C解析:第27条明确,已公开信息再处理须在“合理范围”,若个人明确拒绝或侵害重大利益则停止。12.在数据共享协议中,下列条款最能体现“数据主权”原则A.数据所有权归提供方B.数据使用需注明来源C.数据不得再许可第三方D.数据出境需单独审批答案:A解析:主权首先体现为所有权归属,后续使用、出境、署名均派生于此。13.某开放平台提供“CSV、JSON、Parquet”三种下载格式,从“机器可读性”角度排序,最优的是A.CSVB.JSONC.ParquetD.三者等价答案:C解析:Parquet为列式二进制格式,支持高效压缩、schema内置,最利于大规模机器读取与分析。14.下列关于“数据开放影响评估(DIA)”的描述,正确的是A.仅需在数据首次发布前执行一次B.评估结果无需对外公开C.应包含对社会公平影响的分析D.由第三方企业独立完成答案:C解析:DIA需覆盖安全、隐私、经济、社会公平等多维影响,且为持续过程,结果应公开接受监督。15.在开放数据许可协议中,采用“CCBY-ND”意味着A.可自由修改并再发布B.可商业使用但不得演绎C.可演绎但需共享相同方式D.仅允许非商业使用答案:B解析:ND(NoDerivatives)禁止演绎,BY要求署名,允许商业使用。二、多项选择题(每题3分,共30分,每题至少有两个正确答案,多选少选均不得分)16.下列属于《政务信息资源共享管理暂行办法》规定的“三类共享”的是A.无条件共享B.有条件共享C.不共享D.有偿共享答案:A、B、C解析:办法明确“无条件、有条件、不予共享”三类,未设置“有偿共享”类别。17.在构建数据血缘图谱时,通常需要采集的日志包括A.ETL任务日志B.数据库审计日志C.网络爬虫爬取日志D.API网关访问日志答案:A、B、D解析:爬虫日志与内部血缘无关,A、B、D可直接反映数据流转。18.下列措施能够提升开放数据“可复用性”A.提供列名语义注解B.发布数据字典与代码表C.使用专有软件加密D.提供示例分析Notebook答案:A、B、D解析:加密降低可复用性;注解、字典、示例均降低使用门槛。19.关于“数据质量”维度,下列组合符合国际主流DQAF框架A.完整性、及时性、一致性B.可用性、保密性、不可否认性C.准确性、有效性、可访问性D.唯一性、可追溯性、可理解性答案:A、C、D解析:保密性、不可否认性属安全维度,非质量维度。20.在数据开放平台上设置“API速率限制”主要解决A.防止恶意爬取B.保障服务稳定性C.降低数据提供方带宽成本D.提高数据新鲜度答案:A、B、C解析:速率限制与数据更新频率无关,无法提升新鲜度。21.下列场景需要启动“个人信息去标识化”评估A.开放含用户昵称的评论数据B.开放经过哈希加密的手机号C.开放聚合到区县级的年龄分布D.开放带时间戳的公交刷卡记录答案:A、B、D解析:C已聚合且不含个体标识,无需再评估;A、B、D均可能关联到个人。22.某省开放平台采用“区块链存证”技术,其优势包括A.防止数据目录被篡改B.降低存储成本C.提供可信时间戳D.实现数据本身链上大规模存储答案:A、C解析:区块链存储成本高,不适合存原始大数据,仅适合存哈希与元数据。23.下列属于“数据文化”建设关键指标A.政府数据素养培训覆盖率B.部门数据共享申请一次性通过率C.开放数据创新应用大赛举办次数D.数据中心PUE能耗值答案:A、B、C解析:PUE为绿色指标,与数据文化无直接关联。24.在数据共享交换平台中,采用“OAuth2.0+JWT”技术可实现A.单点登录B.细粒度接口授权C.数据内容加密D.跨域身份传递答案:A、B、D解析:JWT仅解决身份与授权,不加密数据本身。25.下列关于“数据主权云”的描述,正确的是A.基础设施位于境内B.运维主体须为内资控股C.默认禁止所有境外访问D.需通过云计算服务安全评估答案:A、B、D解析:主权云允许合规跨境访问,非“默认禁止”。三、判断题(每题1分,共10分,正确打“√”,错误打“×”)26.数据开放等于数据公开,无需任何访问控制。答案:×解析:开放强调“有序、合规、可控”,公开仅强调“可见”,二者不等价。27.在元数据标准中,DCAT(DataCatalogVocabulary)是W3C推荐的RDF词汇表。答案:√28.数据质量问题的修复成本随生命周期推进而递减。答案:×解析:越靠后修复成本越高,呈指数上升。29.“数据即服务(DaaS)”模式下,数据消费者无需关心数据存储位置。答案:√30.根据《网络数据安全管理条例(征求意见稿)》,日活超1亿的平台处理个人信息应向省级网信部门备案。答案:×解析:应为“国家网信部门”。31.采用同态加密技术可在加密状态下直接进行复杂统计分析。答案:√32.数据资产估值的成本法公式为:资产价值=重置成本−功能性贬值−经济性贬值。答案:√33.在数据共享场景中,SLA协议通常包含“数据新鲜度”指标。答案:√34.数据开放平台的“开发者认证”环节可完全省略,以提升便利性。答案:×解析:认证是追溯责任、防止滥用的必要措施。35.数据血缘解析时,SQL语句中的注释信息对字段级血缘无影响。答案:√四、简答题(每题10分,共30分)36.简述“数据分级分类”在公共数据开放中的作用,并给出实施流程要点。答案与解析:作用:1.安全管控:依据敏感级别匹配脱敏、加密、访问控制策略;2.合规共享:为负面清单、有条件共享提供判定标准;3.精准开放:高价值低敏感数据优先开放,提升社会效益;4.风险溯源:事后审计可快速定位泄露源头。实施流程要点:①资产盘点:拉齐全量数据资产,形成清单;②业务梳理:识别数据上下文、使用场景、利益相关方;③分类打标:按主题、行业、来源分类;按个人、公共、国家秘密分级;④风险评级:结合泄露影响、规模、概率量化打分;⑤策略映射:分级结果对应开放方式(直接开放、脱敏开放、禁止开放);⑥动态复审:数据用途、规模、环境变化时重新评估。37.说明“差分隐私”在统计数据开放中的应用步骤,并给出隐私预算分配示例。答案与解析:步骤:1.需求分析:确定待发布统计量(如计数、求和、均值);2.敏感度计算:全局敏感度Δ其中D,3.隐私预算设定:总预算,拆分为=0.5计数、=0.54.噪声注入:对计数查询加Laplace噪声N5.结果发布:返回带噪统计量;6.效用评估:计算相对误差R若RE>5%,则调整预算或增加样本;7.审计记录:记录查询语句、噪声值、剩余预算,确保累计预算不超限。38.某市拟开放“医疗机构床位使用率”数据,请设计一套“数据质量监控指标体系”,并说明如何与开放平台联动。答案与解析:指标体系:1.完整性:床位总数字段缺失率≤0.1%;2.及时性:T+1日08:30前完成更新,延迟报警阈值2小时;3.一致性:床位总数=空床数+占用数,校验误差率≤0.5%;4.准确性:随机抽检5%医院,与卫建委台账比对,误差率≤1%;5.有效性:床位使用率∈[0,100],超出即触发异常;6.可访问性:API可用性≥99.9%,平均响应时间≤500ms;7.可追溯性:每条记录附带hospital_id、timestamp、version,支持血缘追踪。联动机制:①在共享交换平台部署质量探针,实时抓取指标;②若连续3个周期触发阈值,自动邮件、短信通知数据提供方;③平台前端在数据集详情页展示“质量仪表盘”,红黄牌提示用户;④质量不合格数据集自动降权,搜索排名后置;⑤提供方整改后上传新版,平台重新跑分,合格即恢复权重。五、计算题(共20分)39.某开放平台对“日订单数据集”采用k-匿名模型,已知原始表含500万条记录,准标识符为{年龄,性别,区县}。(1)若k=10,求满足10-匿名所需的最小等价类规模;(2)假设年龄已泛化为5岁一组,性别保留,区县泛化为“市”,计算泛化后最大信息损失率(用熵损失度量)。答案与解析:(1)最小等价类规模即为k=10。(2)熵损失计算:原始熵设原始年龄0–100岁共101值,性别2值,区县20值,组合状态数假设均匀分布,则4040泛化后年龄分21组(0–4,5–9,…,100),区县1值(市),性别2值,状态数信息损失率L答:最大信息损失率约55.0%。六、案例分析题(共30分)40.阅读下列材料并回答问题:材料:2025年,A市建成“城市级数据开放门户”,累计开放2800个数据集,涵盖交通、气象、企业注册等。某创业团队基于“地铁刷卡”数据开发“通勤幸福指数”App,上线30天下载量破50万。然而,有市民投诉该App可反向追踪个人住址,舆论质疑平台脱敏不足。网信办调查后发现:数据集中“卡ID”为32位哈希值,但同一卡ID在时间维度上连续出现,且与“出入口500米内小区房价”公开数据交叉后,可高概率定位个人。问题:(1)指出本次事件涉及的隐私风险类型(至少2种);(2)从“数据提供方”“平台方”“使用方”三个角度提出整改措施;(3)设计一套“再识别风险量化模型”,给出公式并说明参数含义。答案与解析:(1)风险类型:①轨迹重识别风险:哈希卡ID未加盐且可关联时空轨迹;②属性关联风险:与房价、POI等外部数据交叉推断身份;③推理攻击风险:利用高频出行模式推断职业、住址等敏感属性。(2)整改措施:数据提供方:采用每日轮换加盐哈希+差分隐私,对卡ID进行令牌化;删除出入口精确坐标,仅保留线

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论