版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
2026年数据分析师综合能力考核试题及答案一、单项选择题(每题2分,共20分)1.某电商平台2026年Q1的日均订单量呈右偏分布,样本量n=10000。若用中心极限定理估计总体均值,下列说法正确的是A.样本均值分布的偏度与原始分布相同B.样本均值分布的标准差等于总体标准差C.样本均值分布近似正态,其方差为σ²/nD.必须对原始数据做Box-Cox变换才能使用中心极限定理答案:C2.在Spark3.4中,对一张10TB的Parquet表执行df.filter("event_date='2026-03-15'").select("user_id"),下列优化手段对减少I/O最直接有效的是A.增加executor内存B.启用动态分区裁剪C.将文件格式改为ORCD.将event_date字段改为IntType答案:B3.某城市地铁闸机数据包含2026年4月所有刷卡记录,字段:card_id,station,time,amount。欲计算每位乘客的“出行链熵”(即乘客在一天内进出站序列的信息熵),下列SQL逻辑正确的是A.SELECTcard_id,-SUM(pLOG(p))FROM(SELECTcard_id,station,COUNT()/SUM(COUNT(*))OVER(PARTITIONBYcard_id)pFROMtGROUPBYcard_id,station)GROUPBYcard_idB.SELECTcard_id,SHANNON_ENTROPY(station)FROMtGROUPBYcard_idC.SELECTcard_id,ENTROPY(COUNT(station))FROMtGROUPBYcard_id,stationD.SELECTcard_id,-LOG(COUNT(DISTINCTstation))FROMtGROUPBYcard_id答案:A4.使用Python的scikit-learn1.5训练GradientBoostingRegressor时,若特征矩阵存在大量高基数类别变量,下列做法最合理的是A.直接用OneHotEncoder(sparse=False)后训练B.用TargetEncoder做无监督编码C.先用OrdinalEncoder,再用GBDT自带的类别支持D.用LeaveOneOutEncoder并在验证集上早停答案:D5.某A/B实验对比两种推荐算法,指标为次日留存率。实验持续7天,每天样本量稳定。若使用贝叶斯方法,先验选Beta(2,98),实验组观测留存160/2000,对照组150/2000,则后验分布的均值差E(p1-p2)约为A.0.002B.0.005C.0.008D.0.012答案:B6.在Tableau2026.1中,将“销售额”字段拖至颜色标记后,想使颜色按“同比增幅”而非绝对值渐变,应优先使用A.快速表计算→百分比差异B.创建计算字段:ZN(SUM([销售额]))-LOOKUP(ZN(SUM([销售额])),-1)C.直接右键→编辑颜色→使用表达式D.将“同比增幅”先拖至详细信息,再拖至颜色答案:A7.某时序模型使用Prophet预测2026年儿童节(6月1日)的冰淇淋销量,发现预测区间过窄,最可能原因是A.节假日效应未纳入B.趋势项changepoint_prior_scale设置过大C.季节性mode设为additiveD.未开启uncertainty_samples的MCMC答案:D8.在PostgreSQL16中,对分区表measure_2026做SELECT*FROMmeasure_2026WHEREtsBETWEEN'2026-05-01'AND'2026-05-02',下列索引策略最佳的是A.在ts上建btree全局索引B.在每个分区ts上建本地btree索引C.在分区键ts上建hash全局索引D.不建索引,依赖分区裁剪答案:B9.使用TensorFlow2.15构建Wide&Deep模型时,Wide部分特征交叉阶数过高导致内存溢出,最优雅的解决方案是A.改用DeepFMB.使用HashedCrossing层并设置num_bins=1e6C.降低batch_sizeD.将交叉特征先存为稀疏张量再喂入答案:B10.某数据湖采用Iceberg1.4,表t的manifest文件数达20万,查询变慢,最佳治理动作是A.调大read.split.target-sizeB.执行rewrite_manifestsC.删除snapshotD.将文件格式改为Avro答案:B二、多项选择题(每题3分,共15分,多选少选均不得分)11.下列属于数据血缘元数据标准的是A.OpenLineageB.ApacheAtlasTypesC.DataHubSchemaD.GreatExpectations答案:A、B、C12.在构建实时风控特征时,需计算“过去5分钟某IP的登录失败次数”,可行的技术组合有A.FlinkSQL+Kafka+RedisB.SparkStructuredStreaming+DeltaLakeC.KafkaStreams+RockDBD.Pandas+MySQL答案:A、B、C13.关于SHAP值在XGBoost中的使用,正确的有A.TreeSHAP支持多项分类的一vs-rest解释B.对单条样本,所有特征SHAP值加和等于模型输出与base_margin之差C.使用interaction_constraints后无法计算SHAPD.可用approx_contribs参数近似加速答案:A、B、D14.在Snowflake8.0中,以下操作会触发micro-partition重新创建的有A.UPDATE列值B.DELETE行C.CLUSTERBY重新聚簇D.创建SEARCHOPTIMIZATION服务答案:A、B、C15.某零售公司用UpliftModel做营销,下列评估曲线可直接输出的有A.QINI曲线B.AUUCC.CATE分布直方图D.ROC曲线答案:A、B、C三、判断题(每题1分,共10分,正确打“√”,错误打“×”)16.在Python3.12中,pandas2.2的copy-on-write机制默认开启,能显著降低内存占用。答案:√17.ClickHouse23.10的AggregatingMergeTree引擎在查询时无需使用聚合函数,系统会自动返回最终状态。答案:×18.当使用BayesianOptimization调参时,采集函数EI(ExpectedImprovement)在已有最优点处的值为0。答案:√19.在dbt1.8中,使用materialized='incremental'时必须指定unique_key,否则无法合并更新。答案:×20.数据沙箱(DataSandbox)与数据集市(DataMart)的核心差异在于前者提供临时隔离环境,后者面向主题域持久化。答案:√21.在PyTorch2.2中,pile()默认使用Triton后端,可自动融合kernel。答案:√22.对高维稀疏文本特征使用PCA降维后再输入LightGBM,一定能提升AUC。答案:×23.在KubeflowPipelines中,组件间通过artifact传递大型数据集时,系统默认使用MinIO对象存储。答案:√24.数据资产目录(DataCatalog)的主动元数据(ActiveMetadata)理念强调元数据可反向驱动ETL流程。答案:√25.在Excel2026中,新函数LAMBDA()允许自定义递归,但最大递归深度仍受调用栈1024限制。答案:√四、填空题(每空2分,共20分)26.在Python中,使用polars0.20读取一张含1亿行的CSV,若只想惰性筛选列col1>100并统计行数,代码为pl.scan_csv('file.csv').filter(__________).select(pl.len()).collect()。答案:pl.col('col1')>10027.某Hive表存储为ORC,压缩率为0.15,原始文本大小300GB,则实际HDFS占用约__________GB。答案:4528.在Flink1.19中,设置table.exec.mini-batch.allow-latency='1s'的作用是__________。答案:开启微批处理,缓存1秒数据以减少状态写放大29.使用statsmodels0.15做时间序列ADF检验,返回的p值为0.028,则在0.05水平下__________(接受/拒绝)原假设。答案:拒绝30.在dbt的schema.yml中,为模型orders添加数据质量测试,要求customer_id非空且唯一,应写tests:–_________。答案:unique31.在Excel中,动态数组公式=TEXTSPLIT(A1,,";",1)的第三个参数1表示__________。答案:忽略空单元格32.某KafkaTopic有6分区,生产端指定key=order_id,若order_id哈希均匀,则消费组内最多可有__________个消费者同时并行。答案:633.在PostgreSQL中,通过__________扩展可支持JSONPath查询。答案:jsonb_path_query34.使用TensorBoard2.15的hparams插件时,必须在代码中回调__________写入超参。答案:hp.KerasCallback35.数据治理的“5W1H”模型中,How对应__________维度。答案:流程/技术五、简答题(每题10分,共30分)36.描述一次完整的实时特征回填(backfill)流程,要求:(1)不中断线上服务;(2)保证幂等;(3)兼容FlinkCheckpoint。答案:1)在Kafka新建回溯Topic,设置retention=7天,生产端双写。2)Flink作业使用UID算子,开启EXACTLY_ONCE,sink至带幂等键的RedisHash(key=feature#user#timestamp)。3)启动第二个Flink作业消费回溯Topic,时间范围定义在布隆过滤器内,使用ProcessFunction注册事件时间定时器,窗口结束时输出特征。4)通过Redis的Lua脚本实现compare-and-set,仅当版本号≥当前才更新,保证幂等。5)回填完成后,对比抽样样本与离线特征差异<0.1%,下线回溯作业并删除Topic。37.解释在多云环境下,如何用Terraform+Ansible实现数据平台一键灾备,并满足RPO<15分钟、RTO<1小时。答案:1)用Terraform定义跨Region的VPC、Subnet、Peering、S3Bucket(开启ReplicationTimeControl)。2)在备份云创建EMRonEKS、RedshiftServerless、MSK,通过DataSync每10分钟增量同步HDFS、RDS、Kafka。3)AnsiblePlaybook分三角色:infra、data-service、dns-switch。4)利用AWSLambda+EventBridge监听主RegionRDS的Binlog,写入备份云Kinesis,实现秒级流式同步。5)通过Route53的HealthCheck探测主RegionAPI,失败时Ansible触发Promote,修改Redshift快照为生产实例,并切换DNS权重,RTO实测38分钟;S3RTC保证RPO<15分钟。38.说明在深度学习中,如何用知识蒸馏解决小样本NER任务,并给出损失函数设计。答案:1)教师模型:在大规模通用语料预训练BERT-CRF,微调后F1=92.3%。2)学生模型:TinyBERT-6L,参数量1/10。3)损失函数:L=α·CE(y,true)+β·KL(softmax(z_T/τ),softmax(z_S/τ))+γ·MSE(h_T,h_S),其中τ=4,α+β+γ=1,β=0.6。4)数据增强:采用SpanBERT随机替换实体,保持标签一致性,扩充5倍。5)训练策略:先蒸馏3epoch,再联合微调2epoch,小样本场景(每类50例)F1提升6.7%,达到87.9%。六、综合案例分析(25分)39.背景:某视频平台2026年4月上线“短剧”新频道,运营方需评估频道对整体用户时长的净增量。数据说明:–用户维度表:user_id,age,gender,city_level,register_date,is_treatment(是否被灰度)。–行为日志表:user_id,date,duration,channel(含short_drama)。–实验周期:2026-04-01至2026-04-14。–灰度规则:按user_id末位hash,实验组10%,对照组90%。–问题:(1)发现实验组在4月10日之后时长增速显著高于对照组,但KR指标(短剧频道DAU)同步上涨,如何排除“用户自选择”偏差?(8分)(2)给出双重差分(DiD)模型公式,并说明平行趋势检验步骤。(8分)(3)若实验组样本量仅5万,对照组45万,如何构造匹配样本提升精度?(5分)(4)最终测算出净增时长为+4.2分钟/人/日,如何向管理层解释该数字的商业价值?(4分)答案:(1)采用“EncouragementDesign”思路:a.以“是否被灰度”作为工具变量Z,建立两阶段最小二乘(
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 绿色经营减碳承诺书(9篇)
- 环保物流联合倡议承诺书4篇
- 会计审计师财务报表与财务风险控制绩效考核表
- 挂牌仪式-应急预案(3篇)
- 工伤-骨折应急预案(3篇)
- 2026北京兴宾通人力资源管理有限公司面向社会招聘劳务派遣人员4人备考题库完整参考答案详解
- 2026上半年青海事业单位联考海西州招聘234人备考题库附答案详解(黄金题型)
- 2026广东职业技术学院第一批非事业编制教师招聘4人备考题库完整参考答案详解
- 2026中共济南市委党校(济南行政学院)引进博士研究生10人备考题库及答案详解(有一套)
- 2026新疆双河市新赛股份公司招聘1人备考题库附答案详解(预热题)
- 资金技术入股合伙协议书
- 手术室压疮研究新进展及成果汇报
- 2025年陕西省中考英语试题卷(含答案及解析)
- T/GMIAAC 002-20232型糖尿病强化管理、逆转及缓解诊疗标准与技术规范
- 科学教师培训课件
- 2024生物样本库中生物样本处理方法的确认和验证要求
- 国产电视剧报审表
- 农业技术推广指导-农业推广的概念与基本原理
- 墓碑上的100个药方
- TCSAE 153-2020 汽车高寒地区环境适应性试验方法
- 4D厨房设备设施管理责任卡
评论
0/150
提交评论