版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
2026年人工智能训练师数据标准化实操考核试题一、单项选择题(每题2分,共20分)1.在数据标准化流程中,若某数值型字段存在极端离群值,应优先采用下列哪种方法进行预处理?A.Z-score标准化B.Min-Max标准化C.对数变换后Robust标准化D.One-Hot编码答案:C解析:极端离群值会显著影响Z-score与Min-Max的均值、方差或极值,Robust标准化基于中位数与四分位距,对离群值不敏感;对数变换可压缩长尾分布,两者结合效果最佳。2.对“城市”字段做标准化时,发现存在同一城市的多种写法(如“北京”“Beijing”“BJ”),第一步最合理的操作是:A.直接映射到数字编码B.建立同义词词典后统一归并C.删除频次低于1%的取值D.采用TF-IDF向量化答案:B解析:归并同义词属于实体对齐,是文本标准化核心步骤,先于编码或向量化。3.在时序数据滑窗特征工程中,若窗口长度T=24,步长s=6,则长度为1000的序列可生成多少条样本?A.162B.163C.164D.165答案:B解析:⌊⌋4.对高基数类别变量(如IMEI号)进行目标编码时,为防止过拟合,应:A.直接计算全局均值B.五折交叉验证计算折外均值C.使用留一法计算均值D.采用贝叶斯目标编码答案:D解析:贝叶斯目标编码通过引入先验分布平滑后验,降低高基数变量过拟合风险。5.在图像数据标准化阶段,将像素值从[0,255]线性缩放到[-1,1],其变换公式为:A.=B.=C.=D.=答案:B解析:=等价于先减均值再除以半幅值,使区间对称于0。6.对文本做词干提取时,下列哪一项最可能引入语义漂移?A.“running”→“run”B.“children”→“child”C.“university”→“univers”D.“better”→“good”答案:C解析:“univers”并非有效词根,可能破坏后续语义表示。7.在联邦学习场景下,各参与方数据特征空间一致但样本ID不同,应优先采用:A.横向联邦B.纵向联邦C.迁移联邦D.强化联邦答案:A解析:特征空间一致、样本不同,属于横向联邦。8.对缺失率95%的字段,最合理的处理策略是:A.均值填充B.删除该字段C.多重插补D.用0填充并添加缺失指示器答案:B解析:缺失率过高时字段几乎无信息,删除可降低噪声。9.在音频数据标准化中,将采样率从48kHz降至16kHz,为避免混叠,应首先:A.直接每隔3个点取1个B.先做低通滤波至8kHz再降采样C.做高通滤波D.升采样至96kHz再降采样答案:B解析:根据奈奎斯特定理,需先抗混叠低通滤波。10.在多模态数据融合阶段,图像与文本已分别标准化为512维向量,下一步最合理的融合方式是:A.直接拼接后接FCB.元素相加C.元素相乘D.分别PCA降维至32维再拼接答案:A解析:拼接保留全部信息,后续网络可学习权重;简单相加或相乘易损失信息。二、多项选择题(每题3分,共15分,多选少选均不得分)11.下列哪些操作可能改变数据分布的偏度?A.Box-Cox变换B.winsorize截尾C.标准化为Z-scoreD.对数变换答案:A、B、D解析:Z-score仅平移缩放,不改变分布形状。12.在构建推荐系统负样本时,为缓解样本选择偏差,可采用:A.随机负采样B.基于流行度降采样C.利用曝光但未点击数据D.对抗采样答案:B、C、D解析:随机采样易引入流行度偏差;后三者可校正偏差。13.对时间戳字段做特征衍生时,可提取:A.星期几B.是否节假日C.Unix时间戳模86400D.当月第几周答案:A、B、D解析:模86400仅保留日内秒数,信息损失大,不具业务解释性。14.在数据版本控制DVC中,以下哪些文件应纳入Git管理?A..dvc文件B.原始CSV数据C.pipeline.yamlD.模型.pkl答案:A、C解析:大文件由DVC缓存,Git仅追踪元数据与流程配置。15.对文本做字节对编码(BPE)时,下列说法正确的是:A.可减小未登录词概率B.词表大小固定后不再变化C.对中文需先分词再BPED.可跨语言共享子词答案:A、D解析:BPE词表可继续合并;中文可直接字符级BPE,无需先分词。三、判断题(每题1分,共10分,正确打“√”,错误打“×”)16.对任意数据集,StandardScaler的结果均值一定严格等于0。答案:×解析:数值精度限制下为近似0。17.在图像标准化中,通道顺序RGB→BGR不会导致模型预测结果变化,只要训练与推理保持一致。答案:√解析:一致性是关键。18.使用TF-IDF时,逆文档频率idf=log(N/df)中的对数底数必须为10。答案:×解析:底数可换,只需保持一致。19.对高维稀疏one-hot向量,采用PCA降维前先填充缺失值毫无意义。答案:√解析:one-hot无缺失概念。20.在联邦学习中,纵向联邦需要同态加密保护标签信息。答案:√解析:标签在样本对齐后需加密计算梯度。21.对音频MFCC特征做倒谱均值归一化(CMN)可缓解信道差异。答案:√解析:CMN可消除时不变信道卷积噪声。22.数据标准化步骤必须在训练集、验证集、测试集上分别独立计算统计量。答案:×解析:应仅用训练集统计量,避免信息泄露。23.在SQL中,NULL与空字符串''在聚合函数里行为一致。答案:×解析:NULL被忽略,空字符串视为有效值。24.对类别变量做频率编码后,若未来出现新类别,可直接赋0。答案:×解析:应回退到先验均值或训练集最小频率。25.使用OpenCV读取图像时默认通道顺序为RGB。答案:×解析:默认BGR。四、填空题(每空2分,共20分)26.给定数值列x的Q1=10,Q3=20,则Robust标准化的分母为________。答案:10解析:IQR=Q3-Q1=10。27.在Python中,使用pandas将字符串列转换为category类型后,可通过________属性查看唯一类别数。答案:cat.categories。28.对文本进行子词切分时,若词表大小设为8000,采用BPE算法,最终词表包含________个子词(填“≤8000”或“=8000”)。答案:≤8000解析:BPE在达到词表上限前可能已无法继续合并。29.在PyTorch中,对图像张量x做ImageNet标准归一化,均值mean=[0.485,0.456,0.406],方差std=[0.229,0.224,0.225],代码为transforms.Normalize(mean,std)(x),则该变换属于________标准化(填“z-score”或“min-max”)。答案:z-score。30.若某二值类别变量正负样本比例为1:99,采用SMOTE过采样后,合成样本比例由邻居参数k控制,当k=5时,每个少数类样本将基于________个近邻生成新样本。答案:5。31.在时间序列缺失值插补中,采用线性插值法,若t=3与t=7时刻值分别为y3=4,y7=12,则t=5的插值结果为________。答案:8解析:=432.对高维稀疏矩阵采用TruncatedSVD降维,若原始维度为10000,欲降至300,则最终输出矩阵形状为________(样本数n)。答案:(n,300)。33.在SQL中,将日期字段dt转换为“YYYY-MM”格式的函数为________(MySQL语法)。答案:DATE_FORMAT(dt,'%Y-%m')。34.对图像做随机裁剪时,若设置scale=(0.08,1.0),则面积最小裁剪框为原图面积的________%。答案:8。35.在sklearn中,使用KBinsDiscretizer将变量分为10个等频箱,参数strategy应设为________。答案:'quantile'。五、简答题(每题10分,共20分)36.描述在联邦学习横向场景下,如何安全地计算全局样本均值而不泄露各参与方隐私,给出具体加密流程与公式。答案与解析:步骤1:各参与方i本地计算部分和=与样本数。步骤2:使用同态加密(如Paillier)公钥pk加密,得到与。步骤3:中央服务器聚合密文S步骤4:服务器将S与N返回给各参与方。步骤5:各参与方使用私钥sk部分解密,完成门限解密,得到明文S=∑i步骤6:全局均值¯x解析:同态加密保证服务器全程无法获知单方明文,且无需可信第三方。37.给定一份用户评论文本数据,存在繁体、全角符号、颜文字、多语言混用,请写出完整的清洗与标准化pipeline(含代码片段)。答案与解析:1.编码统一:```pythonimportftfytext=ftfy.fix_text(text,normalization='NFKC')```2.繁简转换:```pythonimportopencccc=opencc.OpenCC('t2s')text=cc.convert(text)```3.全角转半角:```pythondeffull2half(s):return''.join(chr(ord(c)-0xFEE0)if0xFF01<=ord(c)<=0xFF5Eelsecforcins)text=full2half(text)```4.去除颜文字与极端稀有符号:```pythonimportretext=re.sub(r'[^\u4e00-\u9fa5a-zA-Z0-9\s.,!?]','',text)```5.多语言检测与隔离:```pythonfromlangdetectimportdetectlang=detect(text)iflang!='zh-cn':text=translate_to_zh(text)#自定义API```6.统一标点:```pythontext=re.sub(r'[。!?]','.',text)```7.小写化与strip:```pythontext=text.lower().strip()```解析:该pipeline保证文本语义一致、字符集统一,为后续分词与向量化奠定基础。六、综合实操题(共35分)38.某电商提供用户行为日志behavior.csv,字段:user_id,item_id,category,ts,action(click/cart/order),数据量2亿行,存储于HDFS。要求构建标准化训练样本,用于下游CTR预估。请完成以下任务:(1)设计数据分区与去重策略,避免概念漂移(5分)。(2)给出类别变量标准化方案,需处理新商品、长尾、高基数(5分)。(3)写出SparkSQL代码,生成用户最近一天、最近一周、最近一月的聚合特征,并解决数据倾斜(10分)。(4)对数值变量price,存在长尾、量纲差异,给出分桶与标准化联合方案,要求可在线推理(5分)。(5)给出特征存储与版本控制方案,支持每日增量更新、可回滚(5分)。(6)说明如何验证标准化一致性,写出单元测试伪代码(5分)。答案与解析:(1)分区:按dt=to_date(ts)分区,每日写入新分区;去重:对(user_id,item_id,ts,action)做开窗row_number(),保留最新。(2)类别方案:新商品:采用hash_bucket+embedding,桶数2^18;长尾:频次<10的归并为“_other”;高基数:item_id采用双塔hash,分两段hash再拼接,保证冲突率<0.1%。(3)SparkSQL:```sql解决倾斜:加盐再聚合WITHtmpAS(SELECTuser_id,concat_ws('_',cast(rand()50asint),cast(user_idasstring))assalt_user_id,concat_ws('_',cast(rand()50asint),cast(user_idasstring))assalt_user_id,action,ts,priceFROMbehaviorWHEREdtbetweendate_sub(current_date(),30)andcurrent_date()),aggAS(SELECTsalt_user_id,sum(if(action='click',1,0))asclick_1d,sum(if(action='order',price,0))asgmv_7dFROMtmpWHEREts>=unix_timestamp(date_sub(current_date(),1))GROUPBYsalt_user_id)SELECTsplit(salt_user_id,'_')[1]asuser_id,sum(click_1d)asclick_1d,sum(gmv_7d)asgmv_7dFROMaggGROUPBYsplit(salt_user_id,'_')[1]```(4)price方案:离线:用QuantileBinning分1000桶,桶边界写入JSON;在线:实时请求price→二分查找桶id→embedding;标准化:桶id再经LayerNorm,参数γ,β随模型训练。
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 修车质检员工作制度
- 公路预检站工作制度
- mcn机构工作制度
- 公司搞卫生工作制度
- 住宿生管理工作制度
- 中草药库房工作制度
- 办公司工作制度模板
- 劳动协理员工作制度
- 医务科查房工作制度
- 医疗康复科工作制度
- 发电厂设备预防性试验作业指导书
- 国开2026年《公共政策概论》形成性考核任务1-4答案
- 红十字站工作制度
- 2025年浙江省宁波市海曙区统编版六年级下册小升初考试语文试卷
- 2026年会考计算机测试题及答案
- 2026年乌海职业技术学院单招职业技能考试题库附答案详解(研优卷)
- 2026年春季苏教版(2024)三年级下册数学教学计划附教学进度表
- 网络安全普法课件
- 2025河北石家庄市某大型国有企业招聘3人(公共基础知识)综合能力测试题附答案
- Dior香水介绍教学课件
- 2025年城市卫生公共设施提高项目可行性研究报告
评论
0/150
提交评论