2026年人工智能训练师文本预处理实操考核试题_第1页
2026年人工智能训练师文本预处理实操考核试题_第2页
2026年人工智能训练师文本预处理实操考核试题_第3页
2026年人工智能训练师文本预处理实操考核试题_第4页
2026年人工智能训练师文本预处理实操考核试题_第5页
已阅读5页,还剩13页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

2026年人工智能训练师文本预处理实操考核试题一、单项选择题(每题2分,共20分)1.在文本预处理流程中,下列哪一步骤最有效地降低后续模型过拟合风险?A.停用词过滤B.词干提取C.低频词裁剪D.同义词替换答案:C解析:低频词往往携带噪声,裁剪后可减少特征空间,降低过拟合。2.对中文微博文本进行分词时,若遇到“新冠疫苗接种率超80%”,下列哪种颗粒度最利于后续实体识别?A.字符级B.词语级C.子词级(如BPE)D.整句级答案:C解析:子词级可保留“新冠”“疫苗”等关键语义片段,同时缓解未登录词问题。3.使用正则表达式清洗HTML片段时,优先移除下列哪类标签对下游情感分析影响最小?A.`<img>`B.`<strong>`C.`<a>`D.`<script>`答案:D解析:`<script>`标签内为JavaScript代码,与情感语义无关,移除后无损信息。4.在构建文本分类数据集时,发现正负样本比例高达100:1,下列哪种采样策略最可能保持原始分布且计算开销最小?A.SMOTE过采样B.随机欠采样多数类C.动态加权损失函数D.TomekLink清洗答案:C解析:加权无需改变数据量,计算开销最小,且保留原始分布。5.对PDF论文进行OCR后,出现“teh”→“the”类错误,最佳修复方式是:A.基于编辑距离的词典校正B.训练BERT掩码语言模型纠错C.规则替换“teh”D.丢弃含错句子答案:A解析:编辑距离可泛化到多种拼写错误,且无需大量标注。6.在构建领域词典时,使用PMI(点互信息)筛选新词,若语料规模增大10倍,PMI值一般会:A.线性增大B.对数增大C.减小D.不变答案:C解析:PMI=lo7.对客服对话文本进行脱敏,下列哪种信息最难通过规则直接剔除?A.18位身份证号B.11位手机号C.车牌号“京A·12345”D.用户昵称“小明”答案:D解析:“小明”为常见词,规则易误杀,需结合上下文实体识别。8.在文本向量化阶段,使用TF-IDF发现某些文档向量几乎全为零,最可能原因是:A.未做词形归并B.停用词表过大C.词袋维度远高于文档长度D.未做低频词裁剪答案:C解析:高维稀疏导致短文本无法覆盖词汇,向量趋零。9.对繁体中文语料进行转换时,下列哪种情况最容易引入语义漂移?A.“髮”→“发”B.“後”→“后”C.“麵”→“面”D.“鬱”→“郁”答案:B解析:“后”在简体中兼具“皇后”与“前后”义,需依上下文判断。10.使用SentencePiece训练子词模型时,设置character_coverage=0.995,其含义是:A.覆盖99.5%的句子B.覆盖99.5%的字符种类C.覆盖99.5%的token频率D.覆盖99.5%的词汇语义答案:B解析:character_coverage控制字符集覆盖,用于多语种场景。二、多项选择题(每题3分,共15分)11.下列哪些操作可能导致中文文本信息不可逆丢失?A.全角转半角B.简繁转换C.情感表情符删除D.数字统一替换为“<NUM>”E.词性标注答案:C、D解析:表情符与具体数值可能携带关键情感或量化信息,删除后无法还原。12.在构建医疗问答语料库时,需对医患对话进行分段,有效特征包括:A.说话人角色标签B.时间戳间隔C.句末标点D.是否含疑问词E.词向量均值答案:A、B、C、D解析:角色与时间用于区分回合,标点与疑问词辅助边界判断。13.使用LDA主题模型前,需进行的文本预处理包括:A.去停用词B.词干提取C.词性过滤(保留名词、动词)D.统一小写(英文)E.句子shuffle答案:A、B、C、D解析:shuffle破坏文档内词序,对LDA无意义且有害。14.对社交媒体文本进行情绪分类时,可能引入标签噪声的行为有:A.以“点赞数>100”作为正向标签B.以表情符😂作为正向标签C.以“转发语含‘笑死’”作为正向标签D.人工标注3人一致取多数E.使用远监督自动扩展答案:A、B、C、E解析:点赞、表情、远监督均可能偏离真实情绪。15.在中文文本归一化任务中,下列哪些属于“非标准词”范畴?A.“好滴”B.“u1s1”C.“COVID-19”D.“栓Q”E.“🍋”答案:A、B、D、E解析:“COVID-19”为标准外来缩写,无需归一化。三、判断题(每题2分,共10分)16.对微博文本做分词时,保留话题标签“#”有助于提升事件检测召回率。答案:正确解析:标签内关键词为事件核心线索。17.使用Word2Vec训练词向量时,删除所有出现次数为1的词会提高低频词向量质量。答案:错误解析:低频词被删除后无法获得向量,质量无从谈起。18.在英文文本中,将“can't”拆为“can”和“'t”有利于情感分类模型捕捉否定。答案:正确解析:否定片段独立成token,便于注意力机制聚焦。19.对OCR结果进行语言模型纠错时,困惑度越低一定代表纠错效果越好。答案:错误解析:困惑度低可能因过度保守,未纠正关键错误。20.使用Transformer-based清洗模型时,加入随机掩码比例0.3比0.1更利于提升鲁棒性。答案:错误解析:过高掩码比例破坏语义,反而降低性能。四、填空题(每空2分,共20分)21.在构建中文拼写纠错数据集时,常采用________算法自动生成混淆集,再通过人工校验降低错误率。答案:基于音近形近的编辑距离生成22.对客服录音进行ASR后,需将口语词“嗯”、“啊”替换为________符号,以提升阅读流畅度。答案:`<FILL>`23.若文本中出现连续5个英文大写字母,可使用正则表达式________进行匹配。答案:`[A-Z]{5}`24.在使用BPE训练子词模型时,若期望词表大小为8000,则应设置参数________=8000。答案:`vocab_size`25.对古文进行现代汉语翻译前,需先进行________分词,以解决“字无定序”问题。答案:序列标注式26.当PDF扫描件出现整页歪斜时,应先采用________变换进行倾斜校正。答案:Hough变换检测角度后旋转27.在医疗NER任务中,疾病实体“2型糖尿病”若被错误切分为“2型”和“糖尿病”,可通过________策略合并。答案:最大前向匹配+领域词典28.对社交媒体文本进行情绪分析时,将“😭”映射为________情感标签可提升细粒度分类效果。答案:`sadness`29.使用TF-IDF时,若某词在全部文档均出现,则其IDF值为________。答案:030.在远监督关系抽取中,若知识库实体对齐错误,则会引入________噪声。答案:标签五、简答题(每题10分,共30分)31.描述如何在不依赖第三方库的前提下,用纯Python实现一个基于互信息的新词发现算法,并给出关键公式。答案:1)准备大规模纯文本,按字符滑动窗口统计共现;2)计算凝固度:S3)计算自由度:F其中c为左邻或右邻字;4)设定阈值,保留高凝固且高自由度的片段作为新词;5)用最大前向匹配对文本重新分词,迭代直至收敛。解析:凝固度衡量内部紧密性,自由度衡量边界灵活度,两者结合可过滤垃圾片段。32.给出一种基于规则与统计混合的日期归一化方案,要求能识别“下周三”、“上周五”、“国庆节后3天”等表达,并输出标准YYYY-MM-DD格式。答案:1)预置锚点词典:{“今天”:0,“明天”:1,“下周三”:rel(week=1,weekday=3),“国庆节”:fixed(10,1)};2)用正则抽取表达式,如`下周([一二三四五六日])`;3)将相对表达转为Pythondatetime.timedelta;4)对“后N天”采用正则`后(\d+)天`,捕获数字后累加;5)结合当前系统日期计算绝对日期;6)对模糊表达“月初”默认取1号,“月底”取月末;7)输出格式校验,若日期非法则回退至最近工作日。解析:规则负责解析结构,统计用于消歧(如“国庆节”可能指假期而非精确10月1日),通过历史语料可学习假期偏移分布。33.说明如何构建一个可解释的中文文本对抗样本检测器,要求能定位触发词并给出替换建议。答案:1)采用LIME或SHAP对黑盒模型输出重要性分数;2)对高重要性token,使用同音字、形近字、同义词构建候选池;3)计算候选词与原词的语义相似度(cosineofSBERTembedding),过滤低于阈值0.8的候选;4)用贪心搜索或遗传算法尝试替换,若模型置信度下降超过Δ=0.5则标记为对抗触发;5)输出触发位置、原词、建议替换词及置信度变化;6)人工审核后加入对抗训练集,迭代提升鲁棒性。解析:通过可解释工具定位关键token,结合语义约束确保替换自然,形成闭环。六、综合实操题(35分)34.给定以下原始客服对话片段(已脱敏):```U:我昨天在你们APP上买了件M码短袖,收到却是L码,能不能换?C:亲,抱歉给您带来不便,可以提供订单号吗?U:订单号是12345678901234567890C:好的,已为您登记换货,预计3个工作日完成。U:太慢了,能加急吗?C:可以的,亲,加急需补运费15元。U:好的,那我补,用微信。C:收到,已为您申请加急,请留意短信。```任务要求:a)写出完整的预处理Pipeline,输出每步结果;(10分)b)提取用户诉求及情绪标签,并给出依据;(5分)c)构建一个最小词表(≤20词)的SentencePiece模型,给出训练命令及最终词表;(10分)d)基于该词表,将用户最后一句话向量为2维PCA可视化坐标,给出计算过程与数值。(10分)答案与解析:a)Pipeline:1)去订单号:正则`\d{20}`→`<ORDER>`结果:```U:我昨天在你们APP上买了件M码短袖,收到却是L码,能不能换?C:亲,抱歉给您带来不便,可以提供订单号吗?U:订单号是<ORDER>C:好的,已为您登记换货,预计3个工作日完成。U:太慢了,能加急吗?C:可以的,亲,加急需补运费15元。U:好的,那我补,用微信。C:收到,已为您申请加急,请留意短信。```2)口语词归一:“亲”→“你”,“抱歉”→“对不起”3)繁简、大小写、全半角已合规,无需处理;4)分词(jieba):```U:我昨天在你们APP上买了件M码短袖,收到却是L码,能不能换?...```5)去停用词:“了”、“在”、“吗”等;6)最终干净序列:```[我,昨天,你们,APP,买,M码,短袖,收到,L码,能不能,换,太慢,加急,补,运费,15元,微信,短信]```b)诉求:换货、加急;情绪:不满→接受;依据:“太慢了”显不满,“好的”显接受。c)训练命令:```bashsentencepiece_train--input=clean.txt--model_prefix=sp--vocab_size=20--character_coverage=1.0--model_type=bpe```输出词表(示例):``

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论