2026年人工智能训练师停用词去除实操考核试题_第1页
2026年人工智能训练师停用词去除实操考核试题_第2页
2026年人工智能训练师停用词去除实操考核试题_第3页
2026年人工智能训练师停用词去除实操考核试题_第4页
2026年人工智能训练师停用词去除实操考核试题_第5页
已阅读5页,还剩12页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

2026年人工智能训练师停用词去除实操考核试题一、单项选择题(每题2分,共20分)1.在中文停用词去除流程中,下列哪一步骤最可能引入“过度过滤”风险?A.基于规则词典的直接删除B.基于TF-IDF阈值的动态过滤C.基于词性标注的保留策略D.基于n-gram共现的召回校验答案:B解析:TF-IDF阈值若设置过高,会把低频但关键的专业词误判为停用词,造成信息损失。2.当训练语料包含大量医疗病例时,下列哪个词最应被移出通用停用词表?A.的B.了C.无D.伴答案:D解析:“伴”在医疗文本中常表示伴随症状,如“伴发热”,具有实质语义。3.使用Python进行去停用词时,下列代码片段哪一处最易导致内存爆炸?A.`text_list=[wforwintext_listifwnotinstop]`B.`stop=set(open('stop.txt').read().split())`C.`text_str=''.join(text_list).replace('\n','')`D.`result=filter(lambdax:xnotinstop,text_list)`答案:C解析:大文件一次性读入字符串再join,会瞬间申请与原文等量的连续内存。4.在Spark分布式环境中,为了降低Shuffle量,停用词表最佳广播方式是:A.在每个Executor节点本地放置一份txtB.使用SparkContext.broadcast()C.将停用词写入HDFS,每次map读取D.将停用词编码为RDD并join答案:B解析:广播变量只发送一次,避免重复传输,显著降低网络开销。5.若停用词表出现编码冲突(UTF-8vsGBK),最可靠的检测手段是:A.人工肉眼比对B.使用chardet库逐行探测C.直接统一转UTF-8忽略异常D.用Linux`file`命令查看答案:B解析:chardet可给出置信度,兼顾准确与自动化。6.当业务方要求“保留全部否定词”时,应优先采用:A.白名单机制B.黑名单机制C.正则回溯删除D.增量训练更新答案:A解析:白名单强制保留,逻辑简单且可审计。7.在transformers库中,对BPEtokenizer生成的sub-word做停用词过滤,最大技术难点是:A.子词与原词映射B.词性标注C.句法依存D.语义角色答案:A解析:sub-word需还原为整词后才能匹配停用词表,否则易误杀。8.以下评价指标最能直接反映“去除停用词后下游任务F1下降”这一现象?A.词表覆盖率B.平均句长C.信息熵D.任务F1本身答案:D解析:下游指标直接体现过滤副作用。9.在构建领域停用词表时,下列统计量最应被优先参考?A.词频B.逆文档频率C.词位移距离D.互信息答案:A解析:高频且无语义功能词是停用词核心特征。10.若将停用词去除环节后置到模型Embedding之后,则对模型造成的副作用是:A.参数量减少B.序列长度缩短C.位置编码失效D.词汇表膨胀答案:C解析:后置删除导致位置序号断裂,Transformer的位置编码会错位。二、多项选择题(每题3分,共15分,多选少选均不得分)11.以下哪些做法可有效避免“把‘新冠’误杀为停用词”?A.采用领域白名单B.引入时间窗口动态更新C.基于PMI互信息过滤D.采用字级别而非词级别答案:A、B、C解析:D选项字级别会显著增加序列长度,不直接解决误杀。12.在GPU加速场景下,停用词去除前置与后置的差异包括:A.显存占用B.计算图构建C.批次Padding策略D.反向传播路径答案:A、B、C解析:后置删除会改变动态图,但不影响梯度路径。13.使用TextRank提取关键词后再做停用词过滤,可能带来的问题有:A.关键词被二次删除B.TextRank图节点减少C.迭代收敛变慢D.权重稀疏答案:A、B、D解析:C选项节点减少会加快而非变慢。14.在联邦学习框架下,各方共享停用词表时应满足:A.差分隐私B.安全聚合C.同态加密D.明文传输答案:A、B、C解析:明文传输泄露词频分布,违反隐私。15.以下哪些符号常被错误地加入中文停用词表?A.¥B.℃C.】D.囗答案:A、B解析:¥与℃在财务、气象文本中具有语义,囗为罕见汉字,】为标点,通常可停。三、判断题(每题1分,共10分,正确打“√”,错误打“×”)16.停用词去除一定提升文本分类准确率。答案:×解析:过度过滤会损失特征,反而下降。17.英文“can”在医疗文本中可能被保留,因为情态动词影响诊断语气。答案:√18.在BERT预训练中已包含[unused]标记,因此后处理无需再去除停用词。答案:×解析:BERT仍受高频噪声影响,下游任务常需二次清洗。19.停用词表越大,模型推理速度越快。答案:×解析:表大说明过滤多,但速度瓶颈在模型而非过滤。20.采用哈希技巧可将O(n)查找降为O(1)。答案:√21.在CRF标注任务中,去除“的”会导致“的”字结构特征消失,可能降低实体边界识别。答案:√22.停用词去除属于可逆操作。答案:×解析:信息一旦删除无法完整还原。23.对于对话系统,用户口语“嗯”应一律删除。答案:×解析:语气词可能用于情感识别。24.在知识图谱构建中,停用词去除可提高实体对齐效率。答案:√25.使用FP-growth算法前必须去停用词,否则无法运行。答案:×解析:FP-growth可运行,但效率低。四、填空题(每空2分,共20分)26.在Python中,使用set而非list进行成员判断,时间复杂度从O(n)降至______。答案:O(1)27.若停用词表文件为2GB,单机内存16GB,最佳读取方式为______。答案:逐行迭代或内存映射(mmap)28.在Elasticsearch中,停用词配置位于______文件。答案:stopwords.txt(或自定义filter)29.当使用jieba分词时,命令`jieba.analyse.set_stop_words('stop.txt')`实质调用了______算法做关键词抽取。答案:TF-IDF与TextRank混合30.在Transformer中,若需对attentionmask进行停用词屏蔽,应将对应位置设为______。答案:-inf(或极大负数)31.在MySQL全文索引中,停用词由系统变量______控制。答案:ft_stopword_file32.若停用词表出现“疫情”一词,其DF=95%,则该词属于______(高频/低频)。答案:高频33.在Kubernetes容器内,停用词表更新后无需重启Pod的前提是将其挂载为______卷。答案:ConfigMap34.在HuggingFacetokenizer中,需设置`tokenizer.add_special_tokens({'additional_special_tokens':['<mask>']})`后才能识别,同理停用词屏蔽需维护______映射。答案:token-id35.在信息检索评价中,停用词去除对Recall的影响通常______(增大/减小/不确定)。答案:不确定五、简答题(每题10分,共20分)36.描述如何在Flink实时流中实现动态停用词更新,并保证Exactly-Once语义。答案:1)将停用词表存入支持幂等写入的MySQL,表结构含version字段。2)Flink作业启动时通过RichMapFunction的open()方法读取全表,并注册为广播状态。3)利用FlinkCDC或自定义Source周期性监听binlog,一旦检测到version变化,即生成一条控制流。4)控制流与数据流connect,通过BroadcastProcessFunction更新广播状态。5)在processElement中,每来一条文本,使用当前广播状态进行过滤。6)检查点机制:开启Checkpointing,状态后端使用RocksDB,并启用两阶段提交;MySQL写入采用幂等replace。7)故障恢复时,从最新checkpoint重启,广播状态自动回滚到一致版本,从而保证Exactly-Once。37.给出一种基于互信息(PMI)自动挖掘领域停用词的算法步骤,并说明如何设置阈值。答案:步骤:1)构建领域语料D,分词后统计词频co2)构建通用背景语料C(如维基),统计背景词频co3)计算P4)对高频词(coun5)采用双段阈值:硬阈值:PMI自适应:=μ−ασ,其中6)人工抽样复审前K个候选词,计算Precision@K,若<0.9则下调α0.1重新迭代。7)最终词表与通用停用词合并,完成领域适配。六、综合实操题(15分)38.给定如下原始日志片段(已脱敏),请完成:a)编写完整Python3脚本,实现自定义停用词过滤;b)输出去停后的文本、词频统计Top10、过滤比例;c)说明如何在不使用第三方分词库的前提下,仅用正则完成基本中文分词,并评估其风险。原始日志:2026-03-1514:23:01,783INFOuser_id=12345查询了新冠疫苗的不良反应的的的详情,结果返回为空要求:1)停用词表需包含通用高频词、助词、重复冗余词;2)脚本需支持命令行参数:输入文件、停用词文件、输出文件;3)代码需添加异常捕获,确保文件不存在时给出友好提示;4)输出结果示例:去停后:新冠疫苗不良反应详情结果返回为空Top10词频:[(‘新冠’,1),(‘疫苗’,1),…]过滤比例:45.45%答案与解析:```python!/usr/bin/envpython3coding:utf-8--coding:utf-8--importreimportsysimportosfromcollectionsimportCounterdefload_stop(path):ifnotos.path.exists(path):raiseFileNotFoundError(f"停用词文件不存在:{path}")withopen(path,encoding='utf-8')asf:returnset(line.strip()forlineinfifline.strip())defreg_tokenize(text):仅做演示:连续汉字视为一个词,其余过滤returnre.findall(r'[\u4e00-\u9fa5]+',text)defmain(in_file,stop_file,out_file):stop_words=load_stop(stop_file)withopen(in_file,encoding='utf-8')asf:raw=f.read()tokens=reg_tokenize(raw)filtered=[wforwintokensifwnotinstop_words]ratio=(len(tokens)len(filtered))/len(tokens)100ratio=(len(tokens)len(filtered))/len(tokens)100top10=Counter(filtered).most_common(10)withopen(out_file,'w',encoding='utf-8')asf:f.write('去停后:'+''.join(filtered)+'\n')f.write(f'Top10词频:{top10}\n')f.write(f'过滤比例:{ratio:.2f}%\n')print("完成,结果已写入",out_file)if__name__=='__main__':iflen(sys.argv)!=4:print("用法:pythonstop.py<输入文件><停用词文件><输出文件>")sys.exit(1)try:main(sys.argv[1:4])main(sys.argv[1:4])exceptExceptionase:print("错误:",e)```风险说明:正则仅

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论