版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
2026年人工智能训练师OCR标注实操考试题库及解析一、单项选择题(每题2分,共20分)1.在OCR标注任务中,下列哪一项最能直接决定后续模型对“字符级召回率”的影响?A.图像分辨率是否大于300dpiB.是否对模糊笔画做了“忽略”标记C.是否将粘连字符拆分为独立框D.是否使用灰度图而非彩图答案:C解析:字符级召回率的核心是“少漏字”。粘连字符若未拆分,会被模型视为一个整体,导致漏识别,直接拉低召回率。其余选项影响的是识别难度而非召回统计口径。2.对于竖排古籍的OCR标注,下列坐标顺序符合COCO格式且利于后续合成数据增强的是:A.[x_min,y_min,width,height]B.[top-left-x,top-left-y,bottom-right-x,bottom-right-y]C.[center-x,center-y,width,height]D.[y_min,x_min,height,width]答案:B解析:古籍竖排阅读顺序从上到下、从右到左,使用两点式框可在旋转90°增强后仍保持框与文字流向一致,而COCO格式本身支持两点式扩展。3.当标注规范要求“对半透明水印文字一律不框”时,下列做法最合规的是:A.用低透明度覆盖层隐藏水印后截图再框B.保留原图,跳过水印区域,其余正常框C.用PS抹除水印文字后框选D.将整张图标记为“废弃”答案:B解析:规范明确“不框”而非“删除”,保留原图完整性才能避免引入抹除痕迹导致的分布漂移。4.在发票OCR项目中,需同时输出“金额”与“税额”两个字段。下列关于键值对标注的说法正确的是:A.金额与税额可共用同一个外接矩形框以节省标注时间B.金额值若打印错位,应框住肉眼可见的全部数字,即使跨行C.税额为0时,可留空不框D.若金额打印为“¥123,456.78”,应框住“123,456.78”而舍弃符号答案:B解析:错位数字属于可见信息,不框即漏标;A导致字段混淆;C造成训练样本缺正例;D舍弃货币符号会丢失关键特征,模型难以泛化到“¥”场景。5.利用LaTex公式计算IoU时,若预测框为A,真实框为B,则:A.IB.IC.ID.I答案:B解析:IoU定义即为交集比并集,B正确。6.在表格OCR中,对于跨5行的单元格,其rowspan属性在标注时应记录为:A.5B.4C.1D.无需记录,由模型自动推断答案:A解析:rowspan=5表示该单元格纵向占据5行,标注阶段即需给出,以便下游结构复原。7.下列关于手写体“连笔”标注策略,错误的是:A.按笔画可视间隙拆分单字框B.若间隙极难辨认,可整词组框并标记为“bad_split”C.为提升一致性,同一标注员对相似连笔必须给出相同拆分D.允许引入辅助虚线辅助线,但不得保存至最终json答案:C解析:一致性要求的是“规则”而非“结果”一致,难以辨认的连笔允许整词组框,强制相同拆分反而降低标注可信度。8.在车牌识别数据集中,若图像出现双重阴影导致字符笔画断裂,下列处理最合理的是:A.直接弃图B.用PS修复断裂后框选C.按肉眼可读性框选,并在字段级标签加“shadow_break”标志D.框选断裂部分,分别标注为两个字符答案:C解析:保留原图、记录扰动类型,既不弃样也不伪造,利于后续鲁棒性研究。9.对于多语言混排场景(中英日韩),下列关于Unicode归一化说法正确的是:A.所有全角字母需强制转为半角B.韩文音节需分解为字母C.日文汉字保持原码位,不做简化繁体转换D.中文繁体需强制转为简体答案:C解析:日文汉字(Kanji)与中文繁体虽字形相近,但码位不同,强制转换会丢失语言信息;A、B、D均属于过度归一化。10.在序列标注中采用BIO方案,对于“北京市”这一词汇,下列标签序列正确的是:A.B-LOCI-LOCI-LOCB.B-LOCB-LOCB-LOCC.I-LOCI-LOCI-LOCD.OOO答案:A解析:B表示开始,I表示内部,单词汇连续三字地理实体应BII。二、多项选择题(每题3分,共15分)11.以下哪些做法会引入“数据泄露”从而高估OCR模型性能?A.将同一版式模板生成的训练集与测试集按8:2随机拆分B.用同一家印刷厂提供的扫描件分别放入训练与测试C.测试集使用训练集已见过的字体文件D.测试集采用与训练集不同拍摄角度的手机拍照答案:A、B、C解析:同一模板、同印刷厂、同字体均会导致分布高度一致,模型在测试集上“见过”风格,泄露风险高;D则属于合理的分布外测试。12.在发票代码字段标注中,下列哪些异常需触发“整票废弃”标记?A.发票代码区域被红色印章完全覆盖,人眼不可读B.发票代码打印缺失最后一位,但可凭校验码反推C.图像出现纵向拉伸导致字符高宽比>3D.发票代码区域存在一条宽度1px的横向黑线答案:A、C解析:A人眼不可读即无真值;C高宽比极端,模型难以收敛;B可反推,仍可用;D黑线属于局部噪声,可保留。13.下列关于“端到端OCR”与“两阶段OCR”数据标注差异,描述正确的有:A.端到端无需字符级框,仅需文本行框B.两阶段需额外提供字符级框以训练检测分支C.端到端在标注时需给出按阅读顺序的字符串标签D.两阶段在训练识别分支时无需文本行框答案:A、C解析:端到端直接输字符串,故只需行框+顺序标签;两阶段需字符框训练检测,但识别分支仍需行框做切片。14.在采用CTCLoss训练识别网络时,下列哪些标注策略可有效减少“重复字符”误识?A.在标签中插入空白符“-”B.对连续相同字符合并为一个C.在数据集层面统计并加权重复样本D.在解码阶段采用beamsearch+词典约束答案:C、D解析:CTC理论已处理重复,标签无需人工合并或插入空白;数据集加权和词典约束可在训练与推理阶段抑制重复。15.以下哪些指标可直接用于衡量OCR标注一致性?A.Kappa系数B.Fleiss’KappaC.CERD.IoU答案:A、B解析:Kappa系列衡量标注员间一致性;CER为识别错误率;IoU为检测精度,非一致性。三、判断题(每题1分,共10分)16.在弯曲文本行标注中,采用多边形框比旋转矩形框更省标注时间。答案:错解析:多边形需逐点拖动,耗时通常更高。17.对于PDF文本层抽取,若抽取字符与视觉位置偏差<2px,可跳过人工标注。答案:对解析:偏差小于2px对模型影响极小,可视为自动标注合格。18.在医疗化验单OCR中,为保护隐私,应将患者姓名直接涂黑后再标注。答案:错解析:涂黑属于信息销毁,应通过脱敏协议与权限控制解决,而非伪造图像。19.采用数据合成方式生成车牌图像时,无需考虑字体边缘的抗锯齿差异。答案:错解析:真实拍摄字体边缘呈自然模糊,合成若忽略抗锯齿会导致域差距。20.对古彝文OCR,Unicode尚未收录的字符可用私用区码位+自定义字体映射,并在标注文档中说明。答案:对解析:私用区是Unicode允许的方案,只要映射表公开即可。21.在关键点检测任务中,若文字角点被遮挡,可人为估计并标注。答案:错解析:人为估计引入噪声,应标记“不可见”。22.对于竖排文本,阅读顺序标签应从右到左、从上到下。答案:对解析:符合古籍排版习惯。23.当图像出现透视畸变时,标注员可直接使用梯形框近似,无需四边形坐标。答案:错解析:四边形坐标是标准,梯形框是四边形特例,仍需四点。24.在序列标注中,采用BIESO方案比BIO方案多一个“End”标签,可减少边界歧义。答案:对解析:E标签明确结束,利于模型定位边界。25.对于小语种OCR,字符集构建应遵循“所见即所得”原则,不强制归并形近字。答案:对解析:形近字在小语种中可能代表不同音位,归并会丢失信息。四、填空题(每空2分,共20分)26.在COCO格式中,表示多边形框的字段名为________。答案:segmentation27.若真实框面积G=7200,预测框面积P=答案:0.500解析:Io28.在CTC解码中,去除重复及空白后,字符串“--hh-e-l-ll-o”解码为________。答案:hello29.对一张A4扫描件(210mm×297mm),以300dpi扫描,其像素尺寸为________×________。答案:2480×3508解析:210/25.4×30.在OCR后处理中,采用三元语言模型计算句子概率,公式为P(答案:P31.对于弯曲文本行,采用________变换可近似校正为水平直线。答案:Thin-PlateSpline(TPS)32.在标注协议中,若出现不可见字符,应使用标签________表示。答案:###或<UNK>(任填一种即可)33.当标注员间Kappa系数<________时,需启动标注规范再培训。答案:0.734.在车牌识别中,中国大陆新能源车牌字符集长度为________位。答案:8解析:含1位汉字+1位字母+6位数字/字母。35.对于古竖排文本,按现代阅读习惯转换后,其阅读顺序编号应采用________排序。答案:从右到左、从上到下(或“逆序”亦可)。五、简答题(每题10分,共20分)36.描述如何在无标注的情况下,利用印刷体模板与字体文件自动合成一套中文发票OCR训练数据,并说明如何控制分布外风险。答案与解析:步骤:1)收集真实发票版式PDF,提取背景层(去除文字)得到空模板;2)用Python脚本随机生成字段值(金额、税额、代码等),并加入校验码算法;3)使用Truetype字体渲染至模板,随机加入透视、模糊、抖动、墨水扩散;4)用Poisson融合将渲染文字贴回模板,生成逼真图像;5)同步输出字符级与行级坐标及文本标签。分布外风险控制:a)字体库需覆盖宋、黑、仿、楷及加粗、斜体,并留10%样本用稀有字体;b)对真实采集的100张发票做“字体分布直方图”,用EMD距离约束合成数据分布差异<0.05;c)在测试集保留真实拍照样本,确保合成数据训练的模型在真实集上F1下降<3%,否则增投真实样本微调。37.给定一张倾斜15°的身份证国徽面图像,说明标注员如何快速完成“公民身份号码”字段的旋转矩形框标注,并给出校正后该字段的像素宽高比阈值,用于后续质检。答案与解析:操作:1)在标注工具中启用“旋转矩形”模式,以国徽面底边为水平基线,逆时针旋转15°使x轴对齐;2)框选“公民身份号码”18位数字区域,读取工具返回的旋转角θ=-15°、中心点(cx,cy)、宽高(w,h);3)利用工具脚本自动将四点坐标校正为水平,计算校正后宽W’与高H’;4)宽高比r=W’/H’,经验阈值范围:r∈理由:18位数字采用OCR-B字体,实际测量平均宽高比约7.1,允许±0.3容忍打印与透视误差。六、实操题(共15分)38.请在提供的测试图(test_01.jpg,分辨率2320×3088,内容:夜间拍摄的路边收费小票,存在运动模糊、光照不均、透视畸变)上完成以下任务,并提交对应json与说明:a)用多边形框标出所有可见数字与字母,字段包括“单价”“数量”“金额”
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 长沙市浏阳市2025-2026学年第二学期五年级语文期末考试卷(部编版含答案)
- 长治市潞城市2025-2026学年第二学期五年级语文第七单元测试卷(部编版含答案)
- 2026年个人信息保护法培训考核试题及答案
- 2026年明星经济合同和劳动合同(1篇)
- 季度业务风险评估结果通报(5篇)范文
- 机器学习算法原理与实战应用
- 项目推进管理及成果品质保证函6篇范文
- 2024年内蒙古包头市中考化学真题(含答案)
- 项目资金拨付申请回复函(6篇)范文
- 贫困地区援助活动实施承诺书8篇范文
- 导热油炉安全操作规程
- 果树修剪培训课件
- 精神科叙事护理案例分享
- 2025版幼儿园章程幼儿园办园章程
- 《物流经济地理》课件(共十二章)-下
- 《大学英语》课程说课说课
- 2025年事业单位招聘考试职业能力倾向测验试卷(造价工程师类)
- 煤矿安全学习平台
- 推掌防御反击技术课件
- 外科ICU职业防护课件
- DB31/T 1339-2021医院多学科诊疗管理规范
评论
0/150
提交评论