版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
本申请公开了一种字幕区域识别方法、装字幕区域的文字区域与第i个候选字幕区域的位n个候选字幕区域中筛选得到字幕区域;字幕区域筛选策略用于将n个候选字幕区域中文字内容的重复率低于重复率阈值且显示总时长最长的2识别视频中的文字得到文本列表,所述文本列表包括至少将所述文字区域归整为n个候选字幕区域,属于第i个候选字幕区域的根据字幕区域筛选策略从所述n个候选字幕区域中筛选得到所述字幕区域;所述字幕区域筛选策略用于将所述n个候选字幕区域中所述文字内容的重复率低于重复率阈值且显于所述候选字幕区域的全部文字内容的所述显示2.根据权利要求1所述的方法,其特征在于,所述计算所述候选字幕区域的所述重复率,所述重复率为累将所述文字内容的所述重复率低于所述重复率阈值的所述候选字幕区域确定为初筛将所述初筛字幕区域中,所述显示总时长最长的所述初筛字幕区域3.根据权利要求2所述的方法,其特征在于,所述计算所述候选字幕区域的所述重复获取对应第j个候选字幕区域的第j组文本数据,所述第j组文本数据中的所述文字区将所述第j组文本数据中所述文字内容相同的所述文本数据归为同一个文本数据集计算最大的所述累计时长与所述视频的所述视频总重复上述四个步骤计算得到每个所述候选字幕计算对应所述初筛字幕区域的所述文本数据的所述显示时从m个文字区域中抽出一个文字区域作为第1个文字区域,将所述第1个文字区域确定3响应于所述第k个文字区域与所述候选字幕区域列表中的全部候选字幕区域的第二位其中,所述第一位置偏差包括两个所述上边线之差和两个所述6.根据权利要求5所述的方法,其特征在于,所述响计算所述第k个文字区域的第一高度,所述第一高度为所述计算所述第w个候选字幕区域的第二高度,所述第二高7.根据权利要求1至4任一所述的方法,调用光学字符识别OCR模型识别所述视频帧图像,得到所述视频帧图像中的候选文字对所述候选文字内容进行去重得到所述文字内容;所述去重包括将所述显示时刻连根据所述文字内容、所述文字内容的所述文字区域和所述显示时长生成所述文本列根据属于所述字幕区域中的所述文字内容识别所述视识别模块,用于识别视频中的文字得到文本列表,所述文4候选模块,用于将所述文字区域归整为n个候选字幕区域,属于第i筛选模块,用于根据字幕区域筛选策略从所述n个候选字幕区域中筛选得到所述字幕区域;所述字幕区域筛选策略用于将所述n个候选字幕区域中所述文字内容的重复率低于候选字幕区域上显示出同一种文字内容的显示累计时长占所述视频的视频总时长的比例,所述显示总时长为属于所述候选字幕区域的全部文字内容的所述显示时5[0001]本申请涉及人工智能的计算机视觉技术领域,特别涉及一种字幕区域识别方法、[0009]根据字幕区域筛选策略从所述n个候选字幕区域中筛选得到所述字幕区域;所述字幕区域筛选策略用于将所述n个候选字幕区域中所述文字内容的重复率低于重复率阈值[0013]筛选模块,用于根据字幕区域筛选策略从所述n个候选字幕区域中筛选得到所述6字幕区域;所述字幕区域筛选策略用于将所述n个候选字幕区域中所述文字内容的重复率所述代码集或指令集由处理器加载并执行以实现如上方面所述的字幕区算机程序产品或计算机程序包括计算机指令,该计算机指令存储在计算机可读存储介质[0022]图3是本申请另一个示例性实施例提供的字幕区域识别方法的视频帧图像示意[0023]图4是本申请另一个示例性实施例提供的字幕区域识别方法的视频帧图像示意[0025]图6是本申请另一个示例性实施例提供的字幕区域识别方法的视频帧图像示意[0026]图7是本申请另一个示例性实施例提供的字幕区域识别方法的文字区域的示意7[0034]人工智能(ArtificialIntelligence,AI)是利用数字计算机或者数字计算机控[0038]图1示出了本申请一个示例性实施例提供的计算机系统的结构示意图,该计算机别。8但不限于以下几种:随机存取存储器(RandomAccessMemory,RAM)、只读存储器(Read识别算法来进行字幕识别。可选地,第二存储器可以包括但不限于以下几种:RAM、ROM、[0045]服务器140可以是独立的物理服务器,也可以是多个物理服务器构成的服务器集[0047]图2示出了本申请一个示例性实施例提供的字幕区域识别方法的流程图。该方法9视频帧图像上的相同文字区域显示有相同的文字内容,则该文字内容属于一条文本数据,501的第一文字内容和位于第二文字区域502的第二文字内容,这两个为文字内容都是字字区域的位置偏差小于偏差阈值,则应该认为这两个文字区域属于同一个候选字幕区域,幕区域的区域位置为属于该候选字幕区域的高度最大的文字区域(对应横向显示的字幕),或,候选字幕区域的区域位置为属于该候选字幕区域的宽度最大的文字区域(对应纵向显字内容对应一个文字区域对应一个显示时长还对应一个候选字区域筛选策略用于将n个候选字幕区域中文字内容的重复率低于重复率阈值且显示总时长选字幕区域中选出显示总时长最长的候选字幕区域作为字幕[0067]图5示出了本申请一个示例性实施例提供的字幕区域识别方法的流程图。该方法二文字302、第三文字303,OCR模型识别这三条文字输出:第一文字301的候选文字内容:最后一次出现时的视频帧图像对应的显示时刻即可得到该文字内容的显示时长。示例性下的m-k+1个文字区域中抽出一个文字区[0095]步骤2025,响应于第k个文字区域与候选字幕区域列表中的全部候选字幕区域的列表中,然后从第二个文字区域开始先与候选字幕区域列表中现有的候选字幕区域作比较,是否能与现有的候选字幕区域相匹配(两个区域上边线之差要小于偏差阈值并且下边一文字区域701与第二文字区域702的位置偏差大于偏差阈值,第二文字区域702与第三文字区域703的位置偏差小于偏差阈值,第一文字区域701与第三文字区域703的位置偏差小702与第三文字区域703的位置偏差小于偏差阈值,第二文字区域702也会被归到该候选字大的累计时长与视频的视频总时长相除即可[0106]重复率是在候选字幕区域上显示出同一种文字内容的显示累计时长占视频总时[0109]示例性的,重复率高于重复率阈值的候选字幕区域可能为水印所在的文字区域、视频标题所在的文字区域或其他视频中文字固定不变(变换很少)的文字内容所在的字幕像采用OCR模型进行文字识别,对文字识别得到的候选文字内容进行去重后得到包含文字[0122]本实施例提供的方法,通过计算每个候选字幕区域上显据这一特征可以将初筛字幕区域中显示总时长最长的初筛字幕区域[0125]图8示出了本申请一个示例性实施例提供的字幕区域识别方法的流程图。该方法数据交付605。将识别结果中的文字内容与视频中对应时间段的音频作为语音转文字模型述字幕区域;所述字幕区域筛选策略用于将所述n个候选字幕区域中所述文字内容的重复长为属于所述候选字幕区域的全部文字内容的所述显示时与所述视频的视频总时长之比,所述累计时长为相同的所述文字内容的所述显示时长之[0142]所述筛选模块903,还用于将所述文字内容的所述重复率低于所述重复率阈值的[0148]所述计算模块904,还用于计算最大的所述累计时长与所述视频的所述视频总时[0149]所述计算模块904,还用于重复上述四个步骤计算得到每个所述候选字幕区域的[0152]所述候选模块902,还用于从m个文字区域中抽出一个文字区域作为第1个文字区个文字区域与所述候选字幕区域列表中的第w个候选字幕区域的第一位置偏差小于所述偏[0154]响应于所述第k个文字区域与所述候选字幕区域列表中的全部候选字幕区域的第第二位置偏差包括两个所述上边线之差或两个所述下边线之差,y为小于或等于n的正整第w个候选字幕区域;文字内容的所述显示时刻计算所述文字内容的所[0165]字幕模块906,用于根据属于所述字幕区域中的所述文字内容识别所述视频的字线1005。服务器1000还包括帮助计算机内的各个器件之间传输信息的基本输入/输出系统[0167]基本输入/输出系统1006包括有用于显示信息的显示器1008和用于用户输入信息[0168]大容量存储设备1007通过连接到系统总线1005的大容量存储控制器(未示出)连提供非易失性存储。也就是说,大容量存储设备1007可以包括诸如硬盘或者只读光盘(英上的远程计算机运行。也即服务器1000可以通过连接在系统总线1005上的网络接口单元以是:智能手机、平板电脑、MP3播放器(MovingPictureExpertsGroupAudioLayerIII,动态影像专家压缩标准音频层面3)、MP4(MovingPictureExpertsGroupAudio理器1101可以采用DSP(DigitalSignalProcessing,数字信号处理)、FPGA(Field-处理器是用于对在唤醒状态下的数据进行处理的处理器,也称CPU(CentralProcessing广角摄像头融合实现全景拍摄以及VR(VirtualReality,虚拟现实)拍摄功能或者其它融[0184]加速度传感器1111可以检测以终端1100建立的坐标系的三个坐标轴上的加速度[0186]压力传感器1113可以设置在终端1100的侧边框和/或显示屏1105的下层。当压力代码集或指令集由处理器加载并执行以实现上述各方法实施例提供[0195]本领域普通技术人员可
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 银发经济市场新需求
- 2026年高职(水利水电工程)阶段达标测试试题及答案
- 2026年生物制品每日一练附答案详解【突破训练】
- 2026年邮储银行技术类笔通关提分题库及完整答案详解(各地真题)
- 2026年国际理解教育课程
- 动物医疗专业就业方向
- 2026年考研政治冲刺押题试卷及答案(十九)
- 2026淄博市辅警招聘笔试题及答案
- 护理儿科护理课件制作
- 新生儿神经保护护理评估
- (2025年标准)球阀技术协议书
- 绵阳市格英达环保科技有限公司水基钻井废弃物综合利用及油气田钻采废水环保处理项目环评报告
- 2026届沈阳市重点中学中考考前最后一卷语文试卷含解析
- 即兴表演神经机制-洞察及研究
- 银行岗位资格管理办法
- DB61∕T 1893-2024 政府投资项目咨询评估规范
- 尚贤中学考试试题及答案
- 老年人智能手机培训教程
- -视觉质量评价
- 京东商品流程管理制度
- 规培考试心理试题及答案
评论
0/150
提交评论