




已阅读5页,还剩97页未读, 继续免费阅读
(信号与信息处理专业论文)基于机器学习方法的视频标注研究.pdf.pdf 免费下载
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
i i l 司科学技术人学博上学位论文摘要 摘要 随着存储设备、计算机嘲络和压缩技术的发展,产生了大量的视频数据,如何有效 地处理硐i 访i i u j 这些数据,成为个迫钐j 需要解决的问题。视频语义标注可以根据视频所 体现的内容按概念对其赋予标号,在此基础上可以实现高效的视频数据处理( 如索引、 检索和缩略等) 。 完全使用人工来实现视频标注任务,无疑可以获得相当精确的结果。然而手工标注 是一项费时费力的工作,无法在大规模的数据集和概念集上应用。因此,使用机器学习 方法来实现这一任务成了必然的选择。本文主要针对基于机器学习的视频标注展开研 究,提出了。系列方法,以期能够对非特定领域数据集和概念集,自动地或在尽量少的 人工参与情况下,取得与完全手工标注尽可能接近的结果,达到可实际应用的目的。本 论文的主要研究工作如下: 在传统的核密度估计方法中引入未标注数据的信息,提出了半监督核密度估计以 及半监督自适麻核密度f + 计,以解决视频标注中训练数据不足的问题。传统的核 概宰密度估计办法形式简单,便于使用,但是其性能非常依赖于训练样本的数目, 当训练样本很少时会导致其性能降低。而在视频标注中,训练数据不足是经常 遇到的问题。通过引入未标注数据。可解决这个问题,改善核概率密度估计方法 的性能。另外,本文还分析了所提算法和基于图的半监督学习之间的关系。 我们提出了一种统一自动视频标注方法。除了训练数据不足的问题,视频标注中 还存在着一系列其它的问题包括维数灾难,距离度量的选择和时间连续性的挖 掘。本文通过分析,指出这些问题都可以归结为样本的相似性度量闯题或者半监 督学习问题,因此这四个问题的应对可以描述为一个多图半监督学习的问题。本 文提出一种名为最优多图半监督学习方法,将多张图集成到一个正则化框架中, 并且町同时优化这些图的加权系数。 研究基于多概念多模念土动学习的半自动视频标注。主动学习是一种人机结合的 学习途径,其通过学习和样本选择的迭代进行,可选出比随机挑选方法更为有效 的训练集。因此使用主动学习来进行半f ! ! i 动视频标注,是解决训练数据不足的一 种新途径。然而已有的主动学习算法火多没有考虑视频标注中的多概念和多模态 的特点,本文针埘这一问题提出了多概念多模态主动学习算法,可同时考虑这两 个问题。在主动学习的每一轮中,具有最大期望性能增益的概念被选择,并且选 取批合适的样本来对该概念进行标注。在选取样本的过程中,从每个模态选取 的样本数被限定为与该模态的期望性能增益成正比。之后,对每个模态使用基于 图的半监督学列算法来标注该概念。通过这种途径,可充分挖掘人工标注的劳动, 同科学技术人学博上学位论文 摘要 订! 尽可能少人工参与的情况下获得更好的标注结果。 4 研究刈视频镜头人小的标注。日前视频标注i 一的待标注概念人多集f 1 1 于场景、事 件和物体等,而忽略了镜头大小这种特殊的概念。与一般的概念不同,视频镜头 大小概念有其自身的特点,例如其瓦斥而又具有定的顺序关系。此外,对于视 频镜头大小的标注仅采用常用的底层特征很难取得好的效果,而这些概念与些 中层特征,例如视频帧中物体的数月以及人小等,有较强的联系。因此,本文介 绍了一种基于底层特征和中层特征互训练的方法来标注视频镜头人小,此外,针 对种镜头人小概念之阳j 的关系,引入代价函数并实现代价最小的判决。 虽然小文所捉的算法都是面向视频标注,但是很多方法实质上也能直接应用于其它 领域( 如半j i i 督核密度估计和多图半监督学习等) ,在文中也会有具体介绍。视频标注 问题,涉及到机器学爿、计算机视觉以及认知科学等多个领域,希望本文的研究工作, 也能为相关领域提供一些新的思路与方法。 关键训:视频标注,视频检索,机器学习,半j l 【督学习,丰动学习,多概念,多模态, 镜头大小 - i - 用科学技术人学i 蹲上学位论文 a b s t r a c t a b s t r a c t w i t ht h ea d v a n c e si ns t o r a g ed e v i c e s ,n e t w o r k s ,a n dc o m p r c s s i o nt e c h n i q u e s ,i a f g e s c a l e v i d e od a t ab e c o m ea v a 订a b l et om o r c 卸dm o 陀o r d i n a 哕u s e 俗h o wt om a n a g ea n da c c 髂s t h e s ed a t ab e c o m e sac h a i l e n g i n gt a s k v i d e os e m a n t i ca n n o t a t i o ni sat h n i q u et h a ta n e m p s t od e t e c ts e m a n t i cc o n c e p t si nv i d e oc i i p sa c c o r d i n gt ot h e i rc o n t e n t ,觚d tc 锄f a c i i i t a t e h i g h i e v e la p p l j c a t j o n s ,s u c h 弱v i d e oi n d e x i n g ,r e t e v a i 卸ds u m m a r i z a t i o n t h em o s ti n t u i t i v ea p p r o a c ht oa c c o m p l i s h i n gt h i st 私ki s m a n u a l 锄n o t a t i o n h o w e v e r , m a n u a ia n n o t a t i o ni sai a b o r - i n t e n s i v ca n dt i m e - c o n s u m i n gp 删潮;s ,觚d tc 柚h a r d l yb e a p p i i e df o ri a 唱e s c a l ed a t as e to rc o n c e p ts e t t h u s ,l e a m i n g - b a l s e dv i d c 0a n n o t a i i o nb e c o m e s a na l t e m a t i v em e t h o d 1 nt h i st h e s i s ,w ep r o p o s es e v e r a ll 朗m i n g - b 笛e dv i d e o a n n o t a t i o n m e t h o d s ,w h ;c ha i mt oo b t a i na c c u r a t ea n n o t a t i o nr c s u l t sa u t o m a t i c a l l yo rs e m i a u t o m a t i c a l l y ( w i t hm i n i m u mi n t e r a c “v em a n u a io p e r a t i o n s ) t h em a i nc o n t r i b u t i o n sa 他u s t r a t e d 雒 f o l l o w s : w ej n c o 币o r a t eu n i a b e l e dd a t ai n t ot h et m d i t i o n a lk d ea i g o r i t h m 锄do b t a i n 锕o s e m i s u p e r v i s e dm e t h o d s ,i e ,s s k d ea n ds s a k d e ,w h i c ha r ea b i et 0t k l et h e t r a i n i n gd a t ai n s u f f i c i e n c yp r o b l e m t h et m d i t i o n a lk d em e t h o di ss i m p l e y e te f f i c i e n t , b u ti t sp e r f o m l a n c eh i g h l yd e p e n d so nt h es i z eo f t r a i n i n gs e t o nt l l eo t h e rh a n d ,t m i n i n g d a t ai n s u 币c i e n c yi sf r e q u e n f j ye n c o u n t e r e di nv i d e oa n n o t a t i o nd u et ot h eh i g hl a b o r c o s t so fm a n u a ia n n o t a t i o n t h r o u g ht h ee x p l o i t a t i o no fu n l a b c l e dd a 饥t h i sd i 币c u l t yc a n b e 撒a c k e da n da n n o t a t i o np e r f o r m a n c ec a nb es g n 讯c 勰t l yi m p r o v e d w ep m p o s eau n n e da u t o m a t i cv i d e oa n n o t a t i o ns c h e m e b e s i d e st h et r a i n i n gd a t a i n s u f n c i e n c yp r o b l e m ,t h e r ea 陀s e v e m lo t h e rd im c u l t i e si nv i d e 0 卸n o t a t i o n i n c i u d i n g t h ed i m e n s i o n a i i t yc n r s e ,f h ec h o i c eo fd i s t a n c em e t r i c ,a n dt h eu t i l i z a t i o no ft e m p o m l c o n s i s t e n c y w bh a v ea n a l y z e dt h a tt h e s ep r o b l e m sa l ic o n e s p o n dt ot h es i m 1 a r i t y e s t i m a t i o ni s s u eo rs e m i s u p e r v i s e dl e a m i n gp r o b j e m ,锄dt h u st h e yc a nb et a c k l e di na m u l t i g r a p hs e m i s u p e r v i s e di e a m i n gs c h e m e w ep r o p o s ea no p t i m i z e dm u i t i g r a p h s e m i 。s u p e r v i s e dl e a r n i n g ( o m g - s s l ) m e t h o d ,w h i c hi n t e g r a t e sm u l t i p l eg r a p h si n t 0a u n f i e dr e g u i a r i z a t i o nf h m e w o r ka n dt h ew e i 曲t sc a nb ea u t o m a t i l l ya d j u s t e da c c o r d i n g t oc e r t a i nc r t t e r o n w 色p r o p o s eam u l t i c o n c e p tm u i t i - m o d a l i t ya c t i v ei e a m i n gm e t h o df o rs e m i - a u t o m a t i c v j d e oa n n o t a t i o n a c t i v el e a m i n gj sa ni n t e r a t i v ei e a m i n ga p p r o a c ht h a ti n v o l v e s b o t h h u m a na n dc o m p u t e r t h r o u g ht h ei t e r a t i o no fl e a m i n ga n ds a m p i es e l e c t i o n ,t h eo b t a i n e d i l z 工 i 围科学技术人学博上学位论文 a b s t r a c t t 豫i n i n gs e tc a nb em o r ee f f 爸c t i y et h a nt h a tg a t h e r e df a n d o m ly t h u s ,印p i y i n ga c t i v e l e a r n i n gi sa n o t h e rp a r a d i g mt ot a c k l et h et r a j n i n gi n s u f f i c i e n c yd i f 葡c u l t y h o w e v e r m o s t o fl h ee x i s i i n ga c t i v el e a r n i n gm e t h o d sa p p i i e di nv i d e oa n n o t a t i o nh a v en o tc o n s i d e r e d t h ep 九) p e n i e so fv i d e oa n n o t a t i o n ,i e ,m u i t i p l ec o n c e p t sa n dm u i t i p i em o d a i i t i e s s 0 ,w e p r o p o s eam u l t i c o n c e p tm u l t i m o d a l t y t j v el e a m i n gm e t h o dt os i m u i t a n e o u s l ya d d r e s s t h e s et w oi s s u e s i ne a c ht u m ,t h ec o n c e p tt h a ti se x p e c t e dt og c tm eh i g h e s tp e r f o m a n c e g a j ni ss e i e c t e d ,a n dt h en u m b e r so ft h es e l e c t e ds a m p l e sf o rm u i t i p l em o d a l i t i e sa r es e tt o b ep r o p o r t i o n a lt ot h e i rc o r r e s p o n d i n gp e r f o 册a n c eg a j n s a n e rt h 矾ag m p h b a l s e d s e m i s u p e r v i s e dl e a m i n gm e t h o di sa p p l i e df o re a c hm o d a l i 够i nt h i sw a y t h eh u m a n e f f o r t sc a nb es u 仃i c i e n t l ye x p l o r e d 4 w ep r o p o s eav i d e os h o ts i z ea n n o t a t ;o ns c h e m e t h ea n n o t a e dc o n c e p t si nt h ee x i s t i n g w o r k sm a i n l yb e l o n gt os c e n e ,e v e n ta n do b j e c tc a t e g o r i e s ,a n dt h ev i d e os h o t s i z e p a t t e r n sa r ej g n o r e d d i f f e r e n tf r o mt h e s eg e n e r a lc o n c e p t s ,v i d e os h o ts i z ep a t c e m sh a v e t h e i ro w np r o p e r t i e s f o re x a m p l e ,t h ep a n e r n sa r ee x c i u s i v ea n dt h e r ee x i s t sc e r t a i no r d e r a m o n gt h e m i na d d i t i o n ,o n l yu s i n gt h eo f t e n a p p l i e dl o w l e v e lf e a t u r e sc a nh a r d l y o b i a i ns a t i s f a c t o 口r e s u i t s ,s i n c et h ep a t t e m sa r ec o 丌e l a t e dw i t hs e v e r a lm i d l e v e if a t u r e s , s u c h 雒t h en u m b e r sa n ds i z e so ft h er e g i o n si nt h ef h m e s t h u s ,w ep r o p o s eav i d e os h o t s i z ea n n o t a t i o ns c h e m eb a s e do nt h ec 0 - t r a i n i n gb e t w e e nal o w - l e v e lf e a t u r es e t 蚰da m i d l e v e if e a t u r es e t f u n h e r m o r e ,b 笛e do nt h eo r d e ri nt h es h o ts i z ep a t t e m s ,ac o s f u n c t i o ni si n t r o d u c e d ,a n dt h en n a i d e c i s i o ni sm a d ea c c o r d i n gt oc o s t m i n i m i z a t i o n c r i t e r i o n 。 an o i e w o n h yi s s u ei st h a ta l t h o u 曲t h em e t h o d si nt h i st h e s i sa r ep r o p o s e df o rv i d 锄n o t a t ;o n ,;nf a c tt h e yc a nb ea p p i i e di nm a n yo t h e rd o m a i n s 嬲w e l i ( s u c h 於t h es s k d e a n do m g - s s lm e t h o d s ) v i d e oa n n o t a t i o ni s c i o s e l yr c l a t e dw i t hm a n yd i f f b r e n td o m a i n s , s u c ha l sm a c h i n ei e a r 九i n g ,c o m p u t e rv i s i o na n dc o g n i t i v es c i e n c e w ea i s oh o p et h a to u rw o r k c a np r o v i d es e v e r a ii n s p i r a t i o n so rm e t h o d sf o rt h e s ec o m m u n i t i e s k e y w o r d :v i d e oa n n o t a t i o n ,v i d e or c t r i e v a l 。m a c h i n el e a m i n g ,s e m i s u p e r v i s e dl e a m i n g , a c t i v el e a m i n g ,m u l t i - c o n c e p t ,m u l t i - m o d a l i t y ,s h o ts i z e 同科学技术人学博上学位论文 捕罔口录 插图目录 侧1 i 泓锨i q i 汁通过犄呔口特砌映刑! i i j i 凸义概念米缩小语义鸿沟l 1 2 矿j t 喊抓汪j 汛i i l 4 譬川j 、,榆索需求映| ;| 1 j 尘i j 语义慨念以完j 垃m :! i i 愉索2 f 哥i 3 莉i 靛衫m 蝴处蚪j _ 嘲l f i ,l j 使j | 高按特征来许代底域特征以取得巫奠,的效果 2 图1 4 0 i 州的珠j :机器学习的视硼杯注框架3 l 剞1 5 个f f ,本可能j :l 仃多个概念,故心将每个概念的标注作为一个曲类分类问题 。:3 网i 6 参加r r e c v i d 视坝+ ,j 、汁任j 务的( j r o u p 数l j 呈现递增的趋势5 剖2 i 视频内弈的多级结构分解1 0 吲2 2 个r 镜次切分范例1 1 i 冬i2 3 个核密度1 i 计的简啦实例。i 纠中每类各仃:i 个训练样本,这里采j | j 丫高 ! i 受i f i 数,:参荔乏盯设胃勾o 1 。1 6 科2 4 芰”l 向艟l j j 而- p 把驯。心t - 最接近分界的训练f f 小被称为“支持向量” l8 l 斟2 5 t r i ! ( 、v 1 1 ) 2 ( ) 0 5 皱 l i :的p 与跫键恸范俐2 i i 纠3 1 ( a ) 丛r j j 督;:j j 的州坝标汴榧粜;【b ) 整r 半监督学刊的视频标沣框架2 4 罔3 2 f a ) 他l lj 高 l j i _ 核j _ :_ j 4 移的饮崭嫂f j j i ,人标。0 表示已标注样今:( b ) 假设未标 汀 丫小的杯j 已知i n j f i 十汁社抬i j 的慨率街艘函数。川以看f | , 1 ( a ) t i ,估汁的概率 街肢函数由- j 二样小数 1 太少导致4 i 够精确,分类i n i 山产生了偏离,而i 划( b ) 得到 f l , ,i 粜l j ! i j 灯孔 多2 5 l 剞3 3 概率密度和j i 一验概j 簪之 u 的双阳天系。2 7 l 司3 4 s s k f ) f 的j 生f 求l ,0 ¥j 二i f v 3 0 图3 5 俯仃两1 、振汀小的仿r l 数料集( a ) 所有样:水的标弓;( b ) 已标轴! 样本3 5 l 划3 6 i 种分刁:乃。i 上i 介仿f c 数搀:策j :的r l i 能刈比3 5 i 矧4 1 前端融念,后端融合与t 瑞融合的示意图4 2 罔4 2 。段包含,聂奠慨念的税频 段4 3 i 冬j4 3 艰于o m g s s l 蛑法的桃频标注示意l :| 4 3 i 冬| 4 4 _ j :巾 纠1 1 q 、l j 中 学习的迭代求解过程4 4 l 纠4 5 o m g s s l 珏浊n ,j 选代水解过科4 7 剞4 6 乐池旧像以硬 c :小l l i j | _ k i 一 ,的临近样小4 9 f 纠4 7 六种弹法6 :人物i ;! 圳任务, i 的结果比较5 0 l 划- 1 8 s v m 、n 0 端融合、i 一端融合和i j r 刊苗融含的制i 能比较。5 l i 纠4 9 班1 化凡j 的 引r f j 皂1 j 十j 哥i 埘比5 3 图4 i o o m ( ;s s l 的性能,j 他川的圈的数n 之i 日j 的火系5 4 图4 。l1 o m g s s l 的性能与r 的关系5 4 l 纠4 1 2 迭f 过群 的性能蛮化5 4 闷5 i ( a ) 颦j := f = 豁杼学爿的臼动视频标注标架;f b ,基十: ! 动学= j 的半臼动视频标 :卜骶乌鬯;6 0 i 翊5 2 多概念多襁态:动学刊流挥6 2 翻5 3 一种平fl2 由 木注槌式f 1 0 比较,6 2 蚓5 4 小川抖小选驭一疗沤的性能比较( = 5 0 0 ) 6 7 v l l l i - 同科学技术人学博| 上学位论文撬圉羁录 燃5 。5 4 :概念选取。办。法的盹能比较( 卉= 5 0 0 ) 6 8 图5 6 二i 副刚像刖概念( 伽应都标为i f i 例。然而标往所需的时问应 i 二j 二其l i 物休的 l l j 瞬认作l f j 扶五:到也递减6 9 i 纠6 i 具仃b l i i l d i n g 概念的:! 个视频镜_ i ,其具钉不川的镜头大小7 2 陶6 2 所祝视频镜头- 人小标汴流程7 2 i 割6 3 底崩特玑( 9 5 维) 的选取7 3 图6 4 对罔像的:压;次分割示例7 3 h6 5 特f i i :+ 1 i 父h 。7 5 阁6 6 且训练算法流程阁7 5 罔6 ,7 些关键帧弛例7 6 j 纠6 8 了l :训 :! j ;过引,i 一的性能| | i 线7 7 同科学于上术人学l 棹上学位论文表格口录 表格目录 表1 i 协钉:7 r r f c v l d 怀汴f f 务的评价概念统 卜8 诙3 i p q 个分炎6 u 题f | 勺拥笼信息3 4 太3 21 i 川l ,法的枷:注r 能比较h l i ( gj 和( e ) 分别足示离斯核和指数核3 8 表4 1 试黔所心八个秘态5 0 表4 4 标号的意义1 j 墩f l i 【5 5 表4 2 他川小川距离度量的o m g s s l 结柴比较5 7 袭4 3 n 丁( i t gl 、t g 2 羽it g1 + t g 2 的性能比较5 8 收5 1 他川昕仃j i :发椠作为洲缘集的绡粜6 7 采6 ,i ,j | jj :隧频镜头人小 ,:i :的特征,7 4 善:6 0 趣f f 介没胃7 6 丧6 3 他川| :刚牛j j 矩 :的分炎结浆7 7 x 中国科学技术大学学位论文相关声明 本人声明所呈交的学位论文,是本人在导师指导下进行研究工 作所取得的成果。除已特别加以标注和致谢的地方外,论文中不包 含任何他人已经发表或撰写过的研究成果。与我一同工作的同志对 本研究所做的贡献均已在论文中作了明确的说明。 本人授权中国科学技术大学拥有学位论文的部分使用权,即: 学校有权按有关规定向国家有关部门或机构送交论文的复印件和电 子版,允许论文被查阅和借阅,可以将学位论文编入有关数据库进 行检索,可以采用影印、缩印或扫描等复制手段保存、汇编学位论 文。 保密的学位论文在解密后也遵守此规定。 作者签名:逛强 扣年多月厂日 f 丽科学技术人学博上学位论文第一章绪论 1 1 课题背景与研究意义 第一章绪论 随着计算机和网络技术的发展,使得普通用户可以接触到越来越多的视频数据。与 文本、语音等媒体相比,视频提供了大量有用的信息,其内容更加丰富、直观和生动。 一方而,丰富的视频数据包含的海量信息,这是其它媒体类型所无法比拟的;但在另一 方而,其e 益庞大的数据量、非结构化的数据形式和内容的多义性,又为方便的用户交 互操作设置了障碍,影响了它发挥更人的作用。人们已经习惯于在互联网上查找各种信 息,同前,很多搜索引擎已经能很好的解决文本的搜索问题( 如g o o 西e 、b a i d u 和y a h o o 等) ,但是对于视频数据的检索仍无有效的方法,其主要原因是由于视频的数据量大以 及内粹复杂的特点导致缺乏有效的手段对其建立适合检索的索引。要对这些数据进行高 效的操作,如浏览、访问和缩略等,需要对视频内容进行合适的索引。而视频语义标注 ( 通常又称为视频概念检测、高层语义特征提取等) ,即根据视频所体现的内容按概念 刘其赋予标号,正是建立视频索引,进而实现高效视频数据处理( 包括缩略,浏览和检 索等) 的必要基础。 锻 圃 以视频检索为例,基于内容的视频检索中的最大难题在于视频底层特征( 如颜色直 方图,边缘直方图以及纹理特征等 1 ,2 ,3 ,4 】) 与用户检索需求之间的“语义鸿 沟”( s e m a n t i cg a p ) ,而视频标注则可解决这个问题【5 ,6 ,7 ,8 】。h a u p t m a n n 指出【5 】,视频 语义标汴可以将底层特征与用户需求之问的鸿沟,切分为两个较小的鸿沟,即:( 1 ) 底层 一0 0 同科学技术人学博上学位论文第一章绪论 特缸与语义概念之问的鸿沟;( 2 ) 语义概念到用户需求之间的鸿沟。视频标注,正是要完 成视频的底层特征到语义概念之间的映射,如图1 1 所示。在基于内容的视频检索巾,若 已有标注基础,则几j 。以将用户提出的查询需求分解到标注好的概念,即可快速准确地获 得榆索结果,如图1 2 所示。 捻索需求 ( 臀群站n :臀乍酱押 找到州垃以r 的建筑物 ( 警察,警4 :犯) ( 建筑。火守) 返回检索序列 图1 2 在完成标注后,_ 口j + 将用户检索需求映射到语义概念以完成视频检索 除了能服务于榆索,视频标注还能应用于其它很多方向。因为实质卜对视频标注的 麻用是将标沣好的语义概念作为“高层特征”( h i g h l e v e lf e a t u r e ) 来替代底层特征,如 图i 3 所尔。例如往视频缩略【9 ,1 0 ,1 l ,1 2 】中,其本质是要尽量么除视频数据中的冗余。 传统的方法,多是通过底层特征米分析这种冗余性,然而完全也可用高层特征来替代底 层特征,即通过语义概念来分析冗余性,以获得更好的缩略效果 1 3 】。 麟黯回镬 匕。0 0 :_ 。 幽戳豳豳 麟黼驻豳 i 3 国国圆 图1 3 布很多视频处理应用巾,可使川高层特征来替代底层特征以取得更好的效果 1 2 基于机器学习方法的视频标注原理 要对视频进行标注,最直接的方法是利用人j i 。:判断,即让人来判断每段视频数据是 否具有某个概念,然后将其赋予相应的标号。然而,这无疑是一种费时费力的方法。已 存试验表明,一个普通人对一段长度为1 小时的视频标注1 0 0 个概念,需要8 到1 5 小 时 1 4 】。凶此,这种模式刘于人规模的标注是不可行的,我们需要研究自动或者半自动 的视频标注方法,以往付出尽可能少的人工劳动情况下取得尽可能准确的结果,达到可 实际应用的日的。对于某些特定的视频种类以及特定的概念,可以使用特定领域的先验 知彭 来完成自动标注。例如对于足球体育视频,其场景比较简单( 如“草地”,“观众席” 同科学技术人学博j j 学位论文 第一章绪论 等) ,这些场景概念可通过简单的底层特征分析做出判断,对于某些事件( 如“射门”) , 也可通过对视觉和听觉特征分析给出检测结果【1 5 】【1 6 】【1 7 】。但是本课题研究的是通用的 视频标注方法,要求其能应用于不同的视频种类以及概念集。要达到这个目的,应采 用机器学习的方法。 典犁的苯于机器学习方法的视频标注框架如图1 4 所示。首先,视频被切割为更小 的单位,如镜头( s h o t ) 和子镜头( s u b s h o t ) :然后从这些单位中提取底层特征来描述它们 的内容:接下米从个已标注的训练集训练一组模型,即可根据这个模型对每个概念在 测试集上进i 1 :标注。由于待标注的概念通常并刁i 互斥( 即同一个视频单位可能具有多个 概念,如图1 5 所示) ,故对每个概念的标注被当作个两类分类问题( b i n 哪 c l 笛s i n c a t j o n ) ,根据待标注单位是否具有这个概念来标注成“正”或“负”。 一 黔二丕二 鋈鬻涵吟。滚,呻_ 罔1 5 一个样本可能具有多个概念,放应将每个概念的标注作为一个两类分类问题 彳7 将视频标注看作一个普通的机器学j 问题,已有的各种机器学刊算法,如支持向 量机( s u p p o r tv e c t o rm a c h i n e ,s v m ) 和高斯混合模型( g a u s s i a nm i x t u r em o d e l ,g m m ) 等, 都w 以应用于这个问题。但是视频标注有其自身的特点,如: ( 1 ) 数 ; i ;帚大。视频标注中的数= l i ;集规模通常较大,故些运算量过大的算法不适 合使用: ( 2 ) 特征维数高。为充分捕述视频内容,通常需要提取大量底层特征; ( 3 ) 正例与负例非平衡。对火多数概念,其正例数目远小于负例,由此导致了分类 3 蕊器 ( v 闻科学技术人学| 尊上学化论文第一章绪论 的非平衡。 此外,视频标注通常还存4 湖l 练数据不足等其它问题。凶此,很多传统的机器学习 算法简学地应用于视频标注中并不能取得很好的效果,我们需要对此进行研究。在本文 中,我们提出。系列新的方法( 蕈点集中于半髓督学习和主动学习算法) ,希望能解决 卜面提剑的些问题。 1 3 国内外研究和发展现状 近年米,基于内容的视频检索工具和系统纷纷涌现【1 8 】,在很多系统巾,需要通过 文字标签米进f j :查询。实现这些查询方式需要对视频内容进行标注,建立起数据库的有 效组织形式。日前,视频标注中主要采用的途径可以分为二二类:手工标注、基于规则的 标注j = u 荩于机器学习方法的标注。 如前所述,完伞采用手丁标泣的方法不仅费时、费力而且容易引入人为的错误,同 时,不同人判断标准的簟异也会影响标注的一致性。而基于规则的标注方法利用某领域 的专家知识建立相应的分类规则进行标注,一般而言,这些规则只适用于特定的视频种 类,不可能完全概括所彳r 的语义内容,凶此无法满足视频标注通用性和实用性的要求。 基于机器学列的方法通过埘部分于工标注的视频数据的学习,建立各语义概念模型,并 利用该模型将手工标注结果推广到整个视频数据集上。由于机器学习理论相对成熟,可 以为视频标注提供理论分析的依据和各种可能的解决方案,因此一般认为它是解决视频 标注问题比较适合的方法。目前,视频标注的研究丰要集中于如何利用学习方法并结合 视频的特点米提高畅:注的准确性。 从机器学列的角度米说,订关视频结构分析以及视频标注的研究主要采用的是有监 督学 j 、半监督学刊和主动学爿等方法。在行监督学习方法中,文献【1 9 】采用隐马尔可 夫模型剃动态规划的方法在运动视频中对“比赛”“暂停”等概念进行检测。文献【2 0 】【2 l 】 将特定领域的知识与有脆督学习方法结合起来,捉出了一个进行场景检测和视频结构分 析的统机架。文献【2 2 】采厂盯贝叶斯分类器对医疗教育视频中的语义概念进行分类。文 献【2 3 1 针对视频中的概念漂移提出了一种在线优化的递增学习框架。由于高层语义和底 层视频特征之白j 存在着“语义鸿沟”,在采用有监督学习方法进行标注时,为了保证所 得到的模型具仃良好的推广性能,往往需要一个很大的训练集来建立统计模型,而这种 做法需要大晕的人t 劳动。而与之相对的是未标注的视频数据可以很容易的获得。如 f u 利用这些数据巾的信息提高分类器件能是当前研究的一个热点,如使用半监督学习方 法。另外,将机器学习与人t 参卜相结合也被认为是种有效途径。主动学习方法是一 个包含样本选择和模型更新的迭代过程,其可以获得比随机挑选方法更为有效的训练 集。在经典的主动学习方法中,c o h n 等【2 4 】给出了理论上最优的样本选择准则,即按 4 ,l 一同科学技术人学博上学位论文 筇一章绪论 照最小化期望分类洪差的准则选择样本以加速机器学习的过程。但存实际应用i i ,由于 讣算最小化期望分类误差的复杂性,人多数的主动学习算法采用的是最接近分类边界的 样木选择准则。 罔1 6 参加t r e c v i d 视频标注任务的g r o u p 数目呈现递增的趋势 2 0 01 年,n i s t ( n a t i o n a ll n s t i t u t i o no fs 咖d a r d sa n dt e c h n o l o g y ) 开始组织 t r e c v i d ( t r e cv i d e or e t r i e 、,a ie v a l u a t i o n ) 评测【2 5 】,并且从2 0 0 2 年开始将视频标注列 为一项单独的任务( h i g h l e v e lf e a t u r ce x t r 挑t i o nt a s k ) ,这标志着大家对这个领域开始了 系统性的研究。确:这之后的几年,参加t r e c v i d 的g r o u p 数目呈递增趋势( 图1 6 统计 了历年参加t r e c v l d 视频标注任务的g r o u p 数目) ,同时大家对视频标注的研究也越来 越深入。表1 1l i l 统计了历年t r e c v i d 视频标注任务i i l 的评价概念,从该表可以看出, t r e c v l d 选取的评价概念的复杂度越来越高,同时覆盖范围也越来越广,稀有概念( r a f e c o n c e p t ,即出现频率相对较低的概念,通常在训练集中正例很少) 有增加的趋势。然而, 大家在这个仟务卜的结果仍然是越来越好,标志着这个领域中研究的快速发展。值得一 提的是,国内很多高校和研究机构,如清i 仁人学、复旦火学、1 1 1 国科学技术人学以及微 软亚溯研究院等,很早就开始关注这个领域。积极参加t r e c v f d ,并且在各项任务评 比中取得了很好的结果。与网际研究水平相比较,国内的这些高校和研究机构毫不逊色, 甚至于在很多技术卜处于领先地位。 尽管如此,视频标注仍然是个新兴领域,还存在许多理论和技术问题亟待解决。本 课题丰要致力于摹于机器学习的视频标注常碰到的以下几个问题: ( 1 ) 训练数据不足; ( 2 ) 底层特征维数过高; ( 3 ) 距离度量的选择和组合; 5 同科学技术人学博上学位论文第一章绪论 ( 4 ) 如何刈视频数据的时蒯连续性加以挖掘; ( 5 ) 如何设计立r 的交互式( 巳u 半自动) 视频标注方法。 对于这几个问题,后面的章节中将会详细介绍。当然,除此之外,这个领域还存在 很多其它的问题,因此也迫切需要我们丌展更深入研究来一克服这些难题。 1 4 本论文研究的主要内容和结构安排 本文丰要对基于机器学习的视频标注方法展丌研究。伞文丰要内容和结构安排如 下: 第一章综述了视频标注的背景和研究意义,简述了基于机器学习的视频标注
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- c语言国考试题及答案
- 2025中学教师国考试题及答案
- 材料力学期中考试及答案
- 专科市场营销学考试题及答案
- 考点攻克苏科版八年级物理上册《物体的运动》达标测试试卷(含答案详解版)
- 2025教资考试考题真题及答案
- 2025交规考试真题及答案画面
- 考点解析-人教版八年级《力》达标测试试卷(含答案解析)
- 考点解析人教版八年级《力》综合测试试卷(附答案详解)
- 单县二中分班考试试卷及答案
- 大象牙膏教学课件
- 酒店职业安全培训内容课件
- 【《老年高血压患者护理措施研究》6600字(论文)】
- 颅脑创伤急性期凝血功能障碍诊治专家共识(2024版)解读
- 车辆动态监控人员培训课件
- 胺基化工艺安全知识培训课件
- 2025年新部队应急保障协议书
- 2025年北京公安招聘流动(实有)人口管理员考试历年参考题库含答案详解(5卷)
- GB/T 45862-2025锅炉碳排放测试与计算方法
- 巡察整改进度汇报
- 2025年苏州高端会计人才选拔试题及答案
评论
0/150
提交评论