(信号与信息处理专业论文)基于脚本和web的中文新闻视频内容分析.pdf_第1页
(信号与信息处理专业论文)基于脚本和web的中文新闻视频内容分析.pdf_第2页
(信号与信息处理专业论文)基于脚本和web的中文新闻视频内容分析.pdf_第3页
(信号与信息处理专业论文)基于脚本和web的中文新闻视频内容分析.pdf_第4页
(信号与信息处理专业论文)基于脚本和web的中文新闻视频内容分析.pdf_第5页
已阅读5页,还剩61页未读 继续免费阅读

(信号与信息处理专业论文)基于脚本和web的中文新闻视频内容分析.pdf.pdf 免费下载

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

摘要 摘要 视频内容语义结构分析和视频内容检索是目前国际国内多媒体研究领 域最为活跃和快速发展的课题。新闻视频脚本在视频内容语义分析中占有 非常重要的地位,然而,一般的自动语言识别都有大量的识别错误,其结 果也没有格式特征。随着网络技术的发展,新闻网站的出现,视频中的新 闻故事通常会在网上找到相同或相似的新闻网页。新闻网页的文本没有视 频脚本中的那些缺点,更有意义的是,新闻网页保存了大量的额外信息。 如果将新闻网页和视频很好的联系起来,网页信息将很好的帮助我们分析 新闻视频。 本文提出了一种借助互联网信息对中文新闻视频进行内容分析的方 法。其基本思想是:首先对新闻视频进行故事单元分割,抽取故事单元的 新闻脚本,然后从新闻脚本中提取新闻故事的关键词,并通过模糊计算词 语的相关度和词语与事件的相关度优化搜索关键词,最后利用搜索引擎从 互联网上获得与新闻事件相关的网页,并利用网页主题内容分析和h o w n e t 语义网的相关技术进行网页过滤。本文提出的提取搜索关键词算法和获得 相关新闻网页的算法,对以后新闻视频摘要的提取、新闻视频的分类与检 索都有直接帮助。 本文的主要创新点在于:提出了从脚本中抽取搜索关键词并优化的算 法和新闻视频与w e b 新闻网页的关联算法。通过对t r e c v i d 2 0 0 5 视频集 内中文新闻视频c c t v 4n e w s 的数据集进行的实验表明本文的方法是有 效的。 关键词视频检索;搜索关键词;模糊相关;信息过滤;自然语言处理 燕山大学工学硕士学位论文 a b s t r a c t v i d e oc o n t e n ta n a l y s i sa n di n d e x i n gi st h em o s ta c t i v ea r e ao fi n t e r n a t i o n a l m u l t i m e d i ar e s e a r c h t h ev i d e ot r a n s c r i p t sp l a ya ni m p o r t a n tr o l ei na n a l y z i n g t h es e m a n t i co f t h en e w sv i d e o ,h o w e v e r , t h e r ea r em a n ym i s t r a u s l a t e de r r o r si n g e n e r a la s r ( a m os p e e c hr e c o g n i t i o n ) ,a n dt h er e s u l t so fa s r a l s oh a v en o f o r m a tf e a t u r e s w i t ht h e d e v e l o p m e n to fn e t w o r kt e c h n o l o g y a n dt h e e s t a b l i s h m e n to fn e w sw e b s i t e s ,an e w sv i d e os t o r yu s u a l l yc o r r e s p o n d sw i t h s o m en e w sw e b s i t e si nt h ew o r dw i d ew e b i na d d i t i o n ,t h e s en e w sw e b p a g e s a r ee r r o rf r e e ,a n dp r e s e r v eal o to f a d d i t i o n a li n f o r m a t i o n i f t h ec o r r e s p o n d i n g w e b - p a g ew i t ht h ev i d e oi sf o u n d t h ew e b s i t ei n f o r m a t i o nw i l lh e l pu sb e t t e r i nn e w sv i d e oc o n t e n ta n a l y s i s t h es e m a n t i ca n a l y s i so ft h ec h i n e s en e w sv i d e ow i t ht h eh e l po fw b r l d w i d ew e bi sp r o p o s e d f i r s t , w es e g m e n tt h en e w s 、,i d e oi n t oas e r i e so fs t o r y u n i t se m p l o y i n gat w o - l e v e la p p r o a c ho fn e w ss t o r ys e g m e n t a t i o n s e c o n d , w e e x t r a c tt h ek e yp h r a s e sf r o mt h ec o r r e s p o n d i n ga s r t r a n s c r i p to fn e w ss t o r y u s i n ga ni m p r o v e dt f i d fa l g o r i t h m ,a n dt h e no p t i m i z et h es e a r c h i n gk e y p h r a s e st h r o u g hc o m p u t i n gf u z z i l yb o t ht h ec o r r e l a t i o na m o n gk e yp h r a s e sa n d t h ec o r r e l a t i o nb e t w e e nk e yp h r a s e sa n de v e n t n l i r d u s i n gt h eo p t i m i z e d s e a r c h i n gk e y w o r d s ,w eg e tt h en e w sw e b - p a g ec o r r e s p o n d i n gt ot h ee v e n t f r o m 州l r wv i at h es e a r c he n g i n e f i n a l l y , t h es e m a n t i ci n f o r m a t i o no fn e w s v i d e ot h r o u g ha n a l y z i n gt h en e w sw e bp a g ew a so b t a i n e db ye m p l o y i n ga m e t h o dt h a te x n a c t st h et o p i c a lc o n t e n tb a s e do nc o o r d i n a t et r e ea n dam e t h o d t h a ta n a l y z et h et e x tb a s e do nh o w n e t t h ea l g o r i t h m , w h i c he x t r a c t st h e s e a r c hk e yw o r d sa n do b t a i nt h ec o r r e l a t e dw e b - p a g e ,w i l ld ot h ef a v o rt o p r o d u c i n gt h es u m m e r y o f n e w sv i d e oa n dn e w sv i d e o i n d e x i n g n 圮m a i nc o n t r i b u t i o no ft h i sp a p e ri s :t h ec o r r e l a t i o na l g o r i t h mb e t w e e n n a b s t r a c t n e w sv i d e oa n dw e b ;t h es e a r c hk e yw o r d se x t r a c t e da n df u z z i l yo p t i m i z a t i o n a l g o r i t h m t h ee x p e r i m e mr e s u l t o nt h es e to fc h i n e s en e w sv i d e o ( c c t v & n e w s ) f r o mt h e t r e c v i d 2 0 0 5s h o w st h a tt h e a p p r o a c h i s e 位c t i v e k e y w o r d sv i d e or e t r i e v a l ;s e a r c hk e y w o r d s ;f u z z yc o r r e l a t i o n ;i n f o r m a t i o n f i l t e r i n g ;n a t u r a ll a n g u a g ep r o c e s s i n g ; 燕山大学硕士学位论文原创性声明 本人郑重声明:此处所提交的硕士学位论文基于脚本和w e b 的中文 新闻视频内容分析,是本人在导师指导下,在燕山大学攻读硕士学位期间 独立进行研究工作所取得的成果。据本人所知,论文中除已注明部分外不 包含他人已发表或撰写过的研究成果。对本文的研究工作做出重要贡献的 个人和集体,均已在文中以明确方式注明。本声明的法律结果将完全由本 人承担。 作者签字:彦絮强 日期:知订年3 月q 日 燕山大学硕士学位论文使用授权书 基于脚本和w e b 的中文新闻视频内容分析系本人在燕山大学攻读 硕士学位期间在导师指导下完成的硕士学位论文。本论文的研究成果归燕 山大学所有,本人如需发表将署名燕山大学为第一完成单位及相关人员。 本人完全了解燕山大学关于保存、使用学位论文的规定,同意学校保留并 向有关部门送交论文的复印件和电子版本,允许论文被查阅和借阅。本人 授权燕山大学,可以采用影印、缩印或其他复制手段保存论文,可以公布 论文的全部或部分内容。 保密口,在年解密后适用本授权书。 本学位论文属于 不保密d ( 请在以上相应方框内打“4 ”) 作者签名:庞、象强日期:九刀年j 月灯日 导师签名: 伽易 日期:。7 年多且珀 第1 章绪论 1 1 研究背景 第1 章绪论 随着互联网的发展,各种信息呈爆炸式增长,除了传统的文本信息, 图像、声音、视频越来越成为重要的信息。视频媒体类型在丰富人们的生 活、教育、娱乐方面起着越来越突出的作用。视频是包含内容很丰富的一 种媒体,能提供比文本、声音和图像更为丰富和形象生动的信息。新闻视 频是视频的一种,是人们了解社会的重要途径,与人们的生活密切相关。 现在新闻节目越来越多,信息量也非常的大。因此让人们较容易地在大量 的新闻节目中找到自己感兴趣的相关内容成为急切的需要。 在互联网的世界中,许多公司和机构提供各种功能强大的搜寻引擎。 用户只要输入一定的关键字,例如“布什”,搜寻引擎就会在网上找出成千 上万个和“布什”相关的网址。尽管这些是不是你要找的资料还有待商榷, 但总是能找到可供参考的起点。而如果你想找的是哪些新闻视频中曾经出 现过“布什”,现在的搜寻引擎可就帮不上忙了。 所谓基于内容的视频检索,就是从视频数据总体取出特定的信息线索, 然后根据这些线索从大量存储在数据库中的媒体进行查找,检索出具有相 似特征的视频数据出来。基于内容的视频检索研究是一个交叉的研究领域, 它涉及到许多相关的技术,但是,可以从中获得基本的处理方法,例如与 此相关的领域包括:数字图像处理、音频数字信号处理、语音识别、自然 语言理解、信息检索、全文检索、音频数据库、数据库系统、认知科学、 模式识别、专家系统、知识处理、人工智能、知识发现、数据挖掘等。但 是基于内容的视频检索并不是照搬这些技术,而是放在信息系统以及 i n t e m c t 这样的大规模多媒体数据库环境下来研究,提出新的方法和理论, 形成独立的具有实用价值的一门研究领域。 目前,国内外研究机构( 包括卡内基美隆大学、微软亚洲研究院、m m 燕山大学工学硕士学位论文 研究院、新加坡国立大学等) 在新闻视频内容分析和检索方面取得了大量 的成果,国内研究机构( 包括复旦大学、清华大学和中科院计算机等) 也 已经着手此方面的研究工作,然而,在国内针对中文新闻视频的分析研究 却很少报道。 1 2 相关研究 视频内容结构分析和视频内容检索是目前国际国内多媒体研究领域最 为活跃和快速发展的课趔】。视频内容语义结构分析是视频内容检索的基 础,前者首先提取视频的底层特征( 图像、音频和文字) ,运用人工智能或 统计分析等方法将视频序列分割为中层特征( 镜头) 并对其语义进行分析, 然后再一次综合多个中层特征将视频分割为高层语义特征( 故事单元) ,最 后获得新闻视频内容的语义结构。视频内容检索在视频内容结构分析的基 础上,运用现代先进的检索技术和数据融合的算法对新闻视频进行分类或 检索。 1 2 1利用多模态技术的新闻视频分析方法 视频语义内容分析涉及视频、音频、文本、图像等多个模式的研究。 目前的研究已经从以前的针对图像或音频等单一模式1 4 , 5 的分析方式过渡 到对视频的图像、音频和文本等多种模态信息进行融合的分析方式【”。 其中,在文献 7 中w e i h a ol i n 融合视频中的图像信息和脚本中的文本信息 进行融合对c n n 中的天气预报进行分析,取得了很好的效果。在文献 1 8 】 中又利用视频中的图像和音频信息进行融合,然后利用m e t a 分类器对视频 中的人物进行识别。在文献【6 】中微软研究院的w e iq i 利用图像、音频、 o c r ( o p t i e a lc h a r a c t e rr e c o g n i t i o n ) 和a s r ( a m os p e e c hr e c o g n i t i o n ) 脚本, 采用中文信息处理的技术对网络视频进行分析,最后利用支持向量机对数 据进行融合。建立了智能视频广播浏览器( i n t e l l i g e n t t v b r o w s e r ) 和基于 网页的视频浏览器( h t m l - b i t s c d v i d e o b r o w s e r ) 。北京电子科技学院重点实 2 第1 章绪论 验室在相关方面有步骤地进行了大量的研究工作。刘森等人提出了基于支 持向量机s v m ( s u p p o r tv e c t o rm a c h i n e ) 的时域多尺度视频分割算法,取 得了较为满意的镜头分割效果 2 6 - 3 0 。范竞往等人采用镜头层和故事层的双 层混合模型,再利用中文新闻视频中的主题标题特征,对视频进行故事分 割,大大提高了中文新闻视频的故事分割的准确率【3 1 书】。 1 2 2 以脚本为主的新闻视频分析方法 新闻视频中的脚本在视频分析中占有非常重要的位置【2 1 1 ,但是由于语 音识别的准确程度不高,尤其是一些能标识视频信息的人名,地名等专有 名次错误率太高,导致脚本的优势未能充分利用1 2 2 ,视频语义内容分析的 效果没有达到较为理想的效果。在文献【2 l 】中清华大学的王鹏利用文本、 音频和图像进行特征融合,采用中文信息处理技术、支持向量机的和混合 高斯模型等算法将新闻视频分成政治、军事、体育、天气等十类,取得了 很好的效果。m i k ed o w m a n 在文献【2 2 】中充分利用新闻脚本,采用c 9 9 算法 进行故事单元分割,用t f i d f 提取关键词后,借助g o o g l e 搜索引擎在网络 中搜索与新闻视频相对应的新闻网页来代替新闻视频脚本,并帮助b b c 建 立了海量新闻系统( t h er i e hn e w ss y s t e m ) 。m i k ed o w m a n 只是针对b b c 的新闻广播,也没有校正视频脚本中的错误词语,而是用新闻网页去代替 新闻脚本。h u i y a n g 在文献【2 3 】中的新闻视频问答系统中,通过提取新闻网 页中和视频o c r 中的关键词,并计算这些关键词和脚本中的关键词的语音 的相似程度,把相似度高的关键词代替脚本中错误的关键词,提高了新闻 视频脚本的质量,但是这种利用语音相似来纠正错误的方法复杂并且准确 度不高。 1 2 3 现代中文新闻文本的处理技术 视频脚本的语义分析一般采用自然语言处理的技术,自然语言理解就 是如何让计算机能正确处理人类语言。自然语言理解的研究不但要运用语 燕山大学工学硕士学位论文 言学中的词汇、语法、句法、语用和语义学知识,而且还要涉及到大量的 客观世界的知识以及与其相关学科的知识。 采用计算机进行自然语言处理,首先需要将中文文本转换成一种计算 机可以识别的表达形式,文本表示模型有多种,常用的有布尔逻辑模型、 概率型、向量空间模型等。目前,文本的表示主要采用的是向量空间模型 v s m ( v e c t o rs p a c e m a c h i n e ) ,以向量来表示文本:( ,w e ,呒) ,其 中形为第i 个特征项的权重,一般情况下,特征项可以选择字、词或词组, 根据实验结果,普遍认为选取词作为特征项要优于字和词组,因此,要将 文本表示为向量空间中的一个向量,就首先要将文本分词。目前汉语自动 分词方法至少有十几种,其中最常见的有:正向最大匹配法、反向最大匹配 法、双向最大匹配法、设立切分标志法、最佳匹配法以及机械分词加歧义 校正法和知识分词方法等等。特征选择是模式识别和机器学习的核心问题 之一,常见的特征提取方式有词频、互信息量、信息增益、t f i d f 等等【2 5 1 , t u r n k e y 通过提取关键词的位置、t f i d f 和词语的一致性等信息,并采用贝 叶斯分类器对关键词进行分类,大大提高了提取关键词的准确度 2 4 , 3 6 。但 是需要大量的标注好的文本集训练分类器。在中文信息处理中,关键词中 的同义、近义词的存在使得特征空间难以达到正交的要求,且维数高,处 理难度大。 基于语义概念的分析方法可以看作是一种扩展的向量空间模型方法, 即在向量空间模型中加入语义概念的分析。文本描述中存在词与词之间的 同义、词的多义以及上下文之间隐含的语义关系。语义概念分析方法通过 结合h o w n e t 对词所表示的概念进行排歧和降维,尽量达到词与词之间的正 交性,将文本的关键词用更小的语义空间进行表示,使得生成的新的语义空 间中的相关文本更为接近。为此,陈伟萍 2 6 】通过组织知网数据,对词语进 行概念映射,这不仅大大缩小了特征空间维数,而且降低了特征项之间的 相关性,提高了新闻文本的分析质量。 在中文新闻网页的相关信息抽取方面,刘艳敏等人提出了基于坐标树 的网页主题内容提取算法,可以准确的抽取新闻网页中感兴趣的内容1 圳。 陈伟萍等人利用h o w n e t 语义网大大降低了中文特征词的维数,提高了中 4 茎! 雯丝丝 文新闻文本分析的质量【3 研。这些相关方面的研究为本文的工作奠定了坚实 的基础。 1 3 研究主题简介 首先给出了实验室现在应用的总体框架,然后是本文在框架中的位置, 即主要利用新闻视频的脚本对视频内容进行分析。 1 3 1 总体框架 如图1 1 所示,总体框架采用多模态融合技术,综合视频中的图像信 息、音频信息、a s r 脚本等对中文新闻视频进行分析。实验室以前已经完 成了新闻视频的预处理工作,例如新闻视频的镜头分割、新闻视频的故事 单元分割、网页主题信息的提取。今后研究的重点集中在视频故事单元的 特征提取与融合算法的研究。 结果输出 图1 - 1 视频分析总体框架 f i g 1 - 1o v e r a l lf r a m e w o r ko f v i d e oa n a l y s i s 5 燕山大学工学硕士学位论文 1 3 2 本文研究内容 本文针对总体框架中的一部分进行研究,使用视频的a s r 脚本信息, 并利用互连网中大量的信息对新闻视频进行语义辅助分析是研究的主要内 容。新闻视频脚本在视频分析和检索中占有最为重要的位置,针对存在的 大量的a s r 识别错误。本文重点研究如何从视频脚本中提取便于新闻视频 搜索的关键词,如何去掉搜索关键词中错误的词语,如何获得与新闻视频 相关的新闻网页信息,为以后的新闻视频分析和检索奠定基础。 1 4 研究方法 采用双层混合模型对新闻视频进行故事单元分割。根据故事单元的分 割结果抽取新闻故事单元的脚本,把每个脚本作为一个故事单元进行分析。 ( 1 ) 采取一种改良的关键词提取算法抽取脚本的关键词代表新闻脚本, 便于以后的视频检索和网络搜索。用搜索引擎计算关键词之间的相关性, 并利用模糊数学的算法去掉关键词中错误的词语,作为搜索关键词。 ( 2 ) 利用搜索关键词和g o o g l e 搜索引擎搜索与脚本相关的新闻网页。 采用基于坐标树的网页主题信息提取方法,去除网页中的噪音,提取新闻 的正文和标题。利用h o w n e t 和自然语言处理技术计算脚本与网页正文的 相似度,获得最相似的网页。 1 5 前景展望 目前中文的新闻视频内容语义研究工作还处于起步阶段,研究人员从 多个方面进行研究,取得了一定的成果。未来总趋势就是利用i n t e r a c t 多 渠道获得媒体资源( 文本、视频、语音) ,混合使用多种模式,综合运用多 种方法从这些媒体资源中抽取出语义信息( 时间、地点、分类等) 然后进 行内容语义分析,进一步进行基于内容的视频检索。因此,视频内容语义 6 第1 章绪论 分析有着非常广阔的应用前景和商业价值。同时多媒体研究领域还没有统 一而有效的理论和技术支持,因此视频内容语义分析也有非常高的理论研 究价值。而本文所做的工作,基于网络的中文新闻视频内容分析仅仅是视 频内容的语义研究的一个起步,它寻到了一条新闻视频和周边信息的沟通 之路,对以后新闻视频摘要的提取,基于内容的新闻视频分类与检索都会 有直接帮助。 1 6 论文内容安排 本文是在中文新闻视频故事分割的基础上,利用自动语音识别,信息 检索,自然语言处理,网页主题内容提取,机器学习和模糊数学等提出了 一种新的基于网络的中文新闻视频分析方法,并在关键词提取和优化中进 行了创新性的研究。 论文的内容安排主要如下: 第1 章主要论述了课题的研究背景,国内外相关的研究方法、自己 的主要工作内容及研究方法。 第2 章介绍了采用双层混合模型对中文新闻视频进行故事分割,并 利用分割结果提取新闻视频中故事单元的脚本。 第3 章利用改进的t f i d f 算法提取脚本的搜索关键词,并通过计算 词语之间的相关度和词语与事件之间的相关度对关键词进行优化。 第4 章利用模糊数学的方法确定关键词之间相关度的阈值问题。 第5 章用搜索关键词到网络中搜索相关的新闻网页,并利用基于坐 标树的算法提取网页中的新闻文本。在获得网页的文本内容以后,采用基 于语义概念的文本过滤方式对新闻网页进行过滤。 第6 章实验设计和结果分析 最后是总结与展望。并附有致谢、参考文献和作者简介。 7 燕山大学工学硕士学位论文 第2 章新闻故事单元的脚本提取 2 1 引言 一般来讲人们对视频资料的记忆是事件的故事内容而不是在镜头中出 现的视觉感官上的改变,人们对于新闻视频的分类和检索大部分也是针对 新闻视频中的故事内容的。这样就需要将新闻视频内容按照单一的很小的 逻辑单元来进行组织,我们称这样单元为故事。就视频组织的形式来看, 新闻视频由一系列图像构成,每幅图像称为一帧,视频又是一个帧序列。 在视频结构上,帧图像表达的是视频信息的基本单元。镜头是视频序列可 分割的基本单元。它表达的是相机在打开或关闭之间或其他编辑效果之间 的一组帧图像。在语义上,一段新闻视频节目讲述了几个完整的新闻故事, 故事是具有一定次序和关系的镜头的组合体,包括多个内容上相关的镜头。 所以,将帧序列按照一定的逻辑结构进行组织,形成一系列的新闻故事单 元。如图2 1 所示。 图2 - 1 视频结构图 f i g 2 - 1v i d e os t r u c t u r e 为了以一种直观的方式组织和表达视频索引结果,这里采用了符合视 频自然结构特征的层次化树状图,如图2 - 2 所示。 新闻节目的特点是节目结构比较固定,内容层次也比较有规律,而且 图像相对于文字语言处于比较从属的地位。在播音员出现的视频序列中, 场面是比较一致的,大部分语义与播音话语是密切相关的,现场新闻序列 8 第2 章新闻故事单元的脚本提取 视频片断 闻故事 闻故事 镜头1 镜头2 镜头3 镜头4 镜头5 帧 图2 2 视频结构化树状图 f i g 2 - 2t h e t r e eo f v i d e os t r u c t u r e 常与所播放的新闻文字没有严格的时间对应关系。新闻视频的固定结构比 较适合于进行语义分析。以新闻联播为例,首先是片花,然后是标题新闻 和主持人序列,接下来依次是国内新闻、国际新闻、然后是新闻摘要,其 中国内新闻又分为国家领导人新闻、会议新闻、专题报道等,国际新闻又 可以分为世界局势、重大事件、各国领导人新闻、特别报道等等。 新闻视频脚本是用来描述新闻视频内容的一种特定性的语言,描述的 内容因人而异,但是一般都包括新闻发生的时间,新闻视频的长度,新闻 视频的制作人和版权,新闻视频相关资料的描述,新闻视频的检索词和 a s r 内容等内容。描述形式也多种多样,不过一般都是用纯文本和x m l ( e x t e n s i b l em a r k u pl a n g u a g e ) 文档的形式存放。x m l 具有好多优点如: 易学易用,简洁有效,开放的国际化标准,高效可扩充等,由于x m l 是 w e b 上的数据通用语言,它使开发人员能够将结构化数据,从许多不同的 应用程序传递到桌面,进行本地计算和演示。 依据新闻视频故事单元的分割,相应的视频脚本也得到了分割,我们 9 、-,l、_,l 头头头 镱 镜 镜 r,、l 3 事故闻新 蓥生奎兰三兰堡圭堂垡笙苎 得到了一个新闻故事单元的脚本信息。我们的新闻视频语义分析就建立在 新闻故事的层面上。 2 2 新闻视频的故事单元分割 我们采用的是本实验室的方法对故事单元进行分割 3 1 3 3 】,即在 c h a i s o m 和c h u a t 3 7 等提出的双层模型中加入了主题标题、主题镜头、人脸 个数和人脸位置等特征以及一个基于内容的相似模块和基于启发式规则的 预分割模块等,如图2 3 所示。在镜头层采用决策树得到镜头分类,在故事 单元层采用隐式马尔科夫算法来寻找故事单元边界。其系统框架如下所示。 图2 - 3 系统框架 f i g 2 - 3f r a m e w o r k 图2 3 中,a f ( a u d i of e a t u r e s ) 表示音频特征,a c ( a u d i oc l a s s i f i c a t i o n ) 表示音频分类,s d ( s h o td u r a t i o n ) 表示镜头持续时间,f s ( f a c es i z e ) 表示人 脸大小,m a ( m o t i o n a m o u n t ) 表示运动的强度,t c ( t o p i cc a p t u r e ) 表示主题 捕捉,c t ( c o n t e s tt e x t ) 表示屏幕中的多行文本,f p ( f a c ep o s i t i o n ) 表示 人脸位置,a f ( a u d i of e a t u r e s ) 表示音频特征,f n ( f a c en u m b e r ) 表示人脸的 1 0 第2 章新闻故事单元的脚本提取 个数。 如图2 3 所示,首先我们采用i b m 的“v i d e o a n n e x ”将新闻视频分割 为一个个镜头,对每个镜头的音频进行分类,同时检测宏数据如人脸、说 话人变换、播音员、镜头长度等,然后结合低层特征和高层特征,通过决 策树对每个镜头分类,由于连续的内容提要( i n t r o h i g h l i g h t s ) 和天气预报 ( w e a t h e r ) 本身就是一个故事单元,我们把这两类镜头单独进行边界检测, 剩下的镜头序列通过h m m ( h i d d e nm a r v e lm o d e ) 找出最佳的变化轨迹,从 而确定出新闻自然段边界。最后我们利用了一个半自动的视频故事单元分 割系统,见图2 - 4 。 图2 - 4 系统实现 f i g 2 - 4s y s t e mc o m p l e t e 我们在处理过程中采用m p e g - 1 格式的视频节目,利用微软的 d i r e * s h o w 来对视频流进行处理,将输入的m p e g 格式的媒体流分为音频 流和视频流,然后分别对视频流和音频流进行处理,通过对音频流进行特 征提取,然后将提取的特征送入s v m 分类器得到五种音频分类:纯说话、 纯音乐、说话加背景音乐、说话加背景噪音、静音。通过对视频流提取底 层特征,如颜色直方图、运动特征以及提取人脸宏特征、主题特征等,最 后将上述音频分类和视频特征送入决策树的输入端,通过预分割模块的提 前处理送入h m m 模型3 1 1 得到我们的新闻自然段边界。更为详细的内容 燕山大学工学硕士学位论文 请参考文献 3 1 】。 2 3 新闻视频脚本的分割 我们采用的是1 r i 江c v i d 2 0 0 5 中的c c t 、,4 - n e w s 新闻视频集,里面的 新闻视频脚本采用x m l 存放,主要描述了新闻视频的视频文件的名称, 新闻视频所在的本地目录,新闻视频的录制时间,新闻视频的长度,新闻 频道和a s r 等信息。a s r 信息采用微软的中文语音识别软件,并通过一 定的校正。 根据新闻视频分割的结果,即标注好的新闻故事单元的起止时间,我们 可以将新闻视频脚本中的a s r 文本分割成单个新闻故事的文本,如图2 5 所示。 2 4 本章小结 图2 - 5 视频故事脚本 f i g 2 - 5v i d e os t o r yt r a n s c r i p t s 本章首先介绍了我们实验室提出的一种故事单元分割方法,即在双层 1 2 第2 章新闻故事单元的脚本提取 模型的框架基础上,根据中文新闻的特点,加入人脸特征和主题特征以及 一个基于内容的相似模块和基于启发式规则的预分割模块等来提高整个故 事单元分割的准确率。然后,利用视频故事单元分割的结果,分割并提取 新闻视频的脚本,得到单个新闻故事的文本信息,为以后我们利用自然语 言处理技术和w 曲信息融合打下基础。 燕山大学工学硕士学位论文 第3 章搜索关键词的提取和优化 3 1 引言 前一章我们得到了新闻视频故事单元的文本信息,下面是一个新闻故 事脚本中的文本:“更好会受百姓项目来看详细报告一次勒特卫普始终是一 个露天市场十月一号发生爆炸事件造成至少4 人死亡色列方面传递里的信 息那就是如果巴勒斯坦人得不到安全以色列也不会安全爆炸发生后巴勒斯 坦谈判属代表埃雷卡特对这起事件予以谴责以色列方面发展顺利。下表是 三是我手上这些疤痕民族权力机构主席阿拉法特到法国就以后首次发生针 对以色列的袭击世界的爆炸发生在当地时间十月一号徐典范。徐世昌里有 很多人在购物爆炸造成大量人员死伤国家产生的滚滚浓烟长久弥漫在塔拉 维夫的上空爆炸发生后救援人员立即赶赴现场进行救援以色列电视台报道 数据起爆炸事件系自杀式爆炸制作给巴勒斯坦解放人民阵线最后形成对这 起爆炸事件负责巴勒斯坦伊斯兰抵抗运动哈马斯加沙地带的发言人以色列 则出面否认哈马斯对此事负责的代表写这些事件向以色列方面传递里的信 息那就是如果巴勒斯坦人得不到安全以色列也不会安全爆炸发生后巴勒斯 坦谈判属代表埃雷卡特对这起事件予以谴责以色列方面发展顺利。下表是 强烈谴责以色列司法部下拉到安全以色列也不会安全爆炸发生后巴勒斯坦 谈判属代表埃雷卡特对这起事件予以谴责以色列方面发展列表学经济实现 了主管阿拉法特宣布了成立巴勒斯坦激进组织针对以色列人的气息都不会 停止。” 虽然a s r 脚本经过校正,但是仍然存在大量的错误。如何从中抽取搜 索关键词。针对搜索关键词中错误的关键词,如何进行优化。本节首先介 绍了搜索关键词和命名实体的基本概念,然后利用改进的 i f i d f l 4 i j 算法提 取搜索关键词。针对搜索关键词中错误的词语,提出了一种通过计算关键 词之间和关键词与事件之间的相关度进行优化的算法。 1 4 第3 章搜索关键词的提取和优化 3 2 搜索关键词 3 2 1 搜索关键词的定义和分类 搜索关键词是搜索关键字的一种,所以先要介绍关键字的概念。通俗 地说,关键字就是在搜索引擎网站页面的输人框里所要输入的文字,即由 各种自然语言构成的具有搜索功能的关键性文字。搜索引擎通过分析用户 使用的字、词组、短语、句子的内容、种类、频率,可以直接分析用户需 要的网页信息m 1 。 搜索引擎按语言要素的大小划分搜索关键字的种类: ( 1 ) 单字单字是关键字的基本构成单位,也是最小的搜索关键字。 ( 2 ) 词在搜索引擎里指一种自然语言中由两个或两个以的单字构成 的关键字。 ( 3 ) 短语由一种自然语言中的两种或两种以上的语言成分构成的关 键字,但还没构成一句完整的话。 ( 4 ) 句子它是由一种自然语言中完整的一句话进行搜索时构成的关 键字。 按关键字的属性特征划分搜索关键字的种类: ( 1 ) 专有名词指人名、地名、组织名、或其它事物的专有名词,如北 京、布什、张柏芝、西湖、中国移动、清华大学等等。 ( 2 ) 普通名词包括一般的动词或名词,如桌子、房屋、爆炸、发展等 等。 ( 3 ) 无用词有些单字或词语,在语法上往往起代词、介词、助词、虚 词的作用,在一些搜索引擎里往往做忽略处理。 3 2 2 搜索关键词的特点 搜索关键词是关键词的一种,基本上有命名实体构成。搜索关键词是 燕山大学工学硕士学位论文 从被搜索新闻文本中提炼出来,能够概括新闻内容的词或词组。因此,这 些选出来的搜索关键词应具有如下特征: ( 1 ) 代表性搜索关键词的数量虽然少,但是能高度的概括和代表整个 新闻文本的基本内容。所以,通过对关键词的考察,能够窥视到新闻故事 的全貌。 ( 2 ) 链接性由于不同的新闻来源于不同的作者,因此各个新闻在关键 词方面的某些联系( 例如:含有一个相同的关键词) 必然反映出新闻之间的 某些关系,这些关系或是表现在文章内容上,或是表现在研究的方向上。 这些关系像一条无形的“链:把这些新闻紧密的联系起来。 3 - 3 命名实体 3 3 1 命名实体识别的概念 命名实体识别最初是在m u c 6 ( m e s s a g eu n d e r s t a n d i n gc o n f e r e n c e ) 上 作为一个子任务提出的【4 3 】。命名实体识别m 蛔任务主要是识别出文本中出 现的专有名称和有意义的数量短语并加以归类。所谓的名字实体( n a m e d e n t i t y ) 主要包括实体( 组织名、人名、地名) ,时间表达式( 日期、时间) , 数字表达式( 货币值、百分数) 等。 与通用的文本理解( t e x tu n d e r s t a n d i n g ) 相比,信息抽取( i n f o r m a t i o n e x t r a c t i o n :i e ) 是抽取文本中的某些特殊信息,而不是理解整个文本。信息 抽取是多种自然语言处理技术的综合应用,它的主要功能是从文本中提取 特定的事实信息( f a c t u a li n f o r m a t i o n ) 。比如:从会议经济新闻中抽取公司发 布新产品的情况:公司名、产品名、时间、产品状况等:从会议记录中抽取 会议的一些基本信:会议时间、地点、参加会议的人员、会议名等。 3 3 2 命名实体识别的应用 近年来,命名实体识别成为计算语言学的研究热点,大量的研究人员 第3 章搜索关键词的提取和优化 致力于提高命名实体识别系统的性能。在国际上,m e t ( m u l t i l i n g u a le n t i t i e s t a s k ) 会议已经把n e r 作为一项非常重要的任务,m e t 会议从1 9 9 6 年春 天开始举办,与m u c 会议联合召开,致力于多语言实体任务的研究和评 测,由会议组织者给出训练和测试语料,测试参加评测的系统的性能。在 国内,中文命名实体识别也得到极大的重视,2 0 0 4 年的国家8 6 3 评测任务 中,加入了命名实体识别的评测。命名实体识别的兴起,是因为它有广阔 的应用前景和市场潜力。下面列举一些命名实体识别的应用: ( 1 ) 精确的w e b 搜索引擎举个例子,通过搜索布什总统,我们能够毫 不费力地知道德克萨斯州、耶鲁大学的关系。 ( 2 ) 文档管理通用文档组织,通过命名实体识别,用户可以把一个公 司内部的关于某个人的所有文档调出。 ( 3 ) 文章摘要在读一篇文章之前,通过命名实体识别,可以先看看这 篇文章提及的人、地点和组织机构。 ( 4 ) 自动建立书的索引对于很多书来说,大多数主要条目就是命名实 体。 ( 5 ) 信息丰富命名实体带有比普通词更多的信息,所以在其他计算语 言学任务中应。用命名实体识别,能够提高精确度和简化任务,比如:机器 翻译,文本分类。 ( 6 ) 数据挖掘命名实体识别系统是信息抽取和数据挖掘系统中必不 可少的组成部分。 3 。4 关键词提取技术 目前,关键词提取技术主要有以下几种5 7 1 :基于主题词表方法、基于 词义的方法、基于统计的方法和基于单字分析的方法。 3 4 1 基于主题词表的方法 基于主题词表的方法的基本思想是:将文献的种类可以按不同的领域 1 7 燕山大学工学硕士学位论文 进行划分,一般而言,有相当一部分词表达文献主题的能力受到文献类型 的限制,我们将之称为类型词闱。针对不同类型的文献,各抽取定量的 文本样本,采用一定的训练算法,提取类型词,建立主题词库,以之作为 文献的背景词库。在提取关键词时,根据类型词库,再综合考虑词频、词 长和词性等因素,对文献中出现的词进行加权,最终按照权重提取关键词。 使用这种方法获取的关键词有时也被人们称之为主题词。这种方法在进行 文木自动分类、主题词提取、主题标引时经常被用到,而且效果显著。该 方法的工作过程如图3 1 所示。 这种方法的特点是:提取准确率较高。但由于受到背景词库的限制,该 方法的查全率较低,而且提取范围仅限于出现在主题词库中关键词,其提 取结果直接受到背景词库的影响。 图3 - 1 基于主题词方法的实现过程 f i g 3 - 1t h ei m p l e m e n t a t i o np r o c e s sb a s e d0 nt o p i c a lk e y w o r d s 3 4 2 基于词义的方法 基于词义方法的基本思想:给定的文献是按照一定意义对词汇进行排 列组合的符号串,是围绕文献主题有关方面所做的判断、推理、结论等等, 一个词如果是关键词的话,就不可能是孤立的,围绕着它必然会展开论述 主题关键词之间构成一个语义结构图,词语按照所讨论的关键词形成有意 义聚类。将这些语义聚类划分出来,深入挖掘文献中所包含的语义信息, 第3 章搜索关键词的提取和优化 就可以提高关键词的提取准确率1 4 。”。其工作流程如图3 2 所示。 基于词义的方法,虽然在一定程度上代表了自然语言理解的发展方向, 但是这种方法实现结果直接受到用户所建立“规则库”性能的影响,还需 要进行大量的词义排歧和同义词识别的工作,目前计算机在处理这些技术 方面还存在着一定的局限性。同时,对于未登录词,也缺乏相应的处理机 制,因此这种方法还只能处于实验阶段。 图3 2 基于词义方法的实现过程 f i g 3 - 2t h ei m p l e m e n t a t i o np r o c e s sb a s e do i lk e y w o r d ss e m a n t i c 3 4 3 基于统计的方法 基于统计方法的基本思想是:在表达文章主题时,起主要作用的是名 词、动词等实词,这部分词中出现频率越高,出现位置越特殊( 如标题, 首段等等) ,有特殊标记、特殊提示的词,对表达文章的主题越有意义。在 进行关键词提取时,综合考虑这些因素( 为了便于描述,以后称之为加权 因子) ,进行加权。这种方法经常被用于信息挖掘、文本自动摘要、网络信 息建库是经常用到。 3 4 4 基于单字分析的方法 自然语言表达的形式是多种多样的,没有任何一部词典可以囊括所有 燕山大学工学硕士学位论文 的词,因此,以单个汉字为统计对象,统计出现在文章中的高频字串,再 对提取的高频字串进行相应的长短串处理,最后提取文本的关键词,这就 是单字分析方法的基本思想【5 8 l 。 3 5 搜索关键词的提取 3 5 1 新闻文本预处理 在对文档进行特征提取前,需要先进行文本信息的预处理,对英文而 言需要进行s t e m m i n g 处理,中文情况则不同,因为中文词与词之间没有 固定的间隔符( 空格) ,需要进行分词处理。在中文信息处理领域,对中文 自动分词研究的已经比较多,提出了一些分词方法,如最大匹配法、逐词 遍历匹配法、最小匹配法等。在本文我们采用天津海量科技股份有限公司 提供的海量分词技术,将文本的词语分割并标注词性( 如动词、名词、人 名、地名等等) 。 3 5 2 搜索关键词的选择 特征选择在中文信息处理中是非常重要的,因为经过分词之后,得到 的特征向量的维数是非常高的,如此高维的特征对即将进行的文本处理未 必全是重要、有益的,而且高维的特征会大大增加机器的处理时间。命名 实体是指文本中出现的专有名称和有意义的数量短语,所谓

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论