




已阅读5页,还剩55页未读, 继续免费阅读
(教育技术学专业论文)面向web的多媒体语义信息提取方法研究与实现.pdf.pdf 免费下载
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
面向w e b 的多媒体语义信息提取方法研究与实现 摘要 随着i n t e r n e t 的迅速发展,w w w ( w o r l dw i d ew e b ) 蕴含的多媒体资源呈现 爆炸式增长,人们从中找到感兴趣的多媒体资源的难度也越来越大。为了能够对 w e b 多媒体资源进行有效的检索,本文研究了面向w e b 的多媒体语义信息提取 方法。 论文对当前已有的w e b 多媒体语义信息提取方法进行了总结,将其分为基于 内容的多媒体语义信息提取方法和基于外部信息源的多媒体语义信息提取方法, 并指出了它们各自的优缺点。本文重点研究并实现了基于外部信息源的图像语义 信息提取方法。 w e b 图像的语义是与其所处的上下文环境密切相关的。图像的相关文本,包 括图像的文件名、图像的周围文本、图像标签、图像所在网页的标题、图像链接 网页的标题或链接图像的文件名、图像的地址、图像所在网页的地址、图像链接 的地址以及图像所在网页的栏目名等,均蕴含着图像的重要语义信息。从这些相 关文本中提取出图像的语义信息是可行的。本文给出了在w e b 页面中提取图像 相关文本,以及对其进行编码转换、英汉翻译、拼音一中文翻译、分词和词性标 注等预处理的方法。 为了能够从相关文本中提取图像的语义信息,本文建立了图像语义词典,包 括图像主题词典、图像主体名词典及图像主体属性词典,给出了图像主题词提取、 主体名提取、主体属性词提取的算法,以及图像主题词自动添加算法、图像主题 分类算法等。 在上述工作的基础上,本文设计了一个面向w e b 的图像语义信息提取系统。 系统分为元搜索引擎及控制模块、文本提取及预处理模块、主题词自动添加模块 和语义信息提取模块四个部分。论文详细介绍了系统的整体结构、关键编程技术 和各模块的具体实现方法,并使用该系统进行了实验。初步实验结果表明,本文 提出的面向w e b 的图像语义信息提取方法具有较好的效果。论文最后指出了系 统的不足之处和需进一步研究探索的方向。 本文提出的w e b 图像语义信息提取方法,其进行语义信息提取的依据是w e b 相关文本和语义词典,与图像本身的数据内容无关。它不受媒体类型的限制,对 于w e b 中的其它多媒体( 包括音频、视频等) 的语义信息提取同样适用,具有 良好的通用性。该方法可以用来实现对w e b 中多媒体资源的自动标注,对于提 高多媒体信息检索系统的查全率与查准率具有重要意义;在教育技术领域,可用 于网络教育资源的建设,促进教育信息化的发展。 【关键字】w e b ;信息提取;图像语义;多媒体语义;语义标注 【分类号】 g 4 3 4 u t h er e s e a r c ho nm e t h o d so fw e b o r i e n t e dm u l t i m e d i a s e m a n t i ci n f o r m a t i o ne x t r a c t i n ga n di t sr e a l i z a t i o n a b s t r a c t w i t ht h er a p i dd e v e l o p m e n to fi n t e r n e ta n dt h ee x p l o s i v ei n c r e a s eo fm u l t i m e d i a r e s o u r c e si nw w w i tb e c o m e sm o r ea n dm o r ed i f f i c u l tt ol o o kf o ri n t e r e s t i n g r e s o u r c e i no r d e rt or e t r i e v ew e bm u l t i m e d i ae f f e c t i v e l y , t h i st h e s i sr e s e a r c h e st h e m e t h o do f w e b o r i e n t e dm u l t i m e d i as e m a n t i ci n f o r m a t i o ne x t r a c t i n g t h et h e s i ss u m m a r i z e st h ep r e s e n tm e t h o d so fe x t r a c t i n gs e m a n t i ci n f o r m a t i o no f w e bm u l t i m e d i a ,s e p a r a t e st h e mi n t ot w oc a t e g o r i e s :t h em e t h o db a s e do ni m a g e c o n t e n ta n dt h em e t h o db a s e do nw e be x t e r i o ri n f o r m a t i o nr e s o u r c e ,a n dp o i n t so u t t h e i rm e r i t sa n df a u l t s t h em e t h o do fe x t r a c t i n gs e m a n t i ci n f o r m a t i o no fa ni m a g e b a s e do i lw e be x t e r i o ri n f o r m a t i o nr e s o u r c e si sr e s e a r c h e da n dr e a l i z e d t h es e m a n t i ci n f o r m a t i o no faw e bi m a g ei sc l o s e l yi n t e r r e l a t e dw i t hi t sc o n t e x t t h ei n t e r r e l a t e dt e x t so fa ni m a g ei n c l u d e :t h ef i l e n m n e ,t h es u r r o u n d i n gt e x t ,t h e a l t e r n a t i v et e x t ,t h ec a p t i o no ft h ew e b ,t h ec a p t i o no ft h el i n k e dw e bo rt h ef i l e n a m e o ft h el i n k e di m a g e ,t h ei m a g eu r l ,t h ew e bu r l ,t h el i n k e dw e bu r la n dt h e s u b j e c to ft h e w e b t h es e m a n t i ci n f o r m a t i o no fa ni m a g ei sc o n t a i n e di nt h e s e i n t e r r e l a t e dt e x t s i ti sf e a s i b l et oe x t r a c ts e m a n t i ci n f o r m a t i o no fa l li m a g ef r o mt h e t e x t s i nt h i st h e s i s ,t h em e t h o do fe x t r a c t i n gi n t e r r e l a t e dt e x t so fa ni m a g ea n dt h e m e t h o do f t r a n s f o r m i n gc o d e ,t r a n s l a t i n g ,s e g m e n t i n gw o r d sg f f ep r e s e n t e d i no r d e rt oe x t r a c ts e m a n t i ci n f o r m a t i o no fa l li m a g e ,s e m a n t i cd i c t i o n a r i e ss u c h a st o p i cd i c t i o n a r y , m a i nb o d yd i c t i o n a r ya n da t t r i b u t ed i c t i o n a r ya r cb u i l t a n dt h e a r i t h m e t i co fe x t r a c t i n gt h e mi sb r o u g h tf o r w a r d 。b e s i d e s ,t h ea r i t h m e t i co fa u t o m a t i c a p p e n d i n gt o p i cw o r d st ot h ed i c t i o n a r ya n dt h ea r i t h m e t i co fc l a s s i f y i n gi m a g et o p i c a r ep r e s e n t e d b a s e do nt h ew o r k ,t h ew e b o r i e n t e ds y s t e mo fe x t r a c t i n gs e m m a t i ci n f o r m a t i o n o fa ni m a g ei sd e s i g n e d t h es y s t e mi sd i v i d e di n t of o u rp a r t s :t h ep a r to fm e t as e a r c h e n g i n ea n dc o n t r o l ,t h ep a r to fe x t r a c t i n gt e x t sa n dp r e t r e a t m e n t ,t h ep a r to fa u t o m a t i c 1 1 i a p p e n d i n gt o p i cw o r d sa n dt h ep a r to fe x t r a c t i n gs e m a n t i ci n f o r m a t i o n i n t e g r a l s t r u c t u r e ,k e yp r o g r a mt e c h n i q u e a n dt h em e t h o do fr e a l i z i n ge v e r yp a r ta r e i n 订o d u c e di nd e t a i l t h ee x p e r i m e n ti sm a d e ,a n dt h er e s u l tp r o v e st h a tt h em e t h o di s e f f e c t i v e i nl a s t ,t h et h e s i sb r i n g sf o r w a r dt h ew a y st h a tn e e dt ob er e s e a r c h e dm o r e d e e p l y t h em e t h o do fe x t r a c t i n gs e m a n t i ci n f o r m a t i o no fa ni m a g ei sb a s e do nw e b e x t e r i o ri n f o r m a t i o nr e s o u r c ea n di si r r e l a t i v ew i mi m a g ed a t a i tc a nb ee x t e n d e dt o o t h e rm e d i al i k ea u d i oa n dv i d e o t h ea u t o m a t i cs e m a n t i ca n n o t a t i o no fw e b m u l t i m e d i ac a l lb er e a l i z e dw i t ht h em e t h o d i th a si m p o r t a n tv a l u ei ni n c r e a s i n g r e c a l l r a t i oa n dp r e c i s i o nr a t i oo ft h en m l t i m e d i ar e t r i e v a ls y s t e m i nt h ef i e l do f e d u c a t i o n a lt e c h n o l o g y ,t h em e t h o di sh e l p f u lt ot h ec o n s t r u c t i o no fn e te d u c a t i o n a l r e s o u r c e sa n dt h ed e v e l o p m e n to ft h ei n f o r m a t i o n a lp r o c e s so fe d u c a t i o n k e v w o r d s :w e b ;i n f o r m a t i o ne x t r a c t i n g ;s e m a n t i ci n f o r m a t i o n o fa ni m a g e ; s e m a n t i ci n f o r m a t i o no fm u l t i m e d i a ;s e m a n t i ca n n o t a t i o n c a t e g o r yc o d e :g 4 3 4 i v 独创声明 本人声明所呈交的学位论文是本人在导师指导下进行的研究工作及取得的 研究成果。据我所知,除了文中特别加以标注和致谢的地方外,论文中不包含其 他人已经发表或撰写过的研究成果,也不包含为获得( 注:如 没有其他需要特别声明的,本栏可空) 或其他教育机构的学位或证书使用过的材 料。与我一同工作的同志对本研究所做的任何贡献均已在论文中作了明确的说明 并表示谢意。 学位论文作者签名 醌、叉哺 新粹嬲瑶 学位论文版权使用授权书 本学位论文作者完全了解堂撞有关保留、使用学位论文的规定,有权保 留并向国家有关部门或机构送交论文的复印件和磁盘,允许论文被查阅和借阅。 本人授权堂撞可以将学位论文的全部或部分内容编入有关数据库进行检索,可 以采用影印、缩印或扫描等复制手段保存、汇编学位论文。( 保密的学位论文在 解密后适用本授权书) 学位论文作者繇麓稚 签字同期:2 0 0 r 年f 月s 同 导师签字:多j 缓夕龟 山东师范大学硕士学位论文 第一章绪论 1 1引言 随着i n t e r n e t 的普及和发展,w w w ( w o r l dw i d ew e b ) 蕴含了大量的多媒 体资源。它作为一个庞大的信息资源库,已成为人们获取信息的主要途径之一, 也是教育资源的重要来源。但是,随着网上多媒体资源爆炸式地增长,人们在 w e b 中找到自己感兴趣的多媒体资源的困难也越来越大。如何从w e b 所蕴含的 海量信息中快速、准确地检索到所需要的多媒体资源是人们日益关注的问题,面 向w e b 的多媒体检索逐渐成了近几年信息检索的研究热点之一。 在面向w e b 的多媒体检索中,人们常常希望能够根据多媒体的语义信息, 即多媒体所描述的主题、主体、事件以及要表达的情感含义等进行检索,即基于 语义的多媒体检索【l 】。实现基于语义的多媒体检索的前提条件是:提取多媒体的 语义信息,准确地对多媒体进行语义标注。传统的方法是人工标注,但是随着多 媒体资源的迅速增长,全部人工标注显然不现实,而且人工标注不可避免地带有 主观性,缺乏统一的标准。人们迫切需要一种实用的面向w e b 的多媒体语义信 息提取方法。 在教育技术领域,网络教育资源建设是教育信息化的核心工作之一。对w e b 蕴含的丰富的多媒体资源进行语义标注,将其整合到教育资源库中,对于网络教 育资源建设具有重要意义,有利于实现教育资源的智能化建设,促进教育信息化 的发展。 基于此,论文立题研究面向w e b 的多媒体语义信息提取方法,从w e b 相关 文本中提取多媒体的关键文字信息,用于描述、标引w e b 多媒体语义。这对于 网络教育资源建设、基于文本的w e b 多媒体检索、w e b 多媒体内容分析与理解 均具有积极意义。 1 2 研究现状 获取w e b 多媒体的语义信息主要有两种方法:基于内容的多媒体语义信息 提取和基于外部信息源的多媒体语义信息提取。 基于内容的多媒体语义信息提取,首先对多媒体的原始数据进行分析,获得 多媒体的视觉和声学等低层特征,然后建立由视觉和声学等低层特征向高层语义 的映射,进而获得多媒体的语义信息。多媒体的高层语义包含了人对多媒体内容 的理解,这种理解是无法直接从多媒体的视觉和声学特征获得的,而要根据人的 认识来判断。人对多媒体语义的理解结合了日常生活中积累的大量经验,是一个 利用已有知识推理多媒体语义的过程f l 】。目前计算机的智能水平,尚无法模拟人 山东师范大学硕士学位论文 类的这一思维过程,不能有效地建立由低层特征向高层语义的映射,它们之间存 在着难以逾越的“语义鸿沟”【”。基于内容的多媒体语义信息提取方法只在某些 特定的领域中取得了成功,尚无法真正应用于复杂的w e b 多媒体语义信息提取。 基于外部信息源的多媒体语义信息提取,通过分析多媒体所在网页的标题、 周围文本、多媒体的文件名及文件路径等外部信息来获取多媒体的高层语义信 息。多数面向w e b 的多媒体搜索引擎,如s c o u r 、a l t a v i s t a 、l y c o s 、i m a g es u r f e r 、 w e b s e e k 等【3 ,均是采用这种方法来分析w e b 多媒体的语义信息,作为检索的 依据。但是基于该方法的搜索引擎通常查准率较低,用户从大量的相关多媒体中 通过浏览选择需要的多媒体仍然是相当繁重的工作。 本文力求总结前人的工作,提出一种实用的基于外部信息源的多媒体语义信 息提取方法。 1 3 研究内容 本论文主要做了以下四个方面的工作: 1 第二章对当前已有的w e b 多媒体语义信息提取方法进行了概述; 2 第三章首先详细介绍了与图像相关的h t m l 标记,然后介绍了图像相关文 本及其提取方法,最后说明了对其进行编码转换、翻译和分词及词性标注预处理 的方法: 3 第四章首先介绍了图像语义的表示方法、图像语义词典的建设方法,然后 给出了从图像相关文本中提取图像主题词、主体名和主体属性词的算法,以及图 像主题词自动添加、图像主题分类的算法; 4 第五章主要介绍了面向w e b 的图像语义信息提取系统w s e i s i 的系统结 构、关键技术和各模块的具体实现方法,最后给出了利用该系统进行实验的实验 结果,并指出了需要进一步研究探索的方向。 论文主要对w e b 图像语义信息提取展开了具体研究,提出了进行图像语义 信息提取的方法。该方法进行语义信息提取的依据是w e b 相关文本和语义词典, 与图像本身的数据内容无关。它不受媒体类型的限制,同样适用于网上音频、视 频等多媒体的语义信息提取。 山东师范大学硕士学位论文 第二章w e b 多媒体语义信息提取概述 获取w e b 多媒体的语义信息一般有两个角度:一个是从多媒体本身,即通 过对多媒体的内容信息进行分析理解,获取其语义:另一个是从多媒体的外部信 息,即通过对其w e b 相关文本进行分析,获取其语义。相应的w e b 多媒体语义 信息提取方法也有两类:基于内容的多媒体语义信息提取和基于外部信息源的多 媒体语义信息提取。本章对这两类方法进行了概述。 2 1基于内容的多媒体语义信息提取 基于内容的多媒体语义信息提取,首先对多媒体的原始数据进行分析,获取 其低层特征,然后建立由低层特征向高层语义的映射,进而获取其语义信息。图 像、音频和视频具有不同的内容结构,进行分析的方法也不尽相同。 2 1 1基于内容的图像语义信息提取 图像的语义可以分为三个层次【“。第一个层次称为特征语义,主要是指图像 的颜色、纹理、形状等低层特征及其组合。从本质上来讲,这并不是真正的图像 语义信息。目前c b i r ( 基于内容的图像检索,c o n t e n t - b a s e di m a g er e t r i e v a l ) 技术主要处在这个层次上。第二个层次称为对象语义,主要是指图像中包含的对 象和对象的空间关系。这个层次上的语义提取需要利用图像的特征语义,并进行 一定的逻辑推理来识别出图像中包含的对象类别和空间关系。第三个层次称为抽 象语义,也可称为概念级语义,需要对所描述的对象和场景的含义进行高层推理。 这个层次的语义主要涉及图像的场景语义、行为语义和情感语义。这三个层次的 差别主要体现在第一层和第二层之间,即是否真正地体现了图像的语义。许多研 究者将第二层和第三层的检索称为图像语义检索【6 】,而将第一层和第二层的差别 称作“语义鸿沟”。 下面,将对图像语义提取方法,即将低层图像特征映射到高层语义的方法作 一个全面讨论。 目前基于内容的图像语义信息提取主要有两种方法:基于知识的语义提取和 人工交互语义提取l l l 。 1 基于知识的语义提取 基于知识的语义提取,主要特征是需要预先给系统提供必要的知识,如对象 模板、对象属性知识库等。依据提取的语义内容和采取的方法,又可以分为基于 对象识别的处理方法和全局处理方法。 ( 1 ) 基于对象识别的语义提取 基于对象识别的语义提取,一般采用传统的计算机视觉处理框架,主要包括 山东师范大学硕士学位论文 图像分割、对象识别和对象空间关系分析三个关键处理过程n 3 。它们是一个自底 向上的过程,每一步都是下一步处理的基础。 早期的例子是g r i m d b m s ”3 ,它的目标是在一些特定的领域解释和检索线 条图,如建筑平面图。这类系统使用图像中对象类别及对象空间关系的语义,是 早期语义图像检索系统的典型代表。 识别出的对象和空间关系可以成为获得更高一层语义的基础,作为获得图像 场景语义和图像描述的事件语义的辅助手段。在结合了特定的领域知识后,这类 方法可以在特定的领域取得成功的应用。对象闻空闽关系的表示及它们的相似性 匹配可以用2 ds t r i n g 。1 、空间方向图“”等方法。但这些空间关系还只是在空间拓 扑的层次上,即上下、左右等。实际应用中可能需要更高一层的空间语义,如: 前后、靠近、围绕等,这就需要应用领域和外部的知识”1 ,而这些空间关系的获 得由于对象间的重叠和遮挡相对来说比较困难。图像分割和对象识别都是相关领 域的经典难题,因此这一过程还存在着很大的困难。 ( 2 ) 基于全局特征的简单场景分类 心理学家的研究表明:在一定情况下,人类可以在不知道任何对象信息的情 况下进行场景识别。在对图像中的对象进行识别前,首先处理低层次的视觉信息, 得出图像的全局低层特征,进行粗的场景分类是完全可能的。 这方面做的比较好的例子是v a i l a y a 的实验 i l lo v a i l a y a 利用一系列2 类b a y e s 分类器的组合,通过分析全局的低层视觉信息来获取简单的环境分类信息。他对 度假的照片进行分类:首先区分一个图像是室内的还是室外的,对于室外的图像 再区分它是城市风光还是野外风景;然后对于野外风景再区分是日落还是森林或 者山地。每个2 类分类器都评价各种全局视觉特征。根据他的实验,空间颜色 和亮度分布对于区分室内和室外问题比较有效,边的分布对于区分城市和野外风 光比较有效,全局颜色分布和饱和度对于区分日落、森林和山地比较有效。这些 2 类b a y e s 分类器的层次式组合,对于简单的环境分类,具有较高的分辨率。 ( 3 ) 基于视觉特性的情感语义和形象风格提取 情感语义相对于前面几种语义来说更具有主观性,涉及到人的认知模型、文 化背景以及美学标准。目前只是在艺术图像这个特定领域对于图像的情感语义有 了一定程度的研究,主要是由于艺术家在进行创作时,往往采用了一些常用的艺 术手法,比如:不同的颜色组合会产生和谐或不和谐、平静或兴奋等不同效果, 倾斜度大的线条会让人感到有活力,而倾斜度小的线条则会让人感觉平静和放 松。 鲁东明等针对敦煌壁画艺术,提出了风格语义特征的处理方法“。通过建立 一系列形象特征到语义特征的转换算法,来分析具体壁画对应的风格等高层语 义。c o l o m b o ,b i m b o 和p a l a 进行了艺术图像语义检索实验“”。他们首先建立了 山东师范人学硕士学位论文 一系列将图像视觉内容缺射到图像语义的规则,根据这些规则对图像进行分析, 初步判断图像传达的感情是快乐还是悲伤,是让人紧张还是让人放松。 2 人工交互语义提取 人工交互语义提取是一种利用用户检索和随后的相关反馈来获取图像语义 信息的方法“。这方面比较成功的例子是微软研究院开发的i f i n d 系统“,它借 助于人们在使用系统时的交互行为来半自动的获取语义信息。系统在图像库上构 造了一个语义网络,其可以看作是一个关键字的集合,每个关键字都和数据库中 的一些图像有链接,而每个链接都被赋予一定的权重。用户以输入关键字的方式 进行图像查询,系统通过计算查询关键字和图像上所标注的关键字( 这些关键字 并不都是准确的) 之间的相似度来得到最符合查询的图像集合。然后,用户可以 在所返回的查询结果中选择他所认为的相关或不相关的图像,从而可以建立( 取 消) 这些相关( 不相关) 图像和查询关键字之间的链接,丰富了语义网络。对于 某个特定的查询,大多数用户都认同的相关图像由于经常被指定为反馈正例,其 关键字的权重将不断增加;相反,那些用户意见不一致的图像即可能被指定为相 关图像,也可能被指定为无关图像,其关键字的权蓖就会较低。随着整个语义网 络的丰富和更新,图像的语义信息也就描述的更加准确。 2 1 2 基于内容的音频语义信息提取 音频是声音信号形式,可分为三种类型【1 6 j : 语音:具有词宇、语法等语素,是一种高度抽象的概念交流媒体。语音经过 谚 别可以转换为文本,文本可作为语音的一种脚本形式。 音乐:具有节奏、旋律或和声等要素,是人声与乐器音响等配合所构成的一 种声音。音乐可以用乐谱来表示。 波形声音:对模拟声音数字化得到的数字音频信号,它可以代表语音、音乐、 自然界和合成的声响。 不同的音频类型具有不同的内在内容。从整体看。音频的内容可分为三个级 别:最低层的物理样本级、中间层的声学特征级和最高层的语义级。其中物理样 本级主要是指采样率、时间刻度、样本、格式、编码等信息,声学特征级主要指 音调、音高、旋律、节奏等感知特征和能量、过零率等声学特征,语义级是音频 内容、音频对象的概念级描述。具体来说,在语义级上,音频的内容是语音识别、 检测、辨别的结果;音乐旋律和叙事的说明:以及音频对象和概念的描述。目前 对于音乐、波形文件的语义提取尚有一定困难,技术上比较成熟的是语音语义提 取。下面简要说明语音的语义提取方法。 语音是通过语音识别技术来进行语义提取的。典型的语音识别系统的结构如 图2 - 1 所示1 。 山尔师范大学硕士学位论文 语音输入 + 图2 1 语音识别系统结构图 其中,预处理包括语音信号采样,反混叠带通滤波、去除个体发音差异和设 备、环境引起的噪声影响等,并涉及到语音识别基元的选取和端点监测问题;特 征提取部分用于提取语音中反映本质特征的声学参数,如平均能量、平均过零率、 共振峰等:训练在识别前进行,通过让讲话者说出一些句子,有时需多次重复某 些语音,从原始样本中去除冗余信息,保留关键数据,再按照一定规则对数据加 以聚类,形成语音模式库;模式匹配部分是整个语音识别系统的核心,它根据一 定的准则( 如某种距离测度) 以及专家知识( 如构词规则、语法规则、语义规则 等) ,计算输入特征与库存模式之间的相似度( 如距离匹配、似然概率) ,判断出 输入语音的语义信息。目前具有代表性的语音识别方法主要有特征参数匹配法、 隐马尔科夫法和神经网络法【1 7 1 。 l ,特征参数匹配法 特征参数匹配法是一种传统的模式识别方法,其识别过程如下:首先在进行 训练时从训练语句中提取出特征参数,这些参数代表了语音的本质,称为相应语 音的模板,然后在识别过程中从待识别语音信号中按同样的处理方法提取出语音 参数,最后应用某种不变的测度寻求语音参数与模板参数之间的相似性,用似然 函数进行判决。特征参数匹配法适合于进行中小词汇识别。 2 隐马尔科夫法 隐马尔科夫法( h m m ,h i d d e n m a r k o v m o d e l s ) 是当前语音识别的主流技术, 目前大多数大词汇量、连续语音的非特定人语音识别系统均基于h m m 模型。 h m m 对语音信号的时间序列结构建立统计模型,将其看作一个数学上的双 重随机过程:一个是用具有有f 艮状态的m a r k o v 链来模拟语音信号统计特性变化 的隐含随机过程,另一个是与m a r k o v 链的每一相关联的观测序列的随机过程。 h m m 语音模型_ g ,a 。b ) 由起始状态概率仞) 、状态转移频率似) 和观测序列概率 ) 三个参数组成。石、a ,b 分别描述了h m m 的拓扑结构、语音信号随时间的 变化情况和观测序列的统计特性。 h m m 语音识别系统的一般过程是:先用b a u m w e l c h 算法,训练出信号最 佳h m m 模型 b ,a b ) ;在识别过程中采用基于整体约束最佳准则的v i t e r b i 算 法,计算当前语音序列和模型的似然概率,选出最佳状态序列,确定输出结果。 i b m 于1 9 9 6 年正式推出中文听写机系统v i a v o i c e ,正是利用的隐马尔科夫 山东师范大学硕士学位论文 算法。该系统对新闻语音识别有较高的精度,是目前比较有代表性的汉语连续语 音识别系统”。 3 神经网络法 人工神经网络( a n n ,a r t i f i c i a ln e u r a ln e t w o r k ) 本质上是一个自适应线性 动态系统它模拟了人类神经元活动的原理,具有自适应性、并行性、鲁棒性、 容错性和学习特性。语音识别神经网络主要有多层感知器网、k o h o n e n 自组织神 经网和预测神经网络。这些基于神经网络的语音识别系统具有很大的发展潜力, 但普遍存在训练、识别时间太长的缺点,目前仍处于试验探索阶段。 2 1 3 基于内容的视频语义信息提取 视频语义可以分为三个层次【1 9 】:第一个层次是特征语义,以视频的颜色、形 状等视频内容物理特性的低层特征及其组合来描述该段视频“象什么”。第二个 层次是对象和对象时空关系语义,通过识别和逻辑推理确定视频内容中的对象和 类别及对象间的拓扑关系,从而描述视频里“有什么”。第三个层次的语义是场 景语义、事件语义和情感语义等,这是根据对象语义和对象时空关系的特征及其 变化经高层推理和判断而来的,这些推理和判断往往需要利用一定的映射模型和 规则。 与图像和音频的语义信息提取相比,视频的语义信息提取更加困难。对于视 频的分析,首先要进行视频结构分析,通过镜头边界检测将视频流分割为镜头, 并在镜头内选择关键帧,然后提取镜头的运动特征和关键帧的视觉特征。1 ,但是 这种方法只能提取出视频的第一层的低层语义信息,并不能用来进行真正意义上 的语义标注。目前,在进行视频语义信息提取时,常用的方法有基于声音的语义 信息提取和基于文字的语义信息提取。”。 1 基于声音的视频语义信息提取 一段完整的视频往往是包含声音信息的。声音在一定程度上所反映的内容比 视频本身更具明确性且易于辨认。利用2 1 2 小节已经介绍的语音识别技术,识 别出视频中伴音的具体内容和出现的角色,能够对角色进行分类和定位,这对判 断角色出现的场景及视频中所包括的事件等比较有效。但是对于视频节目,浚方 法具有局限性,因为视频节日属于自然语言环境,不但存在严重的干扰而且没有 训练机会。 2 基于文字的视频语义信息提取 视频中包含的文字与视频内容具有比较强的相关性,在许多情况下,它是视 频内容的直接反映。在视频中有两种可能的文字:一是字幕,二是在视频背景环 境中嵌入的文字。字幕反映的是直接信息,一般具有固定的位置、字体和颜色: 视频背景环境中嵌入的文字随视频内容变化,随意性较大,且有复杂的背景。 基于文字的视频语义信息提取首先必须把文字提取出来,一般分为三步:第 山东师范大学硕十学位论文 一步,判定文字的存在并定位;第二步,对其进行预处理,包括分割、增强等: 第三步是文字识别。文字识别是比较成熟的技术,有多种o c r 系统可以用来实 现字幕及嵌入文字的识别。虽然视频中的文字状态复杂,但它们具有共同的特点: 在变化的背景下,同一文字串一般有比较一致的颜色,或者在相同颜色的( 大多 是局部) 背景下,文字有变化的颜色。这也是辨别文字的基本依据。 c m u 的l n f o n n e d i a d i g i t a ll i b r a r y p r o j e c t “”结合了自然语言理解、语音识别 和视频压缩技术,从文本、音频和视频几个角度来分析视频,对其迸行描述。它 以新闻广播作为测试样本,取得了较好的结果。它首先将新闻节目转化为m p e g 格式,音频和视频作为独立的流分开处理,保留各自的时问标志;对于音频流, 应用语音识别系统去识别音频流的语言,并把识别结果翻译为文本;对于视频流, 将其分割为镜头,并选择关键帧,如果有视频字幕,则将视频字幕中的文本识别 出来;将视频字幕和语音识别中得到的文本结合起来,对视频进行描述。 目前,基于内容的多媒体语义信息提取已经取得了很大的进展,对于多媒体 低层特征的分析处理已经具有比较成熟的技术。但是由于多媒体低层特征与高层 语义之间存在“语义鸿沟”,尚无法有效地实现由低层特征向高层语义的映射。 基于内容的多媒体语义信息提取方法仍具有较大的局限性,还无法有效应用于 w e b 环境下的多媒体语义信息提取。 2 2 基于外部信息源的多媒体语义信息提取 基于外部信息源的多媒体语义信息提取,通过分析多媒体来源处的外部相关 信息,来获得多媒体相对高层的语义描述。w e b 多媒体总是出现在定的上下文 环境中,其语义与上下文环境,如多媒体的文件名及文件路径、周围文本、所在 网页标题等,有着密切的联系。这些相关文本均可作为多媒体的外部信息源,从 中提取多媒体的语义信息。目前多数网上多媒体搜索引擎也是基于该原理提取多 媒体语义信息,对其作语义标注,并进行检索口。 新加坡国立大学计算机系的h e n gt a os h e n 教授针对w e b 图像检索提出了在 w e b 文档中提取图像语义信息的方法。“。他认为网页中图像的上下文信息,包括 图像名、图像标签、图像周围文本、图像所在网页标题,是与图像语义密切相关 地,并以此为依据建立了w e i g h tc h a i n n e t 模型和s e m a n t i cm e a s u r e 模型,来获 取图像的语义信息,进行图像检索,取得了良好的实验效果。 本文在总结前人研究的基础上,实现了一种基于w e b 外部信息源进行图像 语义信息提取的方法。该方法不仅可以应用于图像语义信息的提取;由于它以 w e b 外部信息为语义来源,并不依赖于图像本身的数据内容,所以该方法不受媒 体类型的限制,可以容易地扩展到对w e b 音频、视频语义信息的提取,具有良 好的通用性。 山东师范大学硕+ 学位论文 第三章w e b 图像相关文本的提取与预处理 w e b 图像的语义信息常常蕴含在其相关文本中,提取图像语义的首要工作就 是提取w e b 图像的相关文本,并对其进行预处理。本章将首先介绍与图像嵌入 相关的h t m l 标记,然后介绍图像相关文本的提取方法,最后介绍对相关文本进 行编码转换、翻译、分词及词性标注的方法。 3 1相关的h i m i 标记。” 网页的格式有很多种,包括h t m l 、a s p 、p h p 、t x t 、n s f 、j s p 、c g i 、p l 、x m l 等。在最终生成可供浏览的w e b 页面时,大多采用的是h t m l 语言代码【2 4 】。本节 将主要介绍与图像嵌入相关的h t m l 标记。 1 字符集属性标记 字符集属性标明了网页所采用的字符集,可由“ ”标记 内的c h a r s e t 属性值来获得。根据其属性值是否为g b 2 3 1 2 或g b 2 3 1 2 8 0 ,即可判 断相应网页是否为简体中文网页。 2 网页标题标记 网页标题是对网页内容的概括。网页“ ”标记中的内容即 为网页的标题。 3 超链接标记 超链接标记主要用来实现网页之间或者网页与媒体文件之间的导航。其语法 格式为“ 超链接热点叫a ”( 注:”群”代指某一段字符串) , 其中“h r e f = ”# ”表示一个超文本引用,可以指向任意一个目标地址;“n a m e = ”群” 表示该超链接标记在当前网页中的名字;超链接热点是在网页上显示以便浏览者 点击的文字或图像,其中往往包含了重要的语义信息。 4 图像嵌入标记 图像嵌入标记可以将图像嵌入在网页中指定的位置。其语法格式为“ ”,其中“s r c = 灌”表示嵌入的图像文件的路 径和文件名;“a t t = ”撑”表示在浏览器不能或者尚未完全读入图像时,在图像位 置显示的替换文字,又称为图像的标签;“w i d t h = # h e i g h 仁”分别表示显示的 图像的宽度和高度。图像嵌入标记中的s r c 属性和a l t 属性对于提取图像的语义 信息具有重要意义。 5 表格标记 表格标记主要用来组织整个网页的结构。常用的表格标记有: ( 1 ) 标记 标记的作用是用来定义表格,其语法格式为“ ”。 9 山东师范大学硕士学位论文 在 标记内可以定义表格的尺寸、表格线粗细、文字间距、单元格边缘尺寸 及表格背景等一系列属性。 ( 2 ) 标记 标记用来定义表格中的某一行,可以指定菜一行的背景色、文字对齐方 式等属性。 ( 3 ) 标记 标记用来定义表格中的某一个单元格,可以指定该单元格的背景色、文 字对齐方式等属性。 本节主要介绍了w e b 页面中与图像嵌入相关的常用的h t m l 标记,这些标记 对于提取图像的相关文本具有重要意义。但是仅这些h t m l 标记对于准确提取相 关文本是不够的,w e b 页面的组织结构往往非常复杂,只有在对w e b 页面的结 构做全面的分析后才有可能正确地提取出w e b 图像的相关文本。 3 。2 图像相关文本 w e b 网页中的图像相关文本常常蕴含着图像的语义信息f 2 2 】【2 5 1 ,是语义提取 的重要信息来源。主要包括: ( 1 ) 图像的文件名。通常为拼音、英文单词、英文缩写或中文词语等,通常蕴 含了图像的主题或主体名等。 ( 2 ) 图像的周围文本。多为一个句子或个段落,包含的图像语义信息最丰富。 ( 3 ) 图像的标签。常以短语的形式概括图像的主题内容。 ( 4 ) 图像所奁网页的标题。通常以一个短句的形式概括网页的核心内容,可能 与图像的语义有关。 ( 5 ) 图像链接的网页的标题或链接的图像的文件名。图像链接的网页或图像与 图像有密切关系;因此,概括链接网页内容的网页标题或概括链接图像主题的图 像文件名与图像语义同样也具有相关性。 ( 6 ) u r l s ,即图像的u r l 、图像所在网页的u r l 及图像链接指向的u r l 。 这些u r l 可能包含图像主题或主体所属的分类领域或分类目录。 ( 7 ) 网页的栏目名。通常以几个短语说明了网页内容所属的类别,可能包含着 图像主题或主体的分类层次。 ( 8 ) 目标链接指向图像的文字。网页中有些文字的超链接指向图像,这样的文 字常常是图像的主题,代表了图像的语义。( 注:由于技术水平限制,该文本在 本文提出的图像语义信息提取方法中未能被利用。) 1 0 山东师范大学硕十学位论文 3 3 图像相关文本的提取方法 3 3 1图像相关文本的提取 ( 1 ) 图像u r l 的提取 在本文中,图像的u r l 是通过分析g o o g l e 搜索引擎返回的结果页面得到的。 g o o g l e 引擎返回页面的组织结构完全致,每页最多显示2 0 个搜索结果,每一 行显示其中的四个。通过对其h t m l 编码进行分析,可以获得图像的一些重要信 息。经分析发现,搜索到的每幅图像的u r l 均位于字符串“i m g r e s ? i m g u r l = ”和 “& i m g r e f u r l ”之间。循环提取g o o g l e 返回页面中,这两个字符串之问的字符即 可提取出该页面中包含的全部图像的u r l 。 ( 2 ) 图像文件名和图像链接图像文件名的提取 图像文件名和图像链接图像文件名均可以从其u r l 中获取。u r l 中最后一 个正斜杠和点号之间的字符串就是文件名。截取该字符串即可得到文 件名。 ( 3 ) 图像所在网页的u r l 的提取 图像所在网页的u r l 也是通过分析g o o g l e 引擎返回页面来获取的。对h t m l 编码进行分析可以发现,图像所在网页的u r l 均位于“& i m g r e f u r l = ”与“& 脖” 或“& h l = z h -
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 2025年仓库房租赁合同暨仓储信息化系统升级改造协议
- 2025年新型设备抵押融资担保服务协议
- 2025版智能电网建设电力设备检测与维护服务合同
- 2025年旅游风景区特色餐饮店承包合同
- 2025年度跨国公司外籍财务顾问长期合作协议范本
- 2025版石材加工及批发业务合作协议
- 2025年度电力系统节能改造技术咨询合同
- 2025年公共场所智能垃圾分类保洁增补合同范本
- 2025年保洁员服务合同范本
- 信号通路阻断研究-洞察及研究
- 申报书范例《毛泽东思想和中国特色社会主义理论体系概论》在线课程申报书课件
- 职业健康安全与环境讲解
- DB1331∕T 034-2022 建筑与市政工程无障碍设计图集
- 乡镇卫生院风险管理制度
- 移动餐车营销策划方案范文
- 2025年修订版《雇佣合同》全文
- 人工智能训练师(3级)理论知识复习题练习卷附答案
- 《新药注册申报流程》课件
- 2022年全国中学生数学奥林匹克竞赛(预赛)暨2022年全国高中数学联合竞赛一试(A卷)参考答案及评分标准
- icp仪器分析考试试题及答案
- 核心素养培养:历史单元分层作业设计
评论
0/150
提交评论