(教育技术学专业论文)面向web的多媒体信息提取及其教育应用.pdf_第1页
(教育技术学专业论文)面向web的多媒体信息提取及其教育应用.pdf_第2页
(教育技术学专业论文)面向web的多媒体信息提取及其教育应用.pdf_第3页
(教育技术学专业论文)面向web的多媒体信息提取及其教育应用.pdf_第4页
(教育技术学专业论文)面向web的多媒体信息提取及其教育应用.pdf_第5页
已阅读5页,还剩64页未读 继续免费阅读

(教育技术学专业论文)面向web的多媒体信息提取及其教育应用.pdf.pdf 免费下载

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

面向w e b 的多媒体信息提取及其教育应用 摘要 随着i n t c r n , t 的迅速发展,w e b 蕴含了大量的多媒体信息资源。但是w e b 中 多媒体信息资源无序、分布和爆炸性增长,给人们快速、准确地找到自己感兴趣 的资源带来诸多不便。建构主义强调利用各种信息资源来支持“学”,认为构建 学习环境需要为学习者提供可选择的、丰富的和随时可得的与问题解决有关的各 种信息资源,包括文本、图形、声音、视频和动画等形式的多媒体资源。w e b 多媒体信息资源对于建构主义学习环境的创建和学习者的学习具有非常重要的 作用。因此,本文研究了面向w e b 的多媒体信息提取方法,并应用于基础教育 个性化多媒体标注系统中,取得了较好的实验结果。本文研究对基于建构主义的 多媒体学习环境的构建具有积极意义。 论文对当前已有的w e b 多媒体信息提取方法进行了总结,将其分为基于内容 的多媒体信息提取方法和基于文本的多媒体信息提取方法,指出了它们各自的优 缺点,重点研究并实现了基于文本的多媒体信息提取方法。 w e b 多媒体信息通常嵌入在网页中,并有相关描述文本。多媒体相关文本是 指嵌入在w e b 网页中、与多媒体信息有关联的所有文本,包括链接文本、锚文本、 周围文本、环境文本等。从这些相关文本中提取出多媒体的语义信息是简单、方 便、可行的。本文给出了一种基于映射表的网页视图转换模式和基于栈的网页结 构生成方法,实现对网页进行结构与内容分析、网页区域分割、特征提取与语义 识别。在网页区域分割基础上,采用个体级、区域级和网页级三级分析方法完成 多媒体相关文本的提取。 为了进一步从多媒体相关文本中提取多媒体的语义信息,本文给出了多媒体 语义表示方法和多媒体的主题分类,运用自然语言处理的方法,构建了中文分词 词典和图像语义词典,并开发了基于最大正向匹配的中文快速分词算法和多媒体 语义提取算法。 在上述工作基础上,本文设计开发了一个面向基础教育的个性化w e b 多媒体 标注系统。系统分为个性化元搜索模块、多媒体内容分析模块、元信息提取模块、 网页结构内容分析模块、相关文本提取与语义分析模块和多媒体信息存储模块。 论文详细介绍了系统的整体结构、数据库结构、关键编程技术和小学各年级、各 学科主题词的搜集方法,并对该系统进行了初步实验。实验结果表明,本文提出 的面向w e b 的多媒体信息提取方法具有较好的效果,对提高多媒体信息检索系 统的查全率与查准率具有积极意义。论文最后指出了系统的不足之处和需进一步 研究探索的方向。 【关键字】w e b 多媒体;信息提取:相关文本;多媒体语义;基础教育 【分类号】 g 4 3 4 n er e s e a r c ho i lm e t h o d so f ,e 1 ) i o r i e n t e dm u l t i m e d i a i n f o r m a t i o ne x t r a c t i n ga n di t sa p p l i c a t i o ni ne d u c a t i o n a b s t r a c t w i t ht h er a p i dd e v e l o p m e n to fi n t e r n e t , t h e r e al o to fm u l t i m e d i ai n f o r m a t i o n l 龄o u l c e si nt h ew 曲i tb c c o n l e - - sm o l e 柚dn l o r cd i f f i c u l tt ol o o kf o ri n t e r e s t i n g l e s o u r c eb e c a u s eo fd i s o r d e r , d i s t r i b u t i o na n de x p l o s i v ei n c r e a s eo fm u l t i m e d i a i n f o r m a t i o nr e s 0 1 1 c e si nt h ew e b c o m m m i v i s mp u t se m p h a s i s0 1 1u s i n gi n f o r m a t i o n l e s o u r c e st os u p p o r tt h el e a r n i n ga n dt h i n k st h a te o n s t r u e t i v i s ml e a r n i n ge n v i r o n m e n t s h o u l do f f e rr e l a t i v ei n f o r m a t i o nl e s o l l r c 燃w h i c ha s e l e , e t i v e 。a b a n d u n t , c o n v e n i e n t f o rl e a r n e r si n c l u d i n gi m a g e ,a u d i o ,v i d e o ,f l a s ha n ds oo i lw e bm u l t i m e d i a i n f o r m a t i o nl e s o u l c e sp l a yg r e a tr o l ei nc o n s t r u c t i o no ft h ee o n s m 删v i s ml e a r n i n g e n v i r o n m e n ta n dl e a r n i n go f t h el e a r n e r s t h e r e f o r e ,t h i st h e s i sr e s e a r c h e st h em e t h o d o fw e b - o r i e n t e dm u l t i m e d i ai n f o r m a t i o na ( n 瓢蚯n ga n di t sa p p l i c a t i o ni ne l e m e n t a r y e d u c a t i o n - o r i e n t e di n d i v i d u a l i t ys y s t e mo fi n d e x i n gw e bm u l t i m e d i a t h i st h e s i s r e s e a r c hi m p a c t sc o n s l l 3 硎o no f t l a ee o n s m 蜘v i s ml e a r n i n ge n v i r o n m e n ta c t i v e l y t h et h e s i ss u m m a r i z e st h ep r e s e n tm e t h o d so fe x l a a e t i n gi n f o r m a t i o no fw e b m u l t i m e d i a , s e p a r a t e st h e mi n t ot w oc a t e g o r i e s :t h em e t h o db a s e do nm u l t i m e a i a c o n t e n ta n dt h em e t h o db a s e do nt e x t , a n dp o i n t so u tt h e i rm e r i t sa n df a u l t s t h e m e t h o do f e x t r a e t i a gm u l t i m e d i ai n f o r m a t i o nb a s e do nt e x ti sr e s e a r c h e da n dr e a l i z e d w e bm u l t i m e d i ai n f o r m a t i o nn 镕o u “:e so f t e ne m b e di nw e bp a g e sw i t hs o n a er e l e v a n t d e s c r i b i n gt e x t m u l t i m e d i ar e l e v a n tt e x tt h a te m b e d si nw e bp a g ea n dh a ss e m a n t i c r e l a t i o nw i t hm u l t i m e d i ai n c l u d e st h el i n kt e x t , t h ea n c h o rt e x t , t h es u r r o u n d i n gt e x t a n dt h ee n v i r o n m e n tt e x t t h et h e s i sw h i c hb a s e d0 1 3 t h es t r u c t u r ea n dr e v e l a t o r yr u l e s t ow e bp a g e ss e g m e n t a t i o na n dt h ea r e as e m a n t i ci d e n t i f i c a t i o n , r e a l i z e st h e u n d e r s t a n d i n go fw e bp a g e ss e m a n t i c s ,a n dp r e s e n t st h e d e f i n i t i o no ft h ew e b m u l t i m e d i ar e l e v a n tt e x t b e s i d e st h a t , c o m b i n i n gw i t hi t sd i s l x i b u t i o nc h a r a c t e r i s t i c s , i tl a s sa d o p t e dt h r e el e v e l sa n a l y s i sm e t h o dt oc a r r yo l lt h ee x t r a c t i o n , i n c l u d i n gt h e i n d i v i d u a ll e v e l ,t h ea r e al e v e la n dt h ep a g el e v e l ,t h u sr e a l i z e dt h ew e bm u l t i m e d i a r e l e v a n tt e x ta c c u r a t e l yt oe x t r a c t m i no r d e rt oe x t r a c ts e m a n t i ci n f o r m a t i o no fm u l t i m e d i a , s e m a n t i cd i c t i o n a r i e ss u c h a st o p i cd i c t i o n a r y , m a i nb o d yd i c t i o n a r ya n da t t r i b u t ed i c t i o n a r ya 碍b u i l t 。a n dt h e a r i t h m e t i co fe x t r a c t i n gt h e mi sb r o u g h tf o r w a r d b e s i d e s ,t h ea r i t h m e t i co fa u t o m a t i c s e g m e n t i n gw o r d sb a s e d0 1 1t h ed i c t i o n a r yi sp r e s e n t e d b a s e d0 nt h ew o r k , t h ee l e m e n t a r ye d u c a t i o n - o r i e n t e di n d i v i d u a l i t ys y s t e mo f i n d e x i n gw e bm u l t i m e d i ai sd e s i g n e d t h es y s t e mi sd i v i d e di n t os i xp a r t s :t h ep a r to f i n d i v i d u a lm e t as e a r c he n g i n e ,t h ep a r to f c o n t e n ta n a l y s i s ,t h ep a r to f e x t r a c t i n gm e t a i n f o r m a t i o n , t h ep a r to fa n a i y s i so fw e bp a g e ss t r u c t u r ea n dc o n t e n t , t h ep a r to f e x t r a c t i n g t e x t sa n ds e m a n t i ci n f o r m a t i o na n dt h e p a r to fs a v i n gm u l t i m e d i a i n f o r m a t i o n i n t e g r a ls c n l c t i i f e ,d a t a b a s es t r u c t u r e ,k e yp r o g r a mt e c h n i q u ea n dt o p i c w o r d ss e l e c t i o no fd i f f e r e n tc l a s s e sa n ds u b j e c t sa r ei n t r o d u c e di nd e t a i l t h e e x p e r i m e n ti si n a d e ,a n dt h er e s u l tp r o v e st h a tt h em e t h o di se f f e c t i v e i nl a s t , t h e t h e s i sb r i n g sf o r w a r dt h ew a y st h a tn e e dt ob er e s e a r c h e dm o r ed e e p l y k e y w o r d s : w e bm u l t i m e d i a ;i n f o r m a t i o ne x t r a c t i n g ;r e l e v a n tt e x t ; s e m a n t i ci n f o r m a t i o no f m u l t i m e d i a ;e l e m e n t a r ye d u c a t i o n c a t e g o r yc o d e :( 3 4 3 4 i v 独创声明 本人声明所呈交的学位论文是本人在导师指导下进行的研究工作及取得的 研究成果。据我所知,除了文中特别加以标注和致谢的地方外,论文中不包含其 他人已经发表或撰写过的研究成果,也不包含为获得( 注:如 没有其他需要特别声明的,本栏可空) 或其他教育机构的学位或证书使用过的材 料。与我一同工作的同志对本研究所做的任何贡献均己在论文中作了明确的说明 并表示谢意。 学位论文作者签名:导师签字; 学位论文版权使用授权书 多j 磊名智 本学位论文作者完全了解堂撞有关保留、使用学位论文的规定,有权保 留并向国家有关部门或机构送交论文的复印件和磁盘,允许论文被查阅和借阅。 本人授权二趁可以将学位论文的全部或部分内容编入有关数据库进行检索,可 以采用影印、缩印或扫描等复制手段保存、汇编学位论文。( 保密的学位论文在 解密后适用本授权书) 学位论文作者签名: 导师签字:爹另白杉智 山东师范大学硕士学位论文 1 1引言 第一章绪论 随着h t m n c t 的快速发展,w e b 蕴含了大量的多媒体信息资源。多媒体( 文 本、图像、声音、视频、动画) 作为w e b 中信息存在的主要形式,对于教育、 科技等众多领域有着越来越重要的作用。但是w e b 中多媒体资源动态、分布、 无序和爆炸式增长,给人们快速、准确地找到自己感兴趣的资源带来诸多不便。 如何从w e b 所蕴含的海量信息资源中快速、准确地检索到所需要的多媒体资源 是人们普遍关注的问题,面向w e b 的多媒体信息检索也成为了近几年信息检索 的研究热点之一 鉴于基于内容的多媒体信息检索技术实现上的困难性,目前多媒体检索系统 大多是采用基于文本的关键词检索方式。该方式在检索之前必须首先对多媒体信 息资源进行标注以作为检索依据。传统方法是对资源进行人工标注但是,面对 w e b 中的海量资源单靠人工标注是不现实的,越来越多的人致力于研究多媒体资 源的自动标注技术。w e b 中的多媒体信息总是处于一定的上下文环境中,它们的 语义与上下文环境有着密切的关系。麸多媒体资源所在网页的标题、文件名、周 围文本等相关信息中可以提取出反映多媒体语义等关键信息,这些信息对于实现 多媒体资源的自动标注具有重要作用。对多媒体信息检索具有重要意义 建构主义强调以学生为中心、强调学习环境的设计、强调利用各种信息资源 来支持“学”。建构主义学习环境提供可供学习者选择的、丰富的和随时可得的、 与问题解决有关的各种信息资源( 包括文本、图形、声音、视频和动画等) 以及 通过w e b 铘览器从l a m n e t 上获取的各种有关资源h j 。w e b 多媒体信息资源对于 建构主义学习环境的创建和学习者的学习具有非常重要的作用。 基于此,论文立题研究面向w e b 的多媒体信息提取方法及其在教育领域中 应用。面向w e b 的多媒体信息提取方法就是从多媒体所在的网页中提取多媒体 的相关文本,再从相关文本中提取出用于描述、标引w e b 多媒体的语义信息, 从而完成了多媒体的自动标注将此方法应用到基础教育领域中,这对于建构主 义学习环境的创建、网络教育资源的自动化建设及教育信息化的发展有重要意 义 山东师范大学硕士学位论文 1 2 研究现状 获取w e b 多媒体的信息主要有两种方法:基于内容的多媒体信息提取和基于 文本的多媒体信息提取。 基于内容的多媒体信息检索是当前的信息检索的热点之一,它首先分析多媒 体信息的可视化特征或语音特征,以此为依据进行检索。但是,这种检索技术还 不是很成熟。它很大程度上依赖于检索者对检索要求描述的精确程度,其次就是 这种技术目前还无法分析出多媒体的一些深层语义信息,比如事件和关系等。这 种检索方式在w e b 多媒体信息检索上的应用还有待于迸一步研究。 基于文本的多媒体信息提取方法,是根据w e b 中的多媒体分布在网页中,它 总是处于一定的上下文环境中,它们的语义与上下文环境有着密切的关系。从多 媒体资源所在网页的标题、文件名、周围文本等相关信息中可以提取出反映多媒 体语义的主题、主体等关键信息,这些信息对于实现多媒体资源的自动标注具有 重要作用,对多媒体信息检索具有重要意义。新加坡国立大学计算机系的h e n g t a os h e n 教授针对w e b 中图像的检索提出了在w e b 文档中提取图像语义信息的一 种新方法。他认为网页中图像的上下文信息,包括图像名、图像替换文本、图像 周围文本、图像所在网页标题,是与图像语义密切相关地,并以此为依据建立了 w e i g h tc h a i n _ n e t 模型和s e m a n t i cm e a s u r e 模型,来获取图像语义信息,进行图像 检索,取得了较好的实验效果,大大提高了w e b 图像检索的准确率啷。国内外著 名的搜索引擎如雅虎、百度、g o o g l e 等,先对分布广泛的多媒体网页进行自动 标注,并在此基础上实现了对多媒体的标注,现在已经可以为人们提供关于多媒 体资源( 图片、音乐、视频) 的检索服务,但是通用的搜索引擎目前的查准率还 远远不能满足人们的需要,关键问题之一在于资源自动标注的准确性不高。 1 3 研究内容 本论文主要做了以下四个方面的工作: 1 第二章对w e b 多媒体的类型、信息提取方法进行了概述,对当前多媒体搜 索引擎、特点进行了介绍; 2 第三章首先详细介绍了h t m l 文档中相关标记及其特点,然后基于相关标 2 山东师范大学硕士学位论文 记分析,提出了一种基于映射表的网页视图转换模式和基于栈的网页结构生成方 法来对网页进行结构与内容分析,完成了网页区域分割、特征提取与语义识别, 定义了多媒体相关文本,即嵌入在w e b 网页中、与多媒体信息有关联的所有文本, 包括链接文本、锚文本、周围文本、环境文本,并在网页区域分割基础上,采用 个体级、区域级和f 6 l 页级三级分析方法完成了多媒体相关文本的提取,最后介绍 了多媒体相关文本的编码转换、翻译和分词及词性标注等预处理方法; 3 第四章介绍了从多媒体相关文本中提取多媒体语义信息、多媒体语义表示 方法和多媒体的主题分类,运用自然语言处理的方法,构建了中文分词词典和图 像语义词典,并开发实现了基于最大正向匹配的中文快速分词算法和多媒体语义 提取算法; 。 4 第五章主要介绍了面向基础教育的个性化w e b 多媒体标注系统的整体结 构、数据库结构、关键编程技术和基础教育中小学各年级、各学科主题词的搜集, 并使用该系统进行了实验,最后给出了利用该系统进行实验所得到的实验结果: 并指出了需要进一步研究探索的方向。 山东师范大学硕士学位论文 第二章w e b 多媒体信息提取概述 2 1 w e b 多媒体的分类与特点 2 1 1w e b 图像 w e b 图像是网页中一个非常重要的组成部分,它不仅可以表达传递信息,而 且可以装饰、美化网页。图像格式繁多,其自身的特点各不相同,在网页中常见 的图像格式有b m p 、j p g 、g i f 、p n g 、t i f 等。 b m p 格式:b m p 是w m d o w s 图形界面的基本格式,b m p 的颜色有2 位( 黑 自) 、4 位( 1 6 色) 、8 位( 2 5 6 色) 2 4 位( 6 5 5 3 5 色) 3 2 位等。这种格式无压缩, 占用空间大,在w 曲网页中占的比例较小。 j p g 、j p e g 格式:j p g 、j p e g 是最常见的压缩图像格式,j p e g 提供1 :2 到1 :4 0 之闻的压缩比。例如,1 0 5 m 的b m p 位图文件压缩为j p g 、j p e g 格式 的文件只有1 1 9 k b 。它占用空间小,因此被广泛应用于w e b 网页中。 g i f 格式:是一种动画位图,包括三种8 位位图格式,分别是静态的g 礤格 式,g i f s 9 a 和g 礤8 7 a 格式,支持动画格式和透明效果,最大支持2 5 6 种颜色。 它占用空间也比较小,因此被广泛应用于互联网,在网页中占有较大的比例。 p n g 格式:是一种新的位图格式,与g i f 格式相似,支持透明格式,不支 持动态效果,支持2 4 位真彩色,弥补了静态g i f 格式的不足。 t i f 、t i f f 格式:主要用于排版的一种位图格式,用l z w 压缩算法,压缩 比为2 :l 通用于保存o c r 软件识别扫描的文档。 2 1 2w e b 音频 w e b 音频格式主要有:w a y 格式、m i d i 格式、m o d 格式、m p 3 格式、r a 格式。 w a y 格式:它是微软公司开发的一种声音文件格式,未经压缩的波形( w a y ) 声音文件,符合p i f f r e s o u r c ei n t e r c h a n g ef i l ef o r m a t 文件规范,用于保存 w i n d o w s 平台的音频信息资源,被w i n d o w s 平台及其应用程序所支持。w a v 4 山东师范大学硕士学位论文 文件质量好,但是占用空间较大。 m i d i 格式:乐器数字化接口( m u s i c a li n s t r u m m e n td i g i t a l i n t a r f a c ) ,这种 文件占用空间非常小。 m o d 格式:在欧美各国流行,是用来制作轻音乐、摇滚乐的首选。这种文 件占用空间非常小 m p 3 格式:是w a v 文件经过特殊压缩后产生的一种音乐格式文件。这种文 件占用空间小,音质好,便于网络传输,因此被广泛应用于互联网,在网页中占 有非常大的比例。 m p 4 格式:是美国网络技术公司( g m o ) 采用m p e g - - 2 中的音频压缩技 术,压缩比l :1 5 ,比m p 3 的1 11 2 高。 r a 格式:是r e a la u d i o ,是目前最流行的格式支持流媒体技术,用与互联 网音频点播。 2 1 3 。w e b 视频 常见的w e b 视频格式有:a 、m o v 、m p e 0 、r m 、a s f 、w m v 。 a v i 格式:a v i 全称是a u d i ov i d e oi n t e r l e a v e d ,即音频视频交错,是微软公 硅a 司推出的一种视频格式文件,也是目前视频文件的主流。其最大的优点是兼容好、 调用方便、图像质量好,根据不同的应用要求,a v i 的分辨率可以随意调;对电 脑的配置要求不高,可以方便地转换为其他视频格式。a v i 视频文件分视频和音 频两部分构成,都没有进行压缩处理,数据量大,当尺寸放大时,窗口越大,文 件的数据量也就越大,通过降低分辨率可以大幅减低它的体积,但视频图像质量 必然受损。 m o v 格式:m o v 英文全称是m o v i ed i g i 协lv i d e ot e c h n o l o g y ,是苹果电脑公 司的视频文件格式。m o v 格式能够跨平台、存储空间要求小,支持2 5 位彩色, 利用q u i c k t i m e4 播放器,通过i n t c t n e t 传输的较高视频店:频质量电影、电视和 实况转播节目。 m p e g 格式:m p e g 是m o t i o np i c t u r ee x p e r t sg r o u p 的缩写,是运动图像压 缩算法的国际标准,被几乎所有的计算机平台共同支持,它包括了m p e g 1 。 i v i p e g - 2 和m p e g - 4 。m p e g 采用有损压缩方法减少运动图像中的冗余信息从而 山东师范大学硕士学位论文 达到高压缩比的目的,保证了影像质量。 r m 格式:r v i 是r e a l m e d i a 的缩写,是r e a l n e t w o r k 公司开发的一种用于 在低速网上实时传输音频和视频信息的压缩格式。r m 采用一种“边传边播”的 方法,即先从服务器上下载一部分视频文件,形成视频流缓冲区后实时播放,同 时继续下载,为接下来的播放做好准备。这种“边传边播”的方法避免了用户必 须等待整个文件从i n t e m 吐上全部下载完毕才能观看的缺点。r e a l m e d i a 可以根 据网络数据传输速率的不同制定了不同的压缩比率,从而实现在低速率的广域网 上进行影像数据的实时传送和实时播放。 r m v b 格式:是一种由r m 视频格式升级延伸出的新视频格式,其打破了 原先r m 格式平均压缩采样方式,在保证平均压缩比的基础上合理利用比特率资 源,就是说静止和动作场面少的画面场景采用较低的编码速率,这样可以留出更 多的带宽空间,而这些带宽会在出现快速运动的画面场景时被利用。这样在保证 了静止画面质量的前提下,大幅地提高了运动图像的画面质量,从而图像质量和 文件大小之间就达到了微妙的平衡。其还具有内置字幕和无需外挂插件支持等独 特优点。 a s f 格式:a s f 是微软公司和r e a l m e d i a 公司而发展出来的一种可以直接在 观看视频节目的视频文件的压缩格式,视频部分采用最先迸的m p e g - 4 压缩算 法,音频部分采用比m p 3 还要好的压缩格式w m a 。a s f 格式的压缩率和图像 效果都不错。 w m v 格式:w m v 英文全称w i n d o w sm e d i av i d e o 。微软推出的一种采用独 立编码方式并且可以直接在网上实时观看视频节目的文件压缩格式。w m v 格式 的主要优点包括:本地或网络回放、可扩充的媒体类型、部件下载、可伸缩的媒 体类型、流的优先级化、多语言支持、环境独立性、丰富的流间关系以及扩展性 等。 2 1 4w e b 动画 w e b 动画最常见的格式是s w f 格式。s w f 是由m a c r o m e d i a 公司的f l a s h 软件生成的矢量动画图形格式,占用空间很小,被广泛应用于i n t e r n e l 网上。 6 山东师范大学硕士学位论文 2 2 w e b 多媒体搜索引擎 目前国内外出现了很多提供多媒体检索服务的搜索引擎,如g o o g l e 、b a i d u 等。大多数搜索引擎通常提供简洁的用户界面,用户通过输入检索关键词,搜索 引擎在其相应的多媒体索引库中检索,然后将最大相似度的多媒体以列表( 文本、 图象缩略图、视频关键帧、f l a s h 动画) 的形式返回给用户。 ! g o o g l e o o o g t e 搜索引擎作为全球最大的搜索引擎,它也为用户提供了图片、视频 等多媒体搜索服务。g o o g l e 提供的图片搜索服务,有着较高的查全率和查准率 图2 一l 为g o o g l e 返回关键词“荷花,图片搜索结果。返回给用户图片缩略图、 图片名称、图片像素大小、图片本身大小、图片格式及图片所在网页的首页。从 图中可以看出,共有2 4 0 0 0 条符合结果,g o o g l e 的索引库非常庞大 图2 - 1g o o g l e 返回关键词“荷花”图片搜索结果 2 b a i d u b a i d u 搜索引擎作为中国最大的搜索引擎,它也为用户提供了网页、资讯、 图片、视频、动画、音频等多媒体搜索服务。 图2 - 2b a i d u 多媒体搜索引擎用户界面 7 山东师范大学硕士学位论文 图2 - 3b a i d u 返回关键词“小马过河”动画搜索结果 3 a l l t h c w e b a l l t h e w e b 多媒体搜索引擎提供面向多种语言如英文、中文等网页、新闻、 图片、视频和音频等多媒体检索服务。图2 _ 4 为输入关键词“千佛山”得到的视 频检索结果。其返回给用户的界面包括视频文件名、锚文本、描述文本摘要、视 频所在网页的u r l 、视频的播放长度、大小及其视频文件格式。 图2 - 4a l l t h e w e b 多媒体搜索引擎视频搜索结果 4 a l t a v m t a a l t a v i s t a 多媒体搜索引擎也提供面向多种语言如英文、中文等网页、新闻、 图片、视频和音频等多媒体检索服务。图2 5 为输入关键词“大明湖”得到的视 频检索结果。其返回给用户的界面包括视频文件名、标题名、帧率、视频的播放 长度、图象像素数、文件大小、文件格式、颜色、视频所在网页的u r l 和描述 文本摘要等丰富的多媒体描述信息。 8 山东师范大学硕士学位论文 图2 - 5a l t a v i s t a 多媒体搜索引擎用户界面 图2 - 6a l t a v b t a 返回关键词“大明湖”视频搜索结果 图2 - 7a l t a v 础t 返回关键词“大明湖”视频搜索详细结果 y a h o o 搜索引擎有英、中、日、韩、法、德、意、西班牙、丹麦等l o 余种 语言版本,各版本的内容互不相同。其最大的特点是提供类目、网站及全文检索 功能并且目录分类比较合理,层次深,类目设置好,网站提要严格清楚,但部分 9 山东师范大学硕士学位论文 网站无提要。y a h o o 网站的工作人员收集整理的图像分类目录较为准确,因此有 着较高的查准率。 6 a r c h i v e a r c h i v e 搜索引擎提供网页、动态图像、文本、音频、软件等搜索服务,其 索引库庞大,其提供多种语言检索,但是不支持中文检索服务。 7 b l i n k x b l i n l t x 图2 - 8ar c h i v e 搜索引擎 图2 - 9b l i n k x 搜索引擎 b l i n k x 搜索引擎所支持音频、视频以及电视节目段数,已经超过7 0 0 万小时。 随着宽带网络和数码设备的普及,越来越多的用户开始利用视频搜索引擎,而 b l i n k x 利用了语音识别系统以及图像和文字分析工具,集大程度提高了用户视频 搜索的准确度。用户在利用文字检索多媒体过程中,b l i n k x 并不是单独搜索文件 的名称,利用语音识别技术,视频文件中的声音也成为搜索耳枥o 其在视频索引 服务器中存储的仅仅为视频信息,而不是视频文件本身,从而极大程度降低了运 营成本。 2 3w e b 多媒体信息提取 1 0 多媒体内容和网页多媒体相关文本是w e b 多媒体信息的两个载体。多媒体 山东师范大学硕士学位论文 内容本身是多媒体的内容信息的相关描述;网页多媒体相关文本是w e b 多媒体 存在环境,网页环境中的相关文本蕴涵了多媒体的语义。因此w e b 多媒体信息 提取方法可以分为基于内容和基于文本的信息提取两种方法。 2 3 1 基于内容的w e b 多媒体信息提取 基于内容的多媒体语义信息提取主要是提取多媒体低层特征,如提取图像颜 色、形状、纹理等图像、音频和视频具有不同的内容结构,进行分析的方法也 不尽相同。 1 基于内容的图象信息提取 基于内容的图象信息提取可以分为三个层次【3 】第一个层次为特征提取,主 要是提取图像的颜色、纹理、形状等低层特征及其组合。第二个层次为图像对象 提取,主要分析提取图像中包含的对象及对象间的空间关系。这一层次提取是建 立在第一层次基础之上的,即利用图像的第一层特征并结合逻辑推理知识库来识 别出图像中包含的对象类别及其空间关系。第三个层次为图像高层抽象语义提 取,需要对所描述的对象和场景的含义进行高层概念推理。这个层次的语义主要 涉及图像的场景语义、行为语义和情感语义。 2 基于内容的视频信息提取 基于内容的视频信息提取可以分为三个层次:特征提取、对象和对象时空关 系提取、场景和情感提取 4 1 。特征提取以视频的颜色、形状等视频内容物理特性 的低层特征及其组合来描述视频。对象和对象时空关系提取是通过识别和逻辑推 理确定视频内容中的对象和类别及对象间的拓扑关系,从而描述视频对象。场景 语义和情感语义等提取是根据对象语义和对象时空关系的特征及其变化经高层 推理和判断得出,这些推理和判断需要利用一定的映射模型、知识库和规则等。 与图像和音频的信息提取相比,视频的语义信息提取更加困难。对于视频的 分析,首先要进行视频结构分析,通过镜头边界检测将视频流分割为镜头,并在 镜头内选择关键帧,然后提取镜头的运动特征和关键帧的视觉特征,但是这种方 法只能提取出视频的低层信息,并不能用来进行真正意义上的语义标注。 3 基于内容的音频信息提取 音频的内容可分为三个级别:最低层的物理样本级、中间层的声学特征级和 山东师范大学硕士学位论文 最高层的语义级阎。其中物理样本级主要是指采样率、时间刻度、样本、格式、 编码等信息,声学特征级主要指音调、音高、旋律、节奏等感知特征和能量、过 零率等声学特征,语义级是音频内容、音频对象的概念级描述。具体来说,在语 义级上,音频的内容是语音识别、检测、辨别的结果;音乐旋律和叙事的说明; 以及音频对象和概念的描述。 2 3 2 基于文本的w e b 多媒体信息提取 w e b 多媒体通常嵌入在网页中,并有相关描述文本,准确地提取相关文本来 索引w e b 多媒体是实现基于文本的多媒体检索的基础。基于文本的多媒体信息 提取,通过分析多媒体所存在环境一网页来提取相关描述文本,再对相关描述文 本进行分析处理,从而提取出多媒体相对高层的语义信息。w e b 多媒体有着自身 的存在形式和分布特点,如表2 - 1 所示。 表2 = iw e b 多媒体类型及特点 多媒体类型格式获取方式网页存在形式数据特点 视频 m p g 、m p e g 、a v i 下载 超链接数据文件大,传输下载 ( d e o )m o v 、舰、r m v bv o d播放器嵌入时间长,分布较广 音频+m p 3 、m i d 、w a y下载超链接数据文件小,传输下载 ( a u d i o )w m v在线播放播放器嵌入方便,分布较集中 动画s w f f l a下载 超链接数据文件小,传输下载 ( f l a s h )在线播放播放器嵌入方便,分布较集中 图片 b m p 、g i f j p g 下载 图片实体数据文件小,传输下载 ( i m a g e ) j p e g 、p n g 、( i f ( ”( 注:”萍”代指某一段字 符串) ,其中“h r e f = ”# ”表示一个超文本引用,可以指向任意一个目标地址; “衅”群”表示该超链接标记在当前网页中的名字;超链接热点是在网页上 显示以便浏览者点击的文字或图像,其中往往包含了重要的语义信息。 5 表格标记 山东师范大学硕士学位论文 表格标记主要用来组织整个网页的结构。常用的表格标记有: ( 1 ) 标记 标记的作用是用来定义表格,其语法格式为“ ”。 在 标记内可以定义表格的尺寸、表格线粗细、文字间距、单元格边缘尺寸 及表格背景等一系列属性。 ( 2 ) 标记 畛标记用来定义表格中的某一行,可以指定某一行的背景色、文字对齐方 式等属性。 ( 3 ) k 标记 标记用来定义表格中的某一个单元格,可以指定该单元格的背景色、文 字对齐方式等属性。 6 图像嵌入标记 图像嵌入标记可以将图像嵌入在网页中指定的位置。其语法格式为。 ”,其中“s r c = ”群”表示嵌入 的图像文件的路径和文件名;“a l t = ”群”表示在浏览器不能或者尚未完全读入图 像时,在图像位置显示的替换文字,又称为图像的标签;“w i d t h = ”群”h e i g h t = ” 群”分别表示显示的图像的宽度和高度。图像嵌入标记中的s r c 属性和a l t 属性 对于提取图像的语义信息具有重要意义。 7 视频嵌入标记 1 4 山东师范大学硕士学位论文 q 制艮mn a m e = ”d e v i c c f o n t 、硝ii7 e = ”o 好灿认m n i 伍= ”e m b e d v l o v i e ”、硝ii l e = ”o 妞a r a m n a h 伍= “b g c o l o r 、硝i i 理= ”| 司) a r a m n a 剐匝= ”s w r e m o t e ”、硝i i 琨= ” 锄ra mn a 皿! = ”m o v i e d a t a 、酗iu e = ”一 e m b e d s = ”i m a g e s t o 嫡i v o d s w f q u a l i t y = h i g h p l u g i n s p a g e = h t t p :w w w m a e r o m e d i a e o m s h o e l c w a v e d o w n l o a

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论