已阅读5页,还剩76页未读, 继续免费阅读
(教育技术学专业论文)基础教育多媒体网络教学资源检索研究.pdf.pdf 免费下载
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
基础教育多媒体网络教学资源检索研究 摘要 教育信息化建设转变了教育思想和观念,对教师和学生都提出了新的要求。 教师要具备利用网络获取教学资源、组织教学的能力,学生要有利用网络进行自 我学习能力。因特网蕴含了大量信息资源,但可用的教学资源分布零散且质量良 莠不齐。虽然现有的w e b 搜索引擎功能日益完善,但多数采用基于关键词的方 法,对于教学和学习所需要的多媒体资源的检索无能为力。尤其对于计算机能力 不强的中小学教师和学生而言,在多媒体资源的查找方面更需要方便快捷的系统 加以辅助。 本课题正是基于以上原因,我们以中小学教材为依据,组织基础教育教学预 搜索关键词,搜索网络资源,建立了一个以中小学师生为使用对象,面向基础教 育的多媒体网络教学资源索引库。并以唧技术为支持,以多媒体资源索引库为 基础,建立了一个面向基础教育的多媒体网络教学资源索引库的检索系统。 组织基础教育教学预搜索关键词,是为预搜索系统提供搜索指向,是建立面 向基础教育的多媒体资源索引库的前期工作。我们以中小学教材为依据,通过人 工收集和整理,从学段、学科和类型三个维度建立了基础教育教学主题词库体系。 学段分为小学、初中和高中,其中小学的学科有5 门,初中的学科有1 2 门,高中 的学科有1 4 门,主题词类型分为图像、动画、视频和音频。、 论文设计并建立了一个以面向基础教育的多媒体资源索引库为基础的检索系 统,该检索系统是面向w e b 的多媒体资源检索系统,可以根据用户名连接相应 的w e b 多媒体资源索引库。每个资源库包含了图像、动画、视频、音频四类资 源。该系统包括用户登录界面、用户输入界面、检索结果输出乔面。检索系统是 在分析了资源库中媒体的类型、特征及存储特点的基础上,采用中文自然语言查 询的方法,以相似度来衡量查询目标媒体和数据库媒体之间的差距。 自然语言是表达思想的有效工具,利用自然语言表达多媒体资源的语义是一 种简洁、有效的方法。论文对自然语言分词的一般方法做了介绍,引用已有的分 词词典建立了自用的分词函数,对查询文本进行分词和词性标注。从查询文本中 去除虚词、设定的缺省词汇,提出名词、动词、形容词、成语等我们需要的主题 关键词,即可得到对目标媒体的描述,称为主题内容。计算相似度之前,主题内 容要依据同义词词典进行扩展。 媒体资源索引库中包含图像、动画、视频、音频四种类型的媒体,论文采用 相似度来衡量查询目标媒体和数据库媒体之间的差距。媒体的特征包括文件属性 和内容特征,相似度计算主要是针对媒体的内容特征,对于不同的内容特征使用 不同的相似度计算方法。通过比较扩展后的主题内容与数据库中内容描述字段相 同词的个数来计算主题内容相似度;主色调颜色词转换为h s i 模式,与数据库中 以数值方式标注的主色调字段进行色调相似度的计算;图像的主体与主体属性针 对数据库中的主体字段计算相似度。所有的内容特征按照其所在层次确定重要性 后,计算总相似度。将总相似度大于一定闽值的数据库记录按照总相似度由大到 小的顺序,作为检索结果反馈给用户。 本文在上述工作的基础上,对面向基础教育的多媒体资源索引库的检索系统 进行了大量实验,并对实验结束进行了详细的表述。经实验表明,该系统对结构 比较简单的、嵌套较少的查询文本能比较准确的进行分词,对数据库中内容特征 标注准确、详实的记录,检索结果准确度较高,证明依据内容特征检索的方法是 可行的。缺点是随着多媒体资源索引库中记录的增多,当检索条件比较多时,系 统运行速度比较慢。论文最后总结了本文的工作,并提出了下一步的研究方向。 i i 【关键字】基础教育,自然语言查询,多媒体资源索引库,内容特征,相似度 【分类号】g 4 3 4 o f i m a g e ,a n i m a t i o n ,v i d e oa n da u d i o h lt l l i s 也e s i s ,w ed e s i 印觚de s t a b l i s har e t r i e v a ls y s t e mt 1 1 a tb 勰e do nt l l eb 撕c e d u c a t i o n o r i e n t c dm u l t i m e d i ar e s o u r c e si n d e xd a t a b 弱e t l l i si saw e b o r i e l l t e d r e l 晒c v a ls y s t 锄,w t l i c hc 锄c r e a t eac o n n e c t i o nt om ew 班m u l t i m e d i ar e s o u r c e si n d e x d a t a b 船ea c c o r d i n gt 0e a c hu s e m 锄e e a c hr e s o u r c ed a t a b a u s ec o n t a i n s 南u r 帅e so f r e s o u r c e :i i l l a g e ,锄i i i l 撕o n ,v i d e 0a n da u d i o u s e rl o 争i i li n t e r f 配e ,u s e ri n p u ti m e f f a c e , s e a r c hr e s u no u p u ti l l t e r f a c ea r ei n c l u d e di 1 1t :1 1 i s s y s t e m a n a l y z i n gt l l et y p e , c h a r a c t 丽s t i ca n ds t o r a g e 诧a t t l r eo ft i l em e d i a ,n l er e t r i e v a ls y s t e ma d o p t sam e t l l o do f c l l i n e s en a n i r a ll a n g l l a g eq u e t om e a s u r e 也ed i 脑e n c eb e 魄e 如t l l eo b j e c tm e d i a 觚dm e d i ai nt l l ed a t a b a s eb ym e a n so f s i m j l 撕t y t h en a t u r a ll a n g u a g ei st l l ee a 色c t i v et 0 0 lt o e x p r e s st l l o u 西l t s ,u s m gw h i c ht o d e s c r i b e 廿l es e m 姐t i c so fm u l t i m e d i ar e s o u r c e s 、加l lb eas 呻l ea n de 丘e c t i v em e t 】d t h i st l l e s i s 幽d u c e sm eg e n e r a lw a y so fw o r ds e g m e m a t i o n0 nm en a n l r a li a n g i l a g e , b u i l d so l l ro w nw o l r ds e g m e n t a t i o na l g o t l l m 如nt h ee x i s t e n ts e 舯e n t a t i o n d i c t i o n a r i e s ,t 0d i v i d e 也eq u e 巧t e x t sa 1 1 dl a b e li t sp a r t so fs p e e c h ( p o s ) t a g 舀n g a f t e r o b t a :i i l i n g 缱l e 廿1 e i n a t i cw o r d ss u c ha sn o u n s ,v e r b s ,a 西e c t i v e sa 1 1 di d i o m sb yo m i t t i n g t 1 1 e 劬c t i o nw o r d sa n dt l l ed e f a u nw o r d s 角o mm eq u e qt e x t s ,w ec 勰g e t l e d e s c r 主p t i o no ft h eo b j e c tm e d i aa n dc a l lt l l e m t h e m ec o n t e n t ”t h et l l e m ec o n t e n t s h o u l x 独创声明 本人声明所呈交的学位论文是本人在导师指导下进行的研究工作及取得的 研究成果。据我所知,除了文中特别加以标注和致谢的地方外,论文中不包含其 他人已经发表或撰写过的研究成果,也不包含为获得( 注:如 没有其他需要特别声明的,本栏可空) 或其他教育机构的学位或证书使用过的材 料。与我一同工作的同志对本研究所做的任何贡献均已在论文中作了明确的说明 并表示谢意。 学位论文作者签名:霾黠畚恕 字穆相 学位论文版权使用授权书 本学位论文作者完全了解堂撞有关保留、使用学位论文的规定,有权保留 并向国家有关部门或机构送交论文的复印件和磁盘,允许论文被查阅和借阅。本 人授权堂撞可以将学位论文的全部或部分内容编入有关数据库进行检索,可以 采用影印、缩印或扫描等复制手段保存、汇编学位论文。( 保密的学位论文在解密 后适用本授权书) 学位论文作者签名:貔秦熬、 聊擗参看栩 导师擗黟豸舭锸 夕 签字日期:2 0 0 胃年月争日签字日期:2 0 0 湃厂月妒日 山东师范大学硕士论文 第一章绪论 1 1 论文研究的背景和意义 随着以计算机为基础的多媒体技术和网络的迅速发展,教育的信息化浪潮已 席卷全球。在大力推进中小学教育信息化,实现基础教育的跨越式发展中,确立 资源建设与应用的核心位置,已经成为我国教育行政部门、教育技术工作者、广 大教师和教育软件资源企业的共识。资源建设问题已成为现阶段教育教学问题的 制高点和重心,也是教育信息化能否实现的重要保障,对我国教育事业的发展有 着极其深远的现实和战略意义。 教育资源建设是利用信息科技手段,对教育教学资源进行整合,最终建成互 动化、多媒体化的享式资源仓库。建设教育资源库的目的是要为教育服务,因而 无论在内容还是功能上都应充分考虑教育的需求,使学生、教师和其他教育工作 者能方便及时的获取所需信息,具有可利用性。在了解用户需求的基础上,必须 进行反需求分析,即结合实际情况,从更加专业的角度对用户提供的需求信息进 行科学的分析和表述。当前,基础教育资源建设存在的:教育资源建设的途径有多 种,但其中最主要的两种途径是:l 、宜接购入市场上已有的商品化的教育资源产 品2 、组织学校老师自己丌发教育资源。随着互联网上数据的不断膨胀,其中 x 山东师范大学硕士论文 着垃圾信息的日益增多,资源的精确定位就变得更加困难。 尽管可以通过搜索引擎指向目标地址,但现有的搜索引擎多数采用基于关键 词的搜索,但除了文本信息可以检索外,对于一些多媒体教育资源,如图片、声 音、图片、动画、视频等,现有搜索引擎则无能为力。如何将这些分散于成千上 万的w e b 站点中有价值的多媒体教育素材的标识信息提取出来,对其处理之后 集中于索引数据库中,并提供高效、便捷的检索服务,对于教育资源建设具有重 要意义,有利于实现教育资源的智能化建设,促进教育信息化的发展。 本课题正是基于以上的背景,以中小学教师为使用对象,以中小学教材相关 内容为基准,对分散在网络中的有关教育资源进行搜集、处理,建立了多媒体资 源索引库。针对现有的基于关键词搜索引擎对其它多媒体教育资源的不足,我们 建立了基于自然语言查询的多媒体资源索引库检索系统。每个用户拥有专用的多 媒体资源索引库,从因特网搜索用户所需的多媒体提取该媒体的文件属性和内容 特征,转换为索引特征,保存到数据库中。用户使用自己的用户名登录多媒体检 索系统,用自然语言对个人专用数据库的内容发出查询请求,然后由系统自动地 将其转换为数据库的操作语言,并把检索的结果提供给用户。目前,多媒体资源 在教学中的应用越来越广泛,多媒体数据库及检索也越来越受到人们的重视。本 项研究的目的就是提供一个界面友好、准确率较高的多媒体数据库检索系统,为 教学过程的顺利进行提供帮助。 1 2 国内外研究现状 1 2 1 国内外面向基础教育的资源库建设的现状 目前,我国基础教育资源无论是从数量、媒体种类、传输方式,还是从开发 的主体和质量来看,都有了长足进步和发展。涉及中小学各年级、各学科、覆盖 主流教材版本的光盘教学资源、卫星教育资源、计算机网络教育资源,已经通过 多种渠道提供给广大的中小学使用并初见成效。主要体现在: ( 1 ) 用于教育教学的资源不断丰富,形成了批符合新课程标准的精品; ( 2 ) 大中城市和经济发达地区的中小学,工f 在逐步走向以数字化、网络化和多 2 山东师范大学硕士论文 媒体化为标志的资源应用阶段; ( 3 ) 初步形成了由学校教师、教育事业单位、出版单位、企业等多种力量构成 的资源建设队伍;, ( 4 ) 国家基础教育资源中心和部分省市区基础教育资源中心相继成立,基础教 育资源的组织、管理机构日益健全。 例如国家基础教育资源网( 期删c b e m 9 0 v c n ) ,它是专为我国广大中小学教 师和学生提供丰富的教育教学资源的网站。广大教师和学生可以根据需要通过全 文检索、高级搜索、分类浏览等方式查找所需要的教育资源,注册、登录后即可 以免费下载。 尽管我国网络教育资源的建设正呈现出蓬勃发展的良好态势,我国教育网站 虽多,但网上教育资源并不多,而且很多网站的教育资源或彼此重复或覆盖面狭 窄,可用教育资源不够丰富。从总体上看,目前适合我国中小学教育教学需要的 优质教育教学资源总量匮乏、质量不高、有效共享和有效应用程度偏低,仍然是 一个不可回避的现实,并且已经成为制约未来中小学教育信息化应用与发展的主 要瓶颈。为推进中小学教育信息化的快速发展,还有很多亟待解决的问题。 ( 1 ) 基础教育资源建设缺乏国家的宏观调控、统筹规划和有效引导。教育行 政部门在资源建设相关政策上的缺失和具体协调、引导措施上的力度不够,是造 成低水平重复开发问题始终不能有效解决的主要原因之一,也是引发资源企业、 事业单位彼此之间恶性竞争的重要因素。生产环节的低水平重复和市场环节的不 良竞争,严重影响了教育教学资源建设的质量,同时也制约了资源制作单位的规 模发展,基础教育资源市场的巨大潜力并未得到充分发挥。 ( 2 ) 缺乏统一的技术标准是制约资源共享的主要因素。各地教育机构和众 多软件资源企业在制作教育教学资源过程中,采用不同的技术标准,各自为战, 自成体系开发教学资源库平台,导致了资源平台重复建设、检索使用不便、资源 难以交换共享,人力、物力、财力大量浪费。有限的教育经费投入不仅没有获得 更多、更好的教育教学资源,而且还使广大中小学不得不艰难地面对各种不同技 术标准的“平台孤岛”、“信息孤岛”。所有这些导致网络本身共享互联的功能与优 势在校级数字化课程资源库的建设中没有得到充分发挥,为师生使用资源带来极 , 3 山东师范大学硕士论文 大的困惑与麻烦。【1 】 ( 3 ) 教育资源库内容混乱、结构单一。开发的教育资源产品,往往缺少统 筹规划,有些教育资源库产品只是简单地堆积了一大批素材、教案、试题等,资 源的分类极不合理,组织性非常差,没有一个有效管理资源的管理系统。教育资 源库素材库的组织基本上严格按照中小学各门学科的教材,分为语文、英语i 数 学、物理、化学、生物等几个部分,而随着知识的快速增加、技术的不断发展, 各门学科的教材内容是不断变化的,这样就不适应课程改革的要求。 ( 4 ) 搜索引擎的智能化程度不高。教育资源库对素材的搜索与查找,各门 学科是分开的,在各学科中再按章节或素材类型等进行查询,这样就造成搜索条 件不合理,无法根据用户需要精确定位资源,不利于各学科课程之间的整合,以 及教师在教学和学习者在学习中对某个知识点的查询。 目前,在一些发达国家和地区,中小学教育信息化的发展普遍从如何更新教 育观念、改变学生学习方式、改革课程教材体系、发展教育教学资源、革新教育 评价体系、加强师资培训等几个方面综合考虑和推进。他们在中小学教育信息化 基础设施建设基本完成的情况下,信息化的重点已不再是简单地增加学校计算机 数量,而是致力于信息化建设的实效,特别是在推进信息技术与课程的实质性融 合,增强学生获取信息能力、综合分析能力、创新能力等方面。基于这种在观念 和实践层面的双重转变,发达国家特别强调发展教育教学资源的核心作用,资源 建设成果显著,特别是网络化教育教学资源建设得到迅速发展。 1 2 2 基于内容的多媒体信息检索的研究现状 多媒体技术、网络技术和信息数字化处理的高新技术的飞速发展,使得因特 网上的多媒体数量激增,网络信息不在只是单纯的文本信息,图形图像、视频、 声音等多媒体信息逐渐在因特网中占有越来越大的比重,或独立出现,或嵌入网 页文档,新的图像和影像每天都在增加和更新。目前的大多数检索系统仍采用基 于关键字的方法进行检索,这种方法用来检索文本文档时,可以根据文本文档中 关键词的出现频率进行筛选,准确率相对较高。但对于多媒体信息而言,该方法 具有两个缺点:不同的人对于相同的内容的解释存在差异:人工标注的大量劳动 4 山东师范大学硕士论文 使得标注速度不可能与数字媒体的产生速度相匹配,因此难以实现互联网上的多 媒体检索。因此,一种基于内容的多媒体数据库查询与检索技术b r ( c b r :c o n t e n tb 嬲e dr e t r i e v a l ) 应运而生了。 基于内容的多媒体检索区别于传统的基于关键字检索,所谓基于内容的检索 是对媒体对象的内容及上下文语义环境进行检索,如图像中的颜色、纹理、形状, 视频中的镜头、场景、镜头的运动,声音中的音调、响度、音色等。基于内容的 检索突破了传统的基于文本检索技术的局限,直接对图像、视频、音频内容进行 分析,抽取特征和语义,利用这些内容特征建立索引并进行检索。【2 】这种检索摈 弃了常规数据库检索中的精确匹配方法,通过采用相似性匹配的方法获得检索结 果,它能对大型多媒体数据库进行快速检索,同时满足人机交互的智能检索。 图像、视频、动画和音频等多媒体信息具有不同的内容特征,检索所用的关 键技术和方法也不尽相同。 1 基于内容的图像检索 基于内容的图像检索,属于图像分析的一个研究领域。它的英文术语叫做 c b 取,c o n t e n t - b 嬲e di m a g er e t r i e v a l 。基于内容的图像检索目的是在给定查询图像 的前提下,依据内容信息或指定查询标准,在图像数据库中搜索并查找出符合查 询条件的相应图片。互联网络上传统的搜索引擎,包括g o o g l e 、1 1 1 0 0 以及m s n 都推出相应的图片搜索功能,但是这种搜索主要是基于图片的文件名建立索引来 实现查询功能( 也许利用了网页上的文字信息) 。这种从查询文字,文件名,最后 得到图片查询的机制并不是基于内容的图像检索。 基于内容的图像检索指的是查询条件本身就是一个图像,或者是对于图像内 容的描述,它建立索引的方式是通过提取底层特征,然后通过计算比较这些特征 和查询条件之间的距离,来决定两个图片的相似程度。基于内容的图像检索所涉 及的技术包括:特征提取、相似度计算、弥补语义鸿沟、查询模式确定等。 ( 1 ) 特征提取 图像特征的提取与表达是基于内容的图像检索技术的基础,可提取的特征可 以包括颜色、纹理、平面空间对应关系、外形,或者其他统计特征。从广义上讲, 图像的特征包括基于文本的特征( 如关键字、注释等) 和视觉特征( 如颜色、纹 理、形状、对象表面等) 两类。视觉特征又可分为通用的视觉特征和领域相关的 山东师范大学硕士论文 视觉特征。前者用于描述所有图像共有的特征,与图像的具体类型或内容无关, 主要包括颜色、纹理和形状;后者则建立在对所描述图像内容的某些先验知识( 或 假设) 的基础上,与具体的应用紧密有关,例如人的面部特征或指纹特征等。 ( 2 ) 相似性的度量 抽取了图像的特征之后,就可以进行图像间的相似性匹配。不同的相似性度 量方法对图像检索系统的性能有显著影响。相似性度量是指用某种代价函数或是 距离函数来确定待匹配的性能有显著影响。从图像中提取的特征可以组成一个向 量,两个图像之间可以通过定义一个距离或者相似性的测量度来计算相似程度。 ( 3 ) 弥补语义鸿沟 在传统的基于文字的查询技术中,不存在这个问题,因为查询关键字基本能 够反映查询意图。但是在基于内容的图像查询中,就存在一个底层特征和上层理 解之间的差异( 这也就是著名的s 锄a n t i cg a p ) 。主要原因是底层特征不能完全反 映或者匹配查询意图。弥补这个鸿沟的技术手段主要有:相关反馈( r e l e v a n c e f e e d b a c k ) 、图像分割( i m a g es e g m e i l t a t i o n ) 、建立复杂的分类模型。 ( 4 ) 查询模式 常用的查询模式有:按例查询( q b e q i l e 巧b ye x 锄p l e ) 、按绘查询( 呻b y s k e t c h ) 、按描述查询。 常见的基于内容的图像检索系统有:基于颜色特征的图像检索、基于纹理特 征的图像检索、基于形状特征的图像检索和基于空间关系特征的图像检索。颜色 特征对图像本身的尺寸、方向、视角的依赖性较小,是迄今为止基于内容相似性 检索系统所用的首选特征。纹理一般指人们所观察到的图像象元( 或子区域) 的 狄度变化规律,习惯上把图像中这种局部不规则而宏观有规律的特性称之为纹理。 由于纹理描述比较困难,一般对纹理的检索都采用示例查询方式,用户给出示例 的全部或部分区域特征,从而找到类似图像。形状是图像的一个显著特征,对形 状特征分析的基础是图像边缘的提取。常用的形状检索方法主要有两种:针对图 像边缘轮廓线进行的检索和针对图形矢量特征进行的检索。 最早成功应用基于内容的图像检索技术的是m m 的q b i c 系统,q b i c ( q u e r y b yi m a g ec o n t e n t ) 系统是由i b m 公司的开发的第一个商业化的基于内容的图像 检索系统,q b i c 系统支持基于示例图像的查询方式和手绘草图的图像索引方法。 6 山东师范大学硕士论文 除了m m 的q b i c 系统之外,比较著名的系统还包括u 形c 大学的m 触峪系统、 m r r 的p h o t o b 0 0 k 、u cb e r k e l e y 的d i 西t a ll i b 捌yp r o j e c t ,以及c o l 硼曲i a 大学的 v i 鼢l s e e k 等。眦s 系统与其它系统的区别在于它的重点不是在于寻找单个的 最佳特征表示,而在于如何将不同的视觉特征组织成有意义的检索体系,以动态 地适应不同的用户及应用场合。 , 2 基于内容的视频检索 基于内容的视频信息检索系统是当前多媒体数据库发展的一个重要研究课 题,它通过对非结构化的视频数据进行结构化分析和处理,采用视频分割技术, 将连续的视频流划分为具有特定语义的视频片段镜头,作为检索的基本单 元,在此基础上进行代表帧的提取和动态特征的提取,形成描述镜头的特征索引; 依据镜头组织和特征索引,采用视频聚类等方法研究镜头之间的关系,把内容相 近的镜头组合起来,逐步缩小检索范围,直至查询到所需的视频数据,按照用户 要求返回给用户。1 3 1 基于内容的视频检索( c b 己) 系统所涉及到的主要关键技术包括:镜头分 割和关键帧提取、镜头聚类技术、面向查询检索的特征提取技术、基于内容的相 似性检索技术。目前的视频检索主要依赖视频内容的相似性,称相似性检索。相 似性检索要求用户提交感兴趣的视频片断,检索过程将样本片断与视频库中的其 他片断作相似性比较,并按相似性大小返回检索结果。具体的检索形式可以分为 三种,相似性视频检索、定位视频中的相似性片段和相似性镜头检索;4 1 。随着以 镜头为中心的视频结构化研究工作的完善,以镜头为基本单位的检索形式成为基 于内容的视频检索的主流。 近年来,基于内容的视频检索技术作为一个研究热点,从理论上作了不少探 索,也出现了m a l m a d e n 研究中心开发的q b i c 系统、美国哥伦比亚大学电子 工程系与电信研究中心图像和高级电视实验室共同研究的在互联网上使用的 v i s u a l s e e k 系统、哥伦比亚大学研究的v i d e o q 系统等一批有着一定实用价值的系 统,但因基于内容的检索技术的复杂性,现有的这些系统还没有达到基于内容检 索的真正要求。其不足之处主要存在于:1 ) 系统中对象特征相关性、通用性不足。 现有大多数基于内容的视频检索系统,要么只针对某一具体领域的应用,要么只 针对媒体的某物理特征或基于物理特征的逻辑关系丌展研究。系统中各媒体特征 7 山东师范大学硕士论文 之间缺乏内在的关联性描述,使得系统的检索效率不高,通用性不好。2 ) 对目标 描述的研究相对较少,而且主要针对对象的底层内容检索。虽然有些系统能综合 利用媒体的若干特征,但往往局限于媒体特征的外部组合,还没有深入研究各类 媒体特征的内在相关性,更没有考虑多媒体对象的高层语义特征。 3 基于内容的动画检索 随着多媒体信息的不断增长,基于内容的多媒体信息检索技术成为信息检索 领域的一个热点,作为多媒体信息类型之一的动画,也越来越多的受到人们的关 注。此处所说的动画不是“动画影片”,指存在于网页上的动画。通过对网页动画 的下载分析,发现其中数量最多的是f l a s h 动画,因此本文中将动画限定为f l 础 动画。f l 蕊动画是基于矢量图形的动画,它可以随意缩放而不影响文件的大小和 图像质量。f l 础采用特殊的动画文件格式,用它制作的动画文件很小。它保存文 件时仅仅记录关键帧和控制动作语句,使文件大小减少到极限。因此f 1 础生成的 编辑文件( 掌n a ) ,尤其是播放文件( 牛s w f ) 十分小巧。 要完成基于内容的动画检索必须首先对动画进行内容分析,得到动画的内容 特征,然后将其转换为索引信息存放在数据库中,以备检索。所有的动画,包括 f l a s h 动画都是一个原理人眼的视觉暂留原理,即快速连续播放静止的图片, 给人眼产生的错觉就是画面会连续动起来,因此动画也是一种连续的、非结构化 的数据,所以提取的特征和方法与视频有一定的相似之处,必须首先为动画建立 不同层次的结构索引。 目前,浙江大学数字媒体计算与设计实验室提出和开发了一组能够有效管理 f l a s h 的工具集,它按照对象、事件和交互三种概念来分层描述f 1 a s h 内容,并且 能够基于f l 硒h 动画的内容特征来实现动画的表达、索引和检索。 4 基于内容的音频检索 音频是声音信号的形式。作为一种信息载体,音频可以分为语音、波形声音和 音乐三种类型。对于不同的音频类型,它的检索的方法也不同。音频信息检索可以 分为基于语音技术的检索、音频检索和音乐检索。语音检索是以语音为中心的检 索,采用语音识别等处理技术;音频检索是以波形声音为对象,用声学特征来检索;音 乐检索是以音乐为中心的检索,利用音乐的音符和旋律等音乐特性来检索。p j 基于内容的音频检索研究是以数字音频文件自动分析技术为基础的,包括音 山东师范大学硕士论文 第一章指出了本文的研究背景和意义,简要介绍了当前的基础教育资源库的 现状和基于内容的多媒体检索的研究现状。 第二章介绍了基础教育多媒体主题词的组织的成果、主题词提取的原则和方 法、多媒体相关文本的提取、相关词典和查询文本中关键信息提取方法。 第三章介绍了四种多媒体的内容特征表示方法,详细地说明用户所需的目标 媒体和数据库中媒体记录的相似度计算方法。 第四章在前几章方法的基础上介绍了面向基础教育的多媒体资源索引库检索 系统的结构、关键技术和具体实现方法,最后给出了利用该系统进行实验的实验 结果,指出了存在的问题,并在结束语中说明了需要进一步研究探索的方向。 1 0 山东师范大学硕士论文 第二章基础教育多媒体主题词的组织与查询文本处理 多媒体的英文单词是m u l t i m e d i a ,它由m e d i a 和m u l t i 两部分组成。一般理解 为多种媒体的综合。多媒体可以理解为直接作用于人感官的文字、图形图像、动 画、声音和视频等各种媒体的统称,即多种信息载体的表现形式和传递方式。 主题词也称叙词,是一些以概念为基础的,规范化的,具有组配性能,并可 显示词问语义关系的词和词组。主题词分正式主题词和非正式主题词。正式主题 词用来标引和检索文献,非正式主题词是查找正式主题词的引导词。检索中用到 的主题词是以直接论述的事物、对象为依据,以自然语言为基本词汇,以概念之 间的逻辑关系作为构词法的一类检索词汇。 本章介绍了基础教育多媒体主题词的组织的成果、主题词提取的原则和方法、 多媒体相关文本的提取、相关词典和查询文本中关键信息提取方法。 2 1 中小学教材中多媒体主题词的组织 随着互联网上数据的不断膨胀,其中不乏大量有价值的教育信息。目前网上 的教育资源种类繁多,表现形式非常丰富,为学习者提供了广泛的选择余地和广 阔发展空间,然而网络上的这类教育资源处于一种零散的分布状态,且形式、内容 各异,用户极容易在其所检索到的海量信息面前迷失方向,无从下手。如何将这 些分散于成千上万的w e b 站点中有价值的多媒体教育素材的标识信息提取出来, 对其处理之后集中于索引数据库中,并提供高效、便捷的检索服务,对于教育资 源建设具有重要意义,有利于实现教育资源的智能化建设,促进教育信息化的发 展。 2 1 1 多媒体主题词收集的目的 为了将这些分散于成千上万的w e b 站点中有价值的多媒体教育素材的标识 信,窟、提取出来,对其处理之后集中于索引数据库中,首先我们应为预搜索系统提 供搜索指向,即组织基础教育教学预搜索关键词。这是建立面向基础教育的多媒 山东师范大学硕士论文 体资源索引库的前期工作。 基础教育多媒体主题词收集的目的是为预搜索系统即搜索器提供搜索指向, 使其搜索到的网页包括基础教育多媒体资源,如伟人图像、名胜古迹、诗歌朗诵 的音频等。依据一定的原则收集整理后的主题词,以饮t 文件保存成主题词词典。 主题词典是提供给搜索器以在w 曲上获取与主题词相关的多媒体资源。 2 1 2 多媒体主题词体系 为适应教育用户的需求,我们在基础教育各科教材中查阅搜索了中小学各年 级、各学科中所出现的与多媒体可能相关的主题词。通过人工收集和整理,从学 段、学科和类型三个维度建立了基础教育多媒体主题词库体系。学段分为小学、 初中和高中。其中小学的学科有5 门,包括语文、数学、社会、科学、思想品德 与生活;初中的学科有1 2 门,包括语文、数学、英语、物理、化学、生物、地 理、历史、政治、美术、音乐、体育;高中的学科有1 4 门,包括语文、数学、英 语、物理、化学、生物、地理、历史、政治、信息技术、通用技术、美术、音乐、 体育。主题词类型分为图像、动画、视频和音频。 主题词库体系有1 2 4 个主题词文件组成,主题词文件以学段+ 学科+ 类型的名 称保存为t x t 格式的文件。如小学语文图像、初中生物音频等。 其部分组织结构如图2 1 所示: 1 2 图2 1 小学语文主题词库组织结构 山东师范大学硕士论文 在中文中,词可以分为实词和虚词。实词包括名词、动词、形容词、数词、 量词、代词;虚词包括副词、介词、连词、助词、语气词、叹词。实词意义较实 在,能独立充当句子成分,而虚词不能独立充当句子成分。名词表示人或事物名 称,如鲁迅、苏州等;动词表示动作行为、发展变化、心理活动、判断等,如走、 跑步、学习等。在收集基础教育多媒体主题词时,主要是看这个词是否易于用图 像、动画、视频或音频资源来表达,因此,收集的主题词多为名词和动词。 鉴于学科之间的差异,对于不同的学科,我们在收集整理主题词时,有不同 的选取原则。语文学科不同于自然科学,不同于哲学,也不等同于一般的社会学 科或历史学科,它是很有其特殊性的。因此,语文主题词中除了包括常用的名词 和动词外,还包括课文的题目,常用成语等。数学、化学、物理、生物等作为自 然科学中一门学科,有其专业的术语名词。数学学科主题词典包括形状的名称, 如圆形、正方形、长方形、三角形等,数学工具名称,如几何画板、直尺、圆规 等。生物学科主题词典主要包括动物名称、植物名称等生物名词。 对于一个主题词而言,它可能适合用多种类型的资源来表现,也可能只用一 种类型的资源来表现。如“火车”一词,易于用图像、视频、动画来表现,而“火车 声”一词用音频表达更合适一些。对于大多数词汇而言,都适合用图像资源来表现, 如人物类词汇、动物类词汇、植物类词汇、自然风光类词汇、物品类词汇、建筑 类词汇等。随着网络中视频资源的日益丰富,能用视频来表现的词汇也越来越多, 如人物类词汇、动物类词汇、自然风光类词汇等。网络中的动画资源也很丰富, 尤其是动物类的动画居多,除此之外,有许多的网络动画是成语课件类的,因此, 我们把动物类的词汇和成语类的词汇归为动画主题词。对于音响、音效和音乐名 称之类的词汇,则归为音频主题词。 除了人工收集之外,我们建立了网络基础教育多媒体主题词提交系统,希望能 借此搜集到更多的基础教育领域人们感兴趣的多媒体主题词,用以进行多媒体基 础教学资源的预搜索。网络基础教育多媒体主题词提交系统,进一步补充了主题 词库体系中的词汇。 2 2 自然语言查询文本分词 自然语言查询是指用户用自然语言在检索系统中对查询目标进行描述,系统 山东师范大学硕士论文 从查询文本中自动提取查询条件、查询目标的关键特征等,按一定的规则和算法 在数据库中查找满足条件的记录作为查询结果反馈给用户。 用户在查询界面上使用中文自然语言对查询目标进行的描述,是以文本形式 呈现在查询界面上的,我们将这种描述性的文本称为查询文本。系统要从查询文 本中自动提取查询条件、查询目标的关键特征,然后在数据库中查找满足条件的 记录。然而,计算机是无法直接理解自然语言的,我们需要对查询文本进行处理, 自然语言分词是对查询文本进行处理的第一步。 2 2 1 中文自然语言分词的一般方法 中文自然语言理解的基础是对中文文本进行分词,分词的正确与否会影响理 解的效果。人们在中文的自动分词技术的研究上已经做了很多工作,设计了许多 实用、高效的算法,这些算法可以归结为三大类: 1 基于词典的分词方法 这种方法又称为机械分词法。利用预先编制的词典,将待分析文本中各种长 度的字符串按照一定方法与词典中的词条进行匹配,能够匹配上的词串,就有可 能成为一个切分单位。 根据扫描的方向,基于词典的方法可分为正向匹配和逆向匹配;按照不同长 度优先,可分为最长匹配和最短匹配。机械分词方法无法解决歧义切分问题和未 登录词识别问题。但是这种方法仅需一个词表,不需要任何词法、句法、语义知 识,程序实现简单,开发周期短,简单实用。 2 基于统计的分词方法 汉语中词的定义比较模糊,有些学者对大规模真实文本进行统计,让计算机 自动判断词的概念,再进行分词,这就是基于统计的分词方法。 这种方法的优点是可以自动排除歧义,能够识别新词、怪词。但是解决歧义 的方法很大程度上取决于统计语言模型的精度和决策算法,需要大量的标注语料, 如果切分文本和训练语料库中的文本类型不一样,切分的效率也不理想。并且分 词速度也因搜索空间的增大而有所减慢。一般的应用中,常将其与基于词典的分 词方法结合起来,既发挥匹配分词速度快、效率高的特点,又利用了无词典分词 结合上下文识别生词、自动消除歧义的优点。 1 4 山东师范大学硕士论文 3 基于理解的分词方法 这种方法的基本思想就是在分词的同时进行句法、语义分析,利用句法信息 和语义信息来处理歧义现象。它通常包括三个部分:分词子系统、句法语义子系 统、总控部分。在总控部分的协调下,分词子系统可以获得有关词、句子等的句 法和语义信息来对分词歧义进行判断,即它模拟了人对句子的理解过程【8 】。这种 分词方法需要使用大量的语言知识和信息,由于汉语语言知识的笼统、复杂性, 难以将各种语言信息组织成机器可直接读取的形式,因此目前基于理解的分词系 统还处在试验阶段。 2 2 2 词汇切分算法和分词词典 要正确理解用户输入的查询文本,首先要进行词汇切分和词性标注。词汇切 分的主要任务包括自动分词,即把连续的汉字串分割成词的序列;词性标注,根 据上下文逻辑关系,确定已经切分的词序列的相应词性。 为了能够达到快速准确的自动分词和词性标注,在各环节中需要考虑切分歧 义的消除、未登录词的识别以及兼类词性的消除的等问题。由于本文设计的检索 系统面向的使用对象是中小学师生,主要目的为了辅助教学,在使用时需要与搜 索系统配合使用,因此在分词和查询语句上有自己的特点:常用的词汇范围比较 狭窄;词性分歧的情况较少;在查询语句中可能提到的人名与地名比较固定,因 此可以在词典中预先建立相关词条,所以未登录词的数量较少,基本可以忽略。 出于对上面原因的考虑,以及系统要求的快速和实用性,我们建立了自己的 词汇词典,词典以l a s t c i d i a l l t ) 【t 文件名保存在系统目录下的d i c 文件夹内。 词汇词典中除了包含一般分词系统所用词典中的标准词汇,还添加了中小学 教材中包含的人名、地名等常见的易引起切分错误的词汇;同时对词典中的词进 行了重新排序,以便提升分词的速度。词汇顺序的排列方法如下:首先将词典中 首字相同的词排列在一起;然后将首字相同的词序列中的词按照由长至短的顺序 进行排列,即长词在前,短词在后,以此类推;直至将所有的词排列完毕。每个 词的后面注有该词的词性。 如:天堂n ,省亲v ,内疚a ,起初d ,海外s ,立夏t ,中间f ,俺们r ,鉴于 p ,不然c ,通红z ,鉴g ,似的u ,的y ,五十m ,立方米q ,中西j ,海底捞针i ,子 山东师范大学硕士论文 丑寅卯l ,超h ,子k ,等。 注:n 代表名词,v 代表动词,a 代表形容词,d 代表副词,s 代表处所词,t 代 表时间词,f 代表方位词,r 代表代词,p 代表介词,c 代表连词,z 代表状态词, g 代表语素,u 代表助词,y 语气词,m 代表数词,q 代表量词,j 代表简称略语, i 代表成语,l 代表习用语,h 代表前接成分,k 代表后接成分。 目前词典中共有词汇9 3 5 8 7 条,词典中除了包含常用词汇、常用成语外,还 包括了中小学课本中用到的部分地名和人名及习惯用语,如“颐和园”、“毛泽东”、 “罩约热内卢”、“黄毛丫头”等。 在切分算法上,本文选用了便于实现和执行效率较高的最大正向匹配法,这 是一种基于词典的分词方法,分词的同时进行词性标注。所用到的分词词典是 l a s t c i d i a l l t ) 【t 。我们编写了分词函数允r e s u l t ( m y s 仃) 和衙e s u l tl ( m y s 呻,m y s 仃代表用 户在检索界面输入的查询文本。f c r e s u l t ( m y s t r ) 和岔r e s u l t l ( m y s t r ) 的区别在于, 危r e s u l t ( m y s 仃) 函数只是对文本进行分词,没有进行词性标注;f c r e s u l t l ( m y s t r ) 函数 则实现了分词的同时进行词性标注的功能。 如输入的查询文本为:搜索有蓝天和白天的图片 函数f c r c s u l t ( m y s 的分词后的结果为:搜索有蓝天和白云的图片 函数f c r e s u l t l ( m y s 仃) 分词后的结果为:搜索( v ) 有( v ) 蓝天( n ) 和( g ) 白天( n ) 的 ( u ) 图片( n ) 。 2 3 多媒体检索系统查询文本处理 由于用户在查询界面上输入的查询文本是自然语言,系统要从查询文本中自 动提取查询条件、查询目标的关键特征,必需对查询文本进行一系列的处理,其 过程为: 查询文本 分词一 去无效词一 提取关键词一 扩展同义词 用扩展同义词之后的主题词与数据库中的内容描述字段相匹配,查找出满足 条件的记录。由于在2 2 节中讲述了分词算法和分词函数,因此,2 3 节将着重介 绍如何去无效词、提取关键词和扩展同义词。 在这里我们设定输入的查询文本为:搜索有蓝天和白云的图片 1 6 山东师范大学硕士论文 2 3 1 分词 对于查询文本进行分词时,我们所采用的切分算法是最大正向匹配法。在分 词过程中用到的相关文件有:分词词典l a s t c i d i a l l t x t 和分词函数f c r e s u n ( m y s 仃) 查询文本:搜索有蓝天和白云的图片,即m y 炉搜索有蓝天和白云的图片 经危r e s u l t ( m y s 仃) 分词后:搜索有蓝天和白云的图片 说明:在分词之后的去无效词过程中,并不需要词性的标注,因此,在第一 步分词过程中,采用f c r e s u l t ( m y s t r ) 函数分词,分词但不标注词性。减少程序的重复 性。 2 3 2 无效词去除 对于已经分词过的查询文本,剔除缺省词汇,并对剩余文本进行词性标注。, 因为本文的目的是做检索,对于查询文本中对检索没有帮助的名词和动词,如“我 们”、“搜索”、“查找”、“图片”等,可以看作是缺省的,所以在提取关键特征时要 将这些词剔除。 去无效词过程中用到的相关文件有:非关键主题词文“u 衄u c e v t x t ”和去词函 数d e a l u n ( s t r ) 。 非关键主题词文件“u n n u c e v t x t ”,是自建的一个无效词文件,该文件中包括 了请”、“让”、“找”、“寻找”、“搜索”、“查找”、“图片”、“图像”等对检索本 身没有帮助的词语。目前,咖u c e v t ) 【t 包括3 0 个非关键主题词。 去词函数d e a l u i l ( s 仃) ,以d e a l u n e a s p 文件保存在系统目录下,s t r 代表分词之 后的字符串。去词函数在去除缺省词汇后,利用函数f c r e
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 2026钢铁冶炼技术行业国内外市场分析对比及研发投入影响评估未来发展研究汇报
- 2026年福建省福州结核病防治院医护人员招聘笔试参考题库及答案详解
- 胸闷气短健康科普
- 企业个人信息保护管理体系建设专业培训考核大纲
- 公共交通安全检查实施方案及总结
- 2026-2030中国美发学校市场经营管理风险与发展现状调研研究报告
- 幼儿园春季活动主题及方案
- 校庆活动策划方案与执行计划
- 企业文化墙设计与实施方案
- 广东省深圳高级中学等校2025-2026学年高一下学期期中考试生物试题(含解析)
- 2025年广西继续教育公需科目考试试题和答案2025年公需科目考试试题及答案
- 2026版考评员国家职业技能鉴定考试题库(附答案)
- 2026年云南昆明市中考生物试题及答案
- 2026年企业税务合规协议合同
- 生猪屠宰场安全生产培训课件
- 牛肝菌种植技术培训课件
- 质量部档案管理制度
- 2025中工国际工程股份有限公司社会招聘笔试备考题库附答案解析(夺冠)
- 体育行业体育赛事运营总监岗位招聘考试试卷及答案
- 辐射安全隐患排查
- 2025年六安辅警招聘考试真题完整参考答案详解
评论
0/150
提交评论