




已阅读5页,还剩42页未读, 继续免费阅读
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
w w w 图像语义信息提取方法研究 摘要 针对f f 益增长的网络图像,本文研究了基于h t m l 文档的w w w 图像语义信息 提取方法,在语义层次上实现了对图像的自动标注和分析。本项研究对基于内容 和语义的w w w 图像检索具有重要意义。 h t m l 文档作为w w w 图像的外部信息源和载体,蕴涵了丰富的描述图像内容 的文本信息。h t m l 文档中的图像名、图像注释、图像周围文本、图像u r l 、图像 所在网页u r l 及标题、图像超链接网页u r l 及标题等在一定程度上反映了图像的 关键内容和语义。为了从这些与图像相关的文本中提取图像的语义信息,本文根 据图像的视觉属性和语义属性提出了一种图像语义表征模型,并建立了相应的语 义词典,包括图像主题词分类词典、图像主体词分类词典、图像主体属性词典和 用来翻译汉语拼音、英文单词或缩写词的图像主题词对照词典。 根据图像的相关文本和语义词典提取图像语义信息的基本过程分为三步:( 1 ) 利用图像主题词翻译词典,将图像相关文本中出现的汉语拼音、英文单词或缩写 词翻译成中文主题词;( 2 ) 将图像相关文本自动分词和词性标注;( 3 ) 利用图像语义 词典,采用基于规则与基于统计相结合的方法,从图像相关文本的分词标注字符 串中提取反映图像语义信息的主题词、主体词及其属性词。 基于上述思想,本文研发了一个w w w 图像语义提取系统。该系统由图像元搜 索和预处理、图像语义信息提取及主题词在线学n - - 个模块构成。图像元搜索和 预处理模块负责从g o o g l e 与b a i d u 上搜索图像与相关网页,并提取图像相关文 本。图像语义信息提取模块负责从图像相关文本中提取图像主题词、主体词及其 属性词。主题词在线学习模块负责主题词分类词典的在线学习与自动添加。 本文最后给出了提取w w 图像语义信息的实验结果。实验表明,提取图像主 题词、主体词及其属性词的平均覆盖率为5 2 ,平均准确率为4 4 。实验说明, 这种图像语义信息提取方法,在基于内容和语义的1 v l v w 图像检索中具有较高的应 用价值。 【关键词】w w w 图像检索图像标注图像语义 图像分类元搜索汉语分词 词性标注信息提取 【分类号】g 4 3 4 r e s e a r c h 。nm e t h 。d s 。f e x t r a c t in g im a g es e m a n t ic s inw w w a b s t r a c t a st oi m a g e sb e i n gh e a v i l yi n c r e a s e d i nw w w ,a 喊h 。do fe x t r a c t i n g1 m 8 9 e s e m a n t i c sb a s e d o nh t m ld o c u m e n t s w a sg i v e ni n t h i sp a p e rw h l c hc o u i d a u t 。m a t i c a l l yi n d e xa n da n a l y z ei m a g e s 。ns e m a n t i c l e ”。1 t h i sm 。t h 。d1 8 v e r ys i g n i f i c a n tt oc o n t e n t b a s e da n d s e m a n t i c b a s e di m a g er e t r l e v a l 1 n w w w a se x t e r n a l i n f 。r m a t i 。n s o u r c e sa n dc a r r i e r s 。f i m a g e s i nw w v | , h t m l d o c u m e n t sc 。n t a i n e dp l e n t i f u lt e x ti n f o r m a t i o n s w h i c hr e l a t e dc l o s e l yt o i m a g e c o n t e n t a n di m a g e s e m a n t i c s s u c h a si m a g en 锄e ,1 m a g e a n n 。t a t i 。n ,i m a g e s u r r 。u n d i n gt e x t s ,i m a g eu r l ,w e bp a g e t i t l ea n du r l 。f i m a g e ,h y p e r i i n kw e bp a g et i t l ea n du r l o fi m a g ee t 。- _ i no 。d 8 rt o 。t 。a 。t i m a 卫es e m a n t i c si nw w wf r o mt h et e x ti n f o r m a t i o n ss a i da b o v e , a s e m a n t l c r e d r e s e n t a t i o n m o d e lo fi m a g e w a sb u i i tb y i t ss e m a n t i c a n dv 1 s u a l a t t r i b u t e s a tt h e s a m et i m e ,f o u ri m a g es e m a n t i c d i c t i o n a r l e sa l s ow e r e b u i l tb a s e do nt h es e m a n t l er e p r e s e n t a t i o n m o d e lo fi m a g e t h e s es e m a n t l c d i c t i o n a r i e s i n c l u d ei m a g o c l a s s i f i c a t i o n d i c t i o n a r y o f t o p i c w o r d s ,i m a g e c l a s s i f i c a t i o n d i c t i o n a r y o fm a i n b o d yw o r d s , i m a g e c l a s s i f i c a t i o r l d i c t i o n a r y o fm a i n b o d y a t t r i b u t e w o r d s , a n di m a g o a n t i t h e s e sd i c t i o n a r y o ft o p i cw o r d sw h i c hw a s u s e dt ot r a n s l a t e t h e c h i n e s ep i ny i n ,e n g l i s hw o r d sa n da b b r e v i a t i v ew o r d s i n t oc h i n e s et o p t c w o r d s b a s e d 。nt h es e 丁n a n t i cd i c t i o n a r y i e sa n dt e x t sr e l a t e dt o i m a g ei nw w w , t h ed r o c e s so fe x t r a c t i n gi m a g e s e m a n t i c si sm a d eu po ft h r e e s t e p s t h e f i r s t ,u s ei m a g ea n t i t h e s e s d i c t i o n a r yo ft o p i c w o r d st ot r a n s l a t et h e c h i n e s ep i ny i n ,e n g l i s hw o r d da n da b b r e v i a t i v ew o r d di n t oc h i “8 s 8 t o p l 。 w o r d s t h es e c o n d ,s e g m e n t h et e x t sr e l a t e d t oi m a g ei nw w wi n t ow o r d sa n d a n n o t a t e t h e i r p a r t o f s p e e c h t h e l a s t ,u s er e g u l a t l o n b a s e d a n d i i s t a t i s t i c b a s e da p p r o a c ht oe x t r a c tt o p i cw o r d so fi m a g e ,m a i n b o d yw o r d s o f i m a g e a n d m a i n b o d y a t t r i b u t e w o r d sf o r mt h e s e g m e n t a t i o n a n d a n n o t a t i o nr e s u l to ft h et e x t sr e l a t e dt oi m a g ei n w w w f r o mt h ei d e a ss a i da b o v e ,as e m a n t i ce x t r a c t i n gs y s t e mo fi m a g ei nw w w w a sd e v e l o p e di nt h i sp a p e r t h i ss y s t e mi n c l u d e st h r e ep a r t s t h e ya r e m e t a s e a r c ha n dp r e t r e a t m e n tm o d u l e ,s e m a n t i c s e x t r a c t i n g m o d u l ea n d t o p i cw o r d so n l i n el e a r n i n gm o d u l e m e t a s e a r c ha n dp r e t r e a t m e n tm o d u l e i sr e s p o n s i b l ef o rs e a r c h i n gi m a g e sf r o mg o o g l eo rb a i d us e a r c he n g i n e a n d e x t r a c t i n g r e l a t e dt e x t sf r o mw e b p a g e s r e l a t e dt o i m a g e i n w w w s e m a n t i c se x t r a c t i n gm o d u l ei s r e s p o n s i b l ef o re x t r a c t i n gt o p i c w o r d s ,m a i n b o d yw o r d sa n dm a i n b o d y a t t r i b u t ew o r d sf r o mr e l a t e dt e x t so f i m a g ei nw 州t o p i cw o r d so n l i n el e a r n i n gm o d u l ei sr e s p o n s i b l ef o rf i n d i n g n e wt o p i cw o r d sf r o mr e l a t e dt e x t so f i m a g ei nw w wa n da d d i n gt h e m a u t o m a t i c a l l yt ot h ei m a g ec l a s s i f i c a t i o nd i c t i o n a r yo ft o p i cw o r d s a tl a s t ,a ne x p e r i m e n t a lr e s u l to fe x t r a c t i n gi m a g es e m a n t i c si n w w a s g i v e ni nt h i sp a p e r t h ea v e r a g eo v e r l a yr a t ew a s5 2 a n dt h ea v e r a g en i c e t y r a t ew a s4 4 t h ee x p e r i m e n t a lr e s u l ts h o w e dt h a tt h e e x t r a c t i n gm e t h o d o fi m a g es e m a n t i e si nw 椰h a sh i g h l ya p p l l e dv a l u et oc o n t e n t b a s e da n d s e m a n t i c b a s e dr e t r i e v a lo fi m a g ei n 姗v k e y w o r d s i m a g er e t r i e v a li nw w w i m a g ea u t o m a i t c a l l yi n d e xi m a g e s e m a n t i c s i m a g ec l a s s i f i c a t i o n m e t as e a r c hc h i n e s e w o r d sa u t o m a i t cs e g m e n t a t i o n p a r t o f s p e e c ha n n o t a t i o n i n f o r m a t i o ne x t r a c t i n g c a t e g o r yc o d e g 4 3 4 i i i 独创声明 本人声明所呈交的学位论文是本人在导师指导下进行的研究工 作及取得的研究成果。据我所知,除了文中特别加以标注和致谢的地 方外,论文中不包含其他人已经发表或撰写过的研究成果,也不包含 为获得或其他教育机构的学位或证书使用过的材 料。与我一同工作的同志对本研究所做的任何贡献均已在论文中作了 明确的说明并表示谢意。 学位论文作者签名:觥 导师签字: 签字日期:20 0 4 年4 月衫日 签字日期2 0 0 4 年中坼 净同 以v 匆 1 刀 乞眵 w w w 创像语义信息攫取方洼础f 究 第一章引言 1 1 选题意义 随着多媒体技术和因特网的迅速发展,网上图像资源日益丰富,查找和利用 网络上的相关图像资源已经成为一种需求。因此,在网络环境下实现对图像快速 而有效地检索变得十分必要和迫切“1 。 网络图像的最大特点是嵌入在具有文本内容的h t m l 文档中,并与网页有着 紧密的联系。因此,可以根据图像名、图像注释、图像周围文本、图像u r l 、图 像所在网页u r l 及标题、图像超链接网页u r l 及标题等相关文本。,提取图像的 主题词、主体词及其属性词等语义信息,从而在定程度上为图像内容分析、自 动标注提供依据,提高基于内容和语义的w w w 图像检索的准确率。 本课题的提出正是基于上述出发点,并具有如下研究意义: 1 提供了提取网页中图像语义信息的新方法,使网络资源中关于图像内容的 描述更准确、更全面,从而更有针对性为教育、科技、商业等领域服务。 2 作为用户检索的依据,图像语义信息能够提高图像检索的准确性。把图像 语义信息加入网络资源库里有关图像内容描述的字段中,将会大大提高用户以关 键词或自然语言的方式从资源库中检索图像的查准率,从而提高图像的搜索效 率。 3 利用自然语言处理技术,结合h t m l 标记语言的特点,提取h t m l 网页中图 像的主题j 主体等语义信息,实现了对图像的自动标注和检索,促进了网络资源 建设的智能化发展。 1 2 研究现状 目前,由于网页中大量地嵌入了各种图像,w w w 图像检索技术也因此而成为 备受关注的研究课题。为了检索图像,必须要描述图像的内容”1 ,即对图像进行 标注,只有这样才能在目标图像集合中找到具有指定特征或包含指定内容的图像 2 j 早期的基于文本的图像检索技术主要从图像名称、图像尺寸、压缩类型、作 者、年代等方面对图像进行手工标注:这种手工标注图像的方法在描述高层的、 w w w 图像语义信息提取方法研究 抽象的语义概念时,简单、清楚、易于理解“,不过也存在着以下两点不足:( 1 ) 手工标注的工作量太大:( 2 ) 由于人的认知主观性,造成了注释结果的模糊性 【q 【i 【5 1 2 0 世纪9 0 年代初,出现了大规模图像数据库,传统手工标注图像的局限性 就显得越来越突出。为了克服手工标注图像的局限性,人们开始寻求自动标注图 像的方法,于是出现了基于内容的图像检索技术。基于内容的图像检索技术根据 图像的颜色、形状、纹理等低层的视觉特征自动标注图像”,具有较高的速度, 但也有两个缺陷:( 1 ) 检索的效果依赖于对查询要求( 颜色、形状、纹理) 的精确 描述;( 2 ) 颜色、形状、纹理这些低级的视觉特征与人类对图像的描述存在较大 的差异。3 ,无法直接反映出图像的主题、主体及其属性等高层语义信息”1 ,即存 在“语义鸿沟“”问题。不过由于无法忽视其优点,人们仍希望可以将这种方法 与网络结合,借以提高w w w 图像的检索效率”1 。如果可以在语义层次上实现对图 像的自动标注,就可以扬长避短,减小图像简单视觉特征和用户检索丰富语义之 间的“鸿沟”“1 。所以在这种情况下,需要解决的关键问题是提取图像的语义信 息。 图像语义的提取主要如下有三种方法: ( 1 ) 基于知识的语义提取:首先提取原始图像的视觉特征,并进行图像分割, 然后利用对象模板、图像场景分类器等知识。1 ,识别出用于描述图像的主题词、 主体词及其属性词等语义信息。 ( 2 ) 人工交互语义提取:先结合基于知识的方法,自动学习关于原始图像的主 题词、主体词及其属性词的描述,再由人工进行修正“1 。 ( 3 ) 基于外部信息源的语义提取:根据图像来源处的其它信息提取与图像相关 的相对高层的描述信息“1 。 利用第三种方法提取图像语义信息来自动标注图像,是目前w w w 图像检索采 用最多的策略。如g o o g l e 、b a i d u 、y a h o o 、a l t a v i s t a 等著名搜索引擎图像检索 部分的首要依据就是图像名、图像注释、图像周围文本、图像所在网页标题、图 像超链接地址等与图像相关的外部信息。另外,h e n gt a os h e n 等人哺2 ”依 据图像名、图像注释、图像周围文本、图像所在网页标题等4 项和图 像相关的外部信息建立了w e i g h tc h a i n n e t 模型和s e m a n t i cm e a s u r e w w w 图像语义信息摊瞅方法研究 模型,在提取图像语义信息方面取得了较好的实验效果,大大提高了 w w w 图像检索的准确率。 本文结合当前w w w 图像语义提取的研究现状,采用基于外部信息 源的语义提取方法,首先从与图像相关的h t m l 文档中提取图像名、 图像注释、图像周围文本、图像所在网页标题、图像地址、图像所在 网页地址、图像超链接地址、图像超链接网页标题等八项与图像密切 相关的文本信息;然后利用自然语言处理技术从这些相关文本中提取 图像的主题词、主体词及其属性词等语义关键信息;实现了在语义层 次上对w w w 图像的自动标注。 1 3 论文内容 本论文的研究内容主要包括如下四部分: 1 w w w 图像与相关网页下载 本部分内容对应论文的第二章,详细介绍了利用v c + + m f cw i l q ir l e t 类编写h t t p 客户端程序的方法,并根据链接g o o g le 与b a id u 的图像 搜索引擎的查询接口,实现了w w w 图像与相关网页的元搜索和预处理。 2 w w w 图像相关文本提取 本部分内容对应论文的第三章,详细介绍了w w w 网页中和图像相关的 各种h t m l 标记,并给出了根据这些标记从网页的h t m l 代码中提取图 像相关文本的算法。 3 w w w 图像语义信息提取 本部分内容对应论文的第四章,主要由如下三部分构成: ( 1 ) 根据图像的视觉属性和语义属性,给出了一种图像语义表征模 型。以此为基础,建立了图像主题词分类词典、图像主体词分类词典、图像 主体属性词典和图像主题词对照词典,并实现了主题词的在线学习和自动添加功 能。 ( 2 ) 利用图像主题词对照词典将图像相关文本中的汉语拼音、英文单词或缩写 词翻译成中文并进行汉语的自动分词和词性标注。 ( 3 ) 利用图像主题词分类词典、图像主体词分类词典、图像主体属性词典,采 用基于统计和规则的方法,从图像相关文本的分词和标注字符串中提耿图像的主 w w w 幽像语义信息提取方法l j f 究 题 司、主体词及其属性词。 4 w w w 图像语义提取系统 本部分内容对应论文的第五章,主要介绍了构成系统的三个模块,即图像 的元搜索与预处理、图像语义信息提取和主题词在线学习。 4 w w w 幽像语义信息提取方法研究 第二章w w w 图像与相关网页下载 目前,网络资源的采集方式主要有两种:一是利用网络蜘蛛在网络中爬行获 取的方式”。一是元搜索方式,即利用己存在的搜索引擎搜索所需资源”“。本文 采用的采集方式是基于g o o g l e 与b a i d u 的元搜索方式。 2 1 链接g o o g i e 与b a i d u 的查询接口 链接g o o g l e 与b a i d u 的查询接口,是基于g o o g l e 与b a i d u 的元搜索的前提。 具体通过如下两点来完成: 1 找出输入的查询关键词与搜索结果首页地址之间的对应关系。经过大量观 察发现,用g o o g l e 进行图像搜索,所得到的搜索结果首页地址与输入的查询关 键词之间的对应关系为:h t t p :i m a g e s g o o g l e c o m i m a g e s ? q = 关键词变量 & i e = g b 2 3 1 2 & h 1 = z h c n ;用b a i d u 进行图像搜索,所得到的搜索结果首页地址与 输入的查询关键词之间的对应关系为:h t t p :i m a g e b a i d u c o m i ? z = s = 1 c t = 2 0 1 3 2 6 5 9 2 & c l = 2 & l m = 一l & t n = b a i d u i m a g e w o r d = 关键词变量。本文将上述两种对应 关系,称为“地址通式”,在元搜索时将地址通式中的关键词变量替换成具体的 查询关键词,就可以得到利用该关键词进行图像搜索的搜索结果首页地址,本文 将该过程称为“通式变换”。 2 从当前搜索结果页面的h t m l 代码中找出“下一页”搜索结果页面的地址。 元搜索时,为了能连续遍历所有搜索结果页面,还需自动识别“下一页”搜索结 果页面的地址。基于g o o g l e 与b a i d u 的当前搜索结果页面都提供了“下一页” 超链接热点。因此,只需从当前搜索结果页面的h t m l 代码中找到字符串“下一 页”,然后再提取出其对应的超链接地址,即为“下一页”搜索结果页面的地址。 如果找不到字符串“下一页”,表示当前页已经是搜索结果的最后一页。 2 2 下载图像与网页 2 2 1 h t t p 协议简介 h t t p 全称h y p e rt e x tt r a n s f e rp r o t o c o l ,是指超文本传输协议,即使用 浏览器查询w e b 服务器上的超文本信息所使用的协议。其基本的工作方式是: w w w 圈像语义信息提取方法研究 l m l p 服务器处于侦听状态,客户端程序建立与服务器之削的双向1 c p 连接,连 接建立后,客户端程序向服务器发送请求,服务器根据请求向客户端传送相应的 文件,文件主要格式为h t m l ”1 。 2 2 2w jnin e t 简介 w i n l n e t 是v c + + m f c 类库中专门用于开发i n t e r n e t 客户端程序的类。在 编写w i n i n e t 客户端程序的时候,既可以直接调用w i n 3 2 函数,也可以使用 w i n i n e t 类库函数。使用w i n l n e t 开发客户端程序的一般流程为:首先和服务器 建立连接,保持通信;然后向服务器发出请求,根据请求结果从服务器端进行数 据存取或其它操作;最后和服务器断开连接”3 。 利用w i n l n e t 类建立h t t p 客户端应用程序的一般步骤如表2 - 1 所示“。 表2 - 1 实现h t t p 客户端应用程序的一般步骤 目的方法结果 开始h r t p 会谣建圣怠犍c i n t e r n e t s e s s i o n 对象初2 纰w i n i n e t 榭 h t t p 连接c i n t e r n e t s e s s i o n :g e t h t t p c o n n e c t i o n服务器,返回一卟 仓嚏c i t t p c o n n e c t i o n 对象c h t t p c o n n e c t i o n 列象 色腱_ 个h t t p 请求调用c h t t p c o n n e c t i o n :o p e n r e q u e s t返回个c h t t p f i l e 难 包腱个c h t t p f i l e 对象象 弱羞_ 个h t t p 请求用c h t t p f i l e :s e n d r e q u e s t查找个文件,如果文 件嬲岖回f a l s e 读文件调用c i n t e r n e t f i l e :r e a d读取指定字节鱼舯区 获取h t t p 请求信息调用c h t t p f i l e :q u e r y l n f o获取h t t p 请球濂鼠 异常处理利用c i n t e r n e t e x c e p t i o n 类处理所有普通能 i n t e r n e t 异制 结束哪t p 会话处理c i n t e r n e t s e s s i o nr 建j k清除抒开i 行耐蔼接 2 2 3 下载图像与网页 根据表2 一l ,图像与网页的下载过程如下: i 用:a f x p a r s e u r l 解析图像或网页的u r l ; 2 创建一个c i n t e r n e t s e s s i o n 对象s e s s i o n ,然后调用 6 w w w 幽像语义信息提取方法研究 s e s s i o n 一 g e t h t t p c o n n e c t i o n 返回一个c h t t p c o n n e c t i o n 对象p c o n n e c t i o n ; 3 通过p c o n n e c t i o n 一 o p e n r e q u e s t 向服务器创建一个请求,返回一个 c h t t p f i l e 对象p f i l e ,建立h t t p 连接: 4 通过p f i l e 一 s e n d r e q u e s t 向服务器发送请求; 5 通过p f i l e 一 q u e r y i n f o s t a t u s c o d e 获取请求状态,结果保存在状态变量 d w r e t 中; 6 立口果d w r e t = h t t ps t a t u s o k ,则表示请求连接成功,读取h t m l 代码并 保存在f i l e t e x t 中:识别f i l e t e x t 中的 标记里面是否有 ”g b 2 3 1 2 ”、”g b 2 3 1 2 ”、”g b 一2 3 1 2 8 0 ”、”g b _ 2 3 1 2 - 8 0 ”这四个标志字符串之一,如 果有表示为中文简体网页,则建立一个本地h t m l 文件,将f i l e t e x t 保存其中, 完成对网页的下载;否则不符合要求,不存档,将f i l e t e x t 置空: 7 如果d w r e t h t t ps t a t u s o k ,则表示请求连接失败,不允许下载h t m l 代码,置f i l e t e x t 为空; 8 清理指针和关闭对话,返回f i l e t e x t 。 2 3 元搜索和预处理实现 根据g o o g l e 与b a i d u 的查询接口和资源下载的步骤,可实现基于g o o g l e 与 b a i d u 的元搜索和预处理,工作流程如图2 - 1 所示,具体分为以下四步: 1 根据“通式变换”得到的搜索结果首页地址,将搜索结果页面下载到本地, 并从其h t m l 代码中提取图像的路径、图像所在网页的路径、图像文件名、图像 文件类型、图像宽度、图像高度及图像大小等信息。 2 根据图像所在网页的路径,下载图像所在网页,并从其h t m l 代码中提取 图像所在网页的标题、图像超链接网页的路径、图像的注释以及图像的周围文本 等信息;同时根据图像路径下载图像。 3 根据图像超链接网页的路径,下载超链接网页,并从其h t m l 代码中提取 超链接网页的标题。 4 - 判断当前搜索结果页面的h t m l 代码中是否存在下一页链接。如果存在, 则跳回“搜索结果页面下载”,进入下一轮循环操作,否则,表示遍历完毕。 上述四步中涉及到的图像注释、网页标题等相关文本的提取,留待下一章详 细阐述。 7 w w w 图像语义信息提取方法研究 图2 - 1 元搜索和预处理流程图 8 w w w 图像语义信息提取方法研究 第三章w w w 图像相关文本提取 3 1 w w w 网页类型与文件格式分析 通常看到的网页,都是以h t m 或h t m l 为后缀的文件,俗称h t m l 文件。不同 的后缀,代表不同类型的网页文件,例如有) 【m l 、c g i 、a s p 、p h p 、j s p 甚至其它 更多类型“。 1 h t m l 简介 h t m l 全称h y p e r t e x tm a r k u pl a n g u a g e ,是利用标记和属性来描述网页的字 体、大小、颜色及页面布局的超文本标记语言“。标记是区分文本各组成部分的 分界符,用来把h t m l 文档划分成不同的逻辑部分,如段落、标题和表格等。h t m l 标记有两种作用:首先是定义文档结构,以便浏览器显示该文档;其次是提供超 文本链接,可以指向网络中另一台计算机上的文件或者文件中的某一处,这既方 便了浏览,又可以采集到更多的网页。自1 9 9 0 年以来h t m l 就一直被用作w o r l d w i d ew e b 上的信息表示语言,用于描述h o m e p a g e 的格式设计和与w w w 上其它 h o m e p a g e 的链接信息。h t m l 最大的特点是支持在文本中嵌入图像、声音、动画 等不同格式的多媒体文件,这也是从网页中提取图像语义信息的切入点。 2 x m l 简介 x m l 即为可扩展的标记语言( e x t e n s i b l em a r k u pl a n g u a g e ) ,是s g m l ( s t a n d a r dg e n e r a l i z e dm a r k u p l a n g u a g e ,标准通用置标语言) 的一个简化子 集“。x m l 以一种开放的自我描述方式定义数据结构,在描述数据内容的同时突 出对结构的描述,从而体现出数据之间的关系。它的语法类似h t m l ,都是用标 签来描述数据,不同的是,x m l 可以依据设计上的需要,自行定义标签“。自x m l 推出以来,迅速得到软件开发商的支持和程序开发人员的喜爱,显示出强大的优 势。 3 c g i 简介 c g i 全称c o m m o ng a t e w a yi n t e r f a c e ( 公共网关接口) ,是一种编程标准, 它规定了网络服务器调用其它可执行程序( c g i 程序) 的接口协议标准。c g i 程 序通过读取使用者的输入请求从而产生h t m l 网页。c g i 程序可以用任何程序设 计语言编写,如s h e l l 、p e r 、c 、j a v a 等。c g i 程序通常用于查询、搜索、或 w w w 目像语义信息提取方法研究 其他的。些交互式的应用1 。 4 a s p 简介 a s p 全称为a c t i v es e r v e rp a g e s ( 动态服务器主页) ,是一种应用程序环境, 可以利用v b s c r i p t 或j a v a s c r i p t 语言来设计,主要用于网络数据库的查询与管 理。其工作原理是当浏览者发出浏览请求的时候,服务器会自动将a s p 的程序码 解释为标准h t m l 格式的网页内容,再送到浏览者浏览器上显示出来。利用a s p 生成的网页,与h t m l 相比具有更大的灵活性,只要结构合理,一个a s p 页面就 可以取代成千上万个网页1 。 5 p h p 简介 p h p 是h y p e r t e x tp r e p r o c e s s o r 的缩写,即超文本预处理器。其优势在于 运行效率比一般的c g i 程序要高,而且,p h p 完全免费,可以从p h p 官方站点 h t t p :w w w p h p n e t 上自由下载。p h p 在u n i x 平台、g u n l i n u x 和微软w i n d o w s 平台上均可运行叫。 6 j s p 简介 j s p 与a s p 非常相似。不同之处在于a s p 的编程语言是v b s c r i p t 之类的脚 本语言,而j s p 使用的是j a v a 。此外,a s p 与j s p 更为本质的区别是两种语言引 擎采用完全不同的方式处理页面中嵌入的程序代码。在a s p 中,v b s c r i p t 代码 被a s p 引擎解释执行;在j s p 中,代码被编译成s e r v l e t 并由j a v a 虚拟机执行 【1 1 】 7 v r m l 简介 v r m l ( v i r t u a lr e a l i t ym o d e l i n gl a n g u a g e ) 虚拟实境描述模型语言,是 描述三维的物体及其连结的网页格式。用户可在三维虚拟现实场景中实时漫游, v r m l 2 0 在漫游过程中还可能受到重力和碰撞的影响,并可和物体产生交互动作, 选择不同视点等。浏览v p 4 _ f l 的网页需要安装相应的插件,利用经典的三维动画 制作软件3 d m a x ,可以简单而快速地制作出v r m l “。 3 2 相关w w w 图像的h t m l 标识 h t m l 文件的结构比较简单,下面只介绍对图像语义信息提取起关键作用的 h t m l 标记。 1 0 w w w | 兰| 像晤义f 青息提取方法研究 3 2 1 网页属性标记 系统主要是从中文简体网页中提取图像语义信息,识别中文简体网页的主要 方法就是根据“ ”标签内的c h a r s e t ( 网页编码属性设置) 属性值是否为g b 一2 3 1 2 8 0 或g b 一2 3 1 2 ( 信息交换用汉字编码字符集基本集) 来 判断。如根据h t m l 代码“ ”即能判断这个网页为中文简体网页。 3 2 2 网页标题标记 网页的标题是对网页内容的概括,因此网页的标题对基于w l v l v 的信息提取起 着关键作用。网页的标题嵌入在“ ”标签内,如某网页的 h t m l 代码包含“ 清明上河图 ”这段标识,据此就能确定该网页 的主题是“清明上河图”。 3 2 3 图像嵌入标记 通过标签 可将图像嵌入到网页 中。其中,s r c = ” ”表示w w w 图像文件的路径和文件名,浏览器只支持g i f 和j p g 格式的图象:a l t = ”# ,表示在浏览器不能或尚未完全读入图象时,在图象位置显 示的注释文字。w i d t h = ”# ”和h e i g h t = ”# ,分别代表w w w 图像的宽度和高度“。所 以,仅从图像嵌入标记中就能识别出图像的路径、文件名、注释及其嵌入尺寸等 关键信息。 3 2 4 超链接标记 h t m l 文件的一个重要特点就是使用了超链接。超链接可以从当前页面引用 i n t e r n e t 上的某个文件,也可以跳转到当前页的另一段落,或另一个文件的某 个地方“。超链接的标记为 超链接热点 。其中,h r e f = ”# ”表示一个超文本引用( h y p e r t e x t r e f e r n e c e ) ,多由字母 ( 拼音或英文) 和数字组成,n a m e = ”# ”表示超文本链接的目标,t a r g e t = ”# ” 表示将一个超文本引用送到新开的浏览窗。超链接热点可分为文字热点和图像热 点,是对超文本所引用主题的概括。从热点为图像的超链接标记中能提取出图像 w w w 酗像语义信息提取方法铆 究 语义的关键信息。例如有如下h t m l 代码: 。从这段h t m l 代码,能提取出图像的文件名为“趵突泉”,图像类型为“j p g ”, 图像的注释为“趵突泉”,图像的超链接为h t t p :w w w o n l i n e j n s d c n 7 2 q u a n b a o t u q u a n h t m ,而且其中又包含“趵突泉”的全拼。根据上述信息,足能 确定图像的主题为“趵突泉”。 3 2 5 表格标记 w w w 图像大多处于一定的上下文环境中,以图文并茂的形式说明一个事件, 表达一定的主题。所以,从其周围文本中能提取出说明图像的主题、主体等语义 信息。w w w 图像及其周围文本大多嵌入于表格中,因此,熟练掌握h t m l 代码中 的表格标签 ,对正确提取图像的周围文本起着关键作用。 下面是表格标签的基本用法: 1 ( 定义表格) 在表格标签内可定义整个表格的尺寸、有无表格线、表格线尺寸、文字距离、 单元格边缘的空间尺寸、表格背景颜色等属性“。 2 ( 定义表行) 在表行标签内可以定义某行单元格的颜色,文字在单元格内的对齐方式等属 性。 3 ( 定义表头) 表头是一种特殊的表元,文字在表头单元格内水平居中对齐,为黑体字。 4 ( 定义表元:表格的具体数据) 表元是表格的最小单位,也叫单元格。在表元标签内可以定义该单元格的颜 色、文字的对齐、单元格的拆分与合并、单元格的尺寸等属性。 下面是一段取自网页“h t t p :w w w d r e a m s t r a v e l c o m m z l y n y n z d lj z d l j z d j d n p h a s p ”的表格代码: t a b l ew i d t h = 1 0 0 b o r d e r :0 。c e l l s p a c i n g = 0 “c e ll p a d d i n g = 40 、 w w w 幽障语义信息提取方法研究 依拉草原 依拉草原 依拉草原 这段代码在i e 中的显示效果如图3 - 1 所示,可以看出这是一个二行三列的 表格。表格的第一行,每列均为一幅图像,名字分别为z d j d _ n p h 2 j p g 、 z d j d n p h 3 j p g 、z d j d n p h 4 j p g 。表格的第二行,每列都是内容为“依拉草原” 的文本信息。根据与图像最近的文字“依拉草原”,可以判断图像主题为“草原”。 图3 - 1 表格示例 本节介绍了在提取图像语义信息过程中涉及到的h t m l 标记。只有全面掌握 h t m l 标记的用法和动态网页编程技术才能迅速和准确的提取图像语义信息。 w w w 图像语义信息提取方法研究 3 3w w w 图像相关文本提取 经过大量的观察发现,在w w w 网页中,与图像相关的文本信息主要有如下几 个来源”: 1 图像的文件名。通常用中文单词或拼音、英文单词或英文缩写取名,一般 蕴涵了图像的主题或主体。 2 图像的周围文本。多为一句话或一段话,包含的图像语义信息最多。 3 图像的注释文本。常以短语的形式概括图像的主题内容。 4 图像所在网页的标题。一般以一个短旬的形式概括网页内容,可能与图像 的语义有关。 5 图像链接网页的标题。一般来讲,图像超链接网页的内容和图像有很大的 相关性:因此,作为概括超链接网页内容的标题肯定与图像语义有关。 6 u r l s ,即图像的u r l 、图像所在网页的u r l 及图像链接的u r l 。这些u r l 可能包含图像主题或主体所属的分类领域或分类目录“。 下面将详细分析上述与图像相关的文本信息,并给出提取算法。 3 3 1 洲w 图像相关文本分析 1 图像u r l 的提取 图像的u r l 来自搜索结果页面的h t
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 机床电气线路安装维修指南
- 2025年耳鼻喉科学鼻窦炎药物治疗应用考试题答案及解析
- 矿山企业矿山环保管理人员聘请与环保治理合同
- 离婚协议子女探视权及财产分割执行细则与补偿协议
- 矿山开采劳务外包及资源综合利用合同
- 离婚后子女抚养费、教育金支付与财产分割协议书
- 大数据产业园区厂房租赁与数据安全保护协议
- 班组级岗前安全培训内容课件
- 2025年财务分析试卷及答案
- 班组标准化管理课件
- 学堂在线 劳动教育 期末考试答案
- dcs权限管理制度
- 药品技术研发管理制度
- DB14∕T 3319-2025 中药材产地趁鲜切制技术规程 赤芍
- 儿童常见疾病预防
- 温泉度假酒店项目水土保持方案报告书
- 校园人脸通道管理制度
- T/ZHCA 019-2022化妆品去屑功效测试方法
- 食品免责协议书
- DB44-T 1661-2021 河道管理范围内建设项目技术规程
- 第37届中国化学奥林匹克(初赛)试题及答案
评论
0/150
提交评论