(课程与教学论专业论文)基于web的光学专业数据库的信息检索.pdf_第1页
(课程与教学论专业论文)基于web的光学专业数据库的信息检索.pdf_第2页
(课程与教学论专业论文)基于web的光学专业数据库的信息检索.pdf_第3页
(课程与教学论专业论文)基于web的光学专业数据库的信息检索.pdf_第4页
(课程与教学论专业论文)基于web的光学专业数据库的信息检索.pdf_第5页
已阅读5页,还剩55页未读 继续免费阅读

(课程与教学论专业论文)基于web的光学专业数据库的信息检索.pdf.pdf 免费下载

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

基于w e b 的光学专业数据库的信息检索 摘要 本文简要介绍了光学发展史以及光学学科的发展对社会各个领域的重要贡 献;参照有关光学学科分类标准提出了自己的光学学科分类方法,做出相应的 光学分类;简单介绍了信息检索的相关概念,信息检索系统的结构和过程,w e b 信息搜索的特点,以及w e b 信息搜索系统的组成和工作过程。详细介绍了基于 w e b 的光学专业数据库信息检索系统的建立和实现:原始光学信息经过分类后 分为结构化光学数据和非结构化光学数据,经过对非结构化光学数据的预处理 使其转化为结构化数据,然后将结构化分类光学数据导入光学专业数据库,建 立人机交互检索界面,实现基于w e b 的光学数据信息的检索。 在非结构化光学数据的结构化处理中,本文提出了一种全新的中文全文汉 语自动分词算法:引入上下文相关的词频,结合关键字词典,高效地完成中文 汉语自动分词;另对光学文献的专业分类,也提出了一种新的计算机自动分类 方法:即通过对增加光学类关键字的光学学科分类属性,计算光学文章中出现 的各个所属光学学科类关键字的比例关系,定量地对光学文献进行分类。 本论文由教育部专项基金项目( 0 1 1 0 0 1 8 2 ) 支持。 关键词:信息检索汉语分词s o l 光学a s p i n f o r m a t i o ns e a r c ho f o p t i c sd a t a b a s eb a s e do nw e b a b s t r a c t t h i sa r t i c l e b r i e f l yp r e s e n t st h ed e v e l o p m e n th i s t o r yo fo p t i c s ,a n dt h eg r e a t c o n t r i b u t i o nm a d eb yt h ea d v a n c e m e n to f o p t i c si na l lf i e l d s ;p u t sf o r w a r dan e w o p t i c c l a s s i f i c a t i o nm e a n sb a s e do ns o m e o p t i c c l a s s i f i c a t i o n s t a n d a r d ;b r i e f l y i n t r o d u c e ss o m ec o n c e p t so fi n f o r m a t i o ns e a r c h ,t h es t r u c t u r ea n dt h ep r o c e s so f i n f o r m a t i o ns e a r c hs y s t e m ,a n dt h ec h a r a c t e r i s t i co fi n f o r m a t i o ns e a r c hb a s e do n w e b ,a n dt h ei n f o r m a t i o ns e a r c hs y s t e m sf o r m i n ga n dw o r k i n gp r o c e s sb a s e do n w e b p a r t i c u l a r l yp r e s e n t st h er e a l i z a t i o no fo p t i cd a t a b a s ei n f o r m a t i o ns e a r c h i n g s y s t e mb a s e do nw e b :f i r s t l yt r a n s f o r m i n go r i g i n a lo p t i ci n f o r m a t i o ni n t os t r u c t u r e d o p t i cd a t aa n du n s t r u c t u r e do p t i cd a t a ,s e c o n d l yt r a n s f o r m i n gu n s t r u c t u r e do p t i c d a t ai n t os t r u c t u r e dd a t ab yp r e t r e a t m e n t ,t h e np u t t i n gt h e s es t r u c t u r e dd a t ai n t o o p t i cd a t a b a s e ,b u i l d i n gu pp e o p l e - c o m p u t e ra l t e r n a t i o ns e a r c h i n gs y s t e m ,f i n a l l y r e a l i z i n go p t i ci n f o r m a t i o ns e a r c h i n gs y s t e mb a s e do nw e b i nt h e p r o c e s s i n go fu n s t r u c t u r e do p t i c d a t ap r e t r e a t m e n t ,t h i sa r t i c l e p u t s f o r w a r dac o m p l e t e dn e w a l g o r i t h mo f a u t o m a t i cc h i n e s ew o r ds e g m e n t a t i o nb a s e d o n c o n t e x t :c o m b i n i n gc h i n e s ew o r df r e q u e n c yb a s e d o nc o n t e x ta n dk e y w o r d d i c t i o n a r y c a nc o m p l e t e se f f i c i e n t l yc h i n e s ew o r da u t o m a t i c s e g m e n t a t i o n ;a n d a l s op r e s e n t san e w c o m p u t e ra u t o m a t i c a l l yc l a s s i f i c a t i o nw a y a b o u to p t i ca r t i c l e s s p e c i a l t yc l a s s i f i c a t i o n :t h r o u g ha d d i n go p t i cs u b j e c tc l a s s i f i c a t i o np r o p e r t yo n o p t i ck e y w o r d sa n dc o m p u t i n gt h ep r o p o r t i o no fo p t i ck e y w o r d si nt h ea r t i c l e , q u a n t i f i c a t i o n a l l yc l a s s i f i e so p t i ca r t i c l e s t h e p a p e r i s s u p p o r t e db y t h e m i n i s t r y o fe d u c a t i o n s s p e c i a l f o u n d a t i o n f 0110 01b 2 ) k e yw o r d s :i n f o r m a t i o ns e a r c h c h i n e s ew o r d s e g m e n t a t i o ns q lo p t i c s a s p 独创性声明 本人声明所呈交的学位论文是本人在导师指导下进行的研究工作及取得的研究成果。据 我所知,除了文中特别加以标志和致谢的地方外,论文中不包含其他人已经发表或撰写过的 研究成果,也不包含为获得金照王些盍堂或其他教育机构的学位或证书而使用过的材 料。与我一同工作的同志对本研究所做的任何贡献均己在论文中作了明确的说明并表示谢 意。 学位论文作者擗岔啊签字嗽。孕年j _ 肛日 学位论文版权使用授权书 本学位论文作者完全了解金目b 王些盔堂有关保留、使用学位论文的规定,有权保留 并向国家有关部门或机构送交论文的复印件和磁盘。允许论文被查阅或借阅。本人授权金 胆王些盍堂可以将学位论文的全部或部分论文内容编入有关数据库进行检索,可以采用影 印、缩印或扫描等复制手段保存、汇编学位论文。 ( 保密的学位论文在解密后适用本授权书) 学位论文者签名在啊 签字日期:口4 年r 月2 上日 氢。易咯 签字日期:c 砷年r 胄 日 学位论文作者毕业后去向: 工作单位:爿1 矗j 目肚博 ,。电话:9 f 静一j 办口7 7 通讯地址:娟寸黄舢弗赶对丘墟孑i 垂i 乒肛o 邮编:;,占哪 致谢 我非常感谢我的导师高峰教授,在我写论文的过程中,他对我的论文的各 方面都提出了许多建设性的意见和建议,并不厌其烦地对我提出的问题进行详 细地回答。他的指导使得我的毕业论文能够顺利进行。在和高老师相处的这段 时间中,他严谨治学的工作作风给我留下了深刻的印象,使我受益匪浅。没有 高老师的关怀与指导,我是无法完成这篇论文的。 此外,我十分感谢何晓雄教授对我学习的支持,感谢刘业政教授对我这篇论 文的指导和一些建设性的意见。 感i 身f 应用物理网上合作中心课题组的每位成员,感谢唐琼、梁建华、叶有 祥、张胜,在他们的帮助和鼓励下,我才得以顺利完成这篇论文。 特别感谢陆启明,和我一起探讨、研究关于中文自动分词的新算法,并协 助我完成对此算法的具体实现和有效性的验证。 最后我要感谢我可亲可敬的爸爸妈妈,他们多年来对我生活的关心、照顾, 对我学习上的支持和鼓励,使我能安心、顺利地完成学业。谢谢我的亲人和朋 友们一直以来的关怀和帮助,还有其他许许多多给过我关心和帮助的老师和同 学,在这里我一并表示感谢。 作者:金瑜 2 0 0 4 年5 月 前言 在2 1 世纪信息技术飞速发展的今天,i n t e m e t 具有的开放性、互动性、时效性、 无国界性的特点,使其成为现代信息社会最具代表性也是最重要的信息传递手段。近 几年来,随着中国科技网( c s t n e t ) ,中国教育科研两 ( c e r n e t ) ,邮电部国家公用信 n ( c h i n a n e t ) 及电子部金桥网( c h i n a g b n e t ) 四大国家骨干网的建立与发展, 以及全国上下各系统、行业、地区和专业网的开通,使i n t e m e t 已深入到许多科研院 所、大专院校、政府机构、公司、企业以及一些老百姓家中。l n l e r n e t 先进、一陕捷的 信息传递交流功能,灵活方便的客户机n 务器运行模式,简单友好的用户界面,丰富 海量的信息资源,较低的使用费用,使其受到了普遍的欢迎,并且得到了快速的发展。 i n t e m e t 上提供的各种信息资源给信息服务业带来了历史性的影响,这突出反映 在信息检索方面 1 1 。通过i n t e m e t 上丰富的信息资源,人们可以检索到期望的电子数 据信息。i n t e m e t 因其方便的使用方式( 只要有一台已联网的计算机即可) ,使人们对在 i n t e r n e t 上查找自己所需信息抱有极大的希望,这也就是目前上网用户飞速增长的主 要原因之一。目前i n t e r n e t 上已有很多公用免费的信息数据库供人们检索查询,其中 不乏众多的科技类数据库,例如社会科学类信息资源数据库,主要有图书馆学、经济 学、语言学、教育科学、心理学等学科,再比如自然科学类信息资源数据库,主要有 航空学和宇航学、农业、生物科学、植物学、数学、物理学、化学、通信、计算、工 程、环境和地球科学等等。例如,斯坦福大学s l a c 实验室提供的高能物理领域数据 库及中国教育和科研计算机嘲。很多专业类数据库都有待于人们的开发和利用。本文 在教育部专项基金项目基于w e b 的光学专业数据库的建立与共享的支持下,研究 开发了基于w 曲的光学数据库的信息检索系统。 本文主要分三个部分详细介绍描述基于w e b 的光学专业数据库的信息检索: 第一部分简要介绍光学发展史,光学在社会生产、经济建设中的重要作用,讨 论光学的不同分类标准,以及我们所建的光学数据库中关于光学的分类; 第二部分介绍信息组织和信息检索的概念、定义,信息检索系统的组成以及信 息检索的一般过程。重点介绍基于w e b 的信息检索,w e b 信息检索的组成及工作过 程。 第三部分全文的重点。详细介绍描述基于w e b 的光学专业数据库信息检索系统 实现的全过程:原始光学数据到结构化光学数据的转换,非结构化光学数据( 例如光 学论文) 到结构化数据的转换,光学关键字字典的建立和维护,光学数据库的构建, 数据库管理系统的设计,基于w e b 的光学数据库信息检索界面的设计以及信息检索系 统的实现。 本文在提到非结构化光学数据的结构化处理过程中提出了种全新的汉语自动 分词算法,其主要思想是通过前后两次对文章的扫描来解决分词过程中出现的交叉歧 义问题,由第一遍分词的结果,结合分词词典,计算出新的词频,通过这个新的词频 进行第二遍扫描分词。该算法先将汉语句子的切分问题归为若干字段的切分问题,然 后再通过计算比较概率大小将每个字段分别转换为概率最大的词序列,同时又提出了 一种新的有效的字段切分算法,它能够排除类似穷举算法中冗余的单字词的切分可 能。 1 1 光学发展概述 第一章光学发展概述及光学分类 光学是门古老的学科,光学的起源应追溯到远古时代( 我国春秋战国时期) 。 之后的两千多年漫长岁月构成了光学发展的萌芽时期,它是光学发展史上一段 缓慢前进的年代。进入1 8 世纪,光学发展史上出现了第一次转折点,围绕着“光 究竟是什么”这个根本性问题,展开了几百年的争论。以杨氏干涉为基础的惠 更斯一一菲涅耳光的波动学说( 18 1 5 年) 战胜了以牛顿为代表的光的微粒学院 ( 1 7 0 4 年) ,使人类对光的认识迈出了飞跃的一步。1 9 0 5 年,爱因斯坦依据光电 效应,提出了光量子理论,至此,从本质上揭示出光的粒子和波动的二象性。 光量子论的诞生对整个物理学乃至整个自然科学都产生了深刻影响。1 9 2 4 年德 布罗意在此基础上创立了物质波学说,揭示出粒子的波动性,光和一切微观粒 子都具有波粒二象性,促进了原子核和基本粒子的研究与发展。在此基础上海 森堡创立了量子力学,从而点燃了近代物理学革命的火炬。 2 0 世纪6 0 年代初激光的诞生对光学物理产生了不可估量的冲击,使光学 迎来了蓬勃发展的新时期,从此揭开了近代光学物理新的篇章。激光对人类科 学技术的深刻影响,就其深度和广度而言,只有计算机能与之媲美。激光的诞 生无疑是近代光学的开端,它使整个光学领域的面貌焕然一新1 2 】。 后来发展的信息光学方面的光学计算机成为科学界的一个热点话题。光计 算机是正在研制发展中的一种新型计算机,它以光子作为信息载体,用光信号 进行数学运算、逻辑操作、信息存贮和处理。它具有电子计算机所不具备的很 多优点。光计算机具有很宽的空间域带宽,在同一光波中能够传输许许多多不 同波长或不同偏振态的光波,它们之间互不干扰,可以在同一光波导中设计不 同功能元件,并处理不同信息。 光学行业在近一二十年中发展迅速,并已成为全球新兴产业的焦点。光学在 很多领域中得到了广泛有效的应用。光学不仅给通讯和信息技术、制造业,以 及医疗技术带来了翻天覆地的变化,促进了这些行业的进步和发展,光学技术 还在国防工业中扮演了十分重要的角色,它在现代战争中起到了决定性的作用。 光学技术是一个极具生命力和能动性的科技领域,它是一种广博的技术载体1 3 】, 它的不同应用已经为社会的各个领域做出了重要的贡献,并且将发挥越来越重 要的作用。 光学是作为科学的一个分支发展起来的,它的根已深深扎在物理学中,光 学己成为科学领域中的一门综合化、集成化( i n t e g r a lp a r t ) 的重要科学,在许多 领域中起着关键性的作用。光学的研究和发展在人类认识自然界的历程中做出 了辉煌的贡献。光学的某些领域及光学工程的全部概念已大大超出了以往的范 畴。光学的应用在发展,并且应用的影响范围已大大超出物理学。光学的发展 必将丰富新世纪的科学界,使其更加硕果累累。 1 2 光学分类 光学系统可按不同的观点、要求进行分类,在我们建立的光学专业数据库 中,我们根据两种光学数据分类标准对光学信息进行分类: 1 2 1 光学数据属性分类标准 在我们搜集到的原始光学数据中,各个光学数据是针对某种类别的,例如 凸透镜是属于光学设备中的数据信息,光学学报是属于光学机构这一属性中的 数据信息,因此针对不同属性的光学数据,我们将这些原始的光学数据分为几 个不同的属性类: 光学设备类( 此类又细分为:光学设备分类标准,光学设备参数光 学设备数据) 光学专利类( 此类又细分为:光学专利分类标准,光学专利代理机构, 光学专利数据) 光学论文原文 光学机构类 光学新闻类 我们所建立的光学专业数据库中的关系表( 包括主表和引申出的子表) 都 是根据以上分类来建成的,具体的各个关系表将在第三章中光学数据库的设 计和构建中详细介绍。 1 2 2 光学学科分类标准 我们在详细调查研究光学数据之后,发现在光学论文原文数据中需要对光 学论文做出一个基本的类别归类,这篇论文是属于激光光学,还是属于量子光 学,当我们的用户查询光学论文的时候,不同光学学科分类的光学论文将有助 于他们的查询和搜索。 对于光学学科的具体分类,目前为止物理界并没有一个统一的分类标准, 为了找到一个相应完整、科学、统一的光学分类,我们实验室小组人员在参照 美国物理学会2 0 0 3 年物理学与天文学分类表以及国家标准g b t 13 7 4 5 9 2 学科分类与代码表的基础上,将光学分类为: 4 几何光学g e o m e t r i c a lo p t i c s 波动光学w a v eo p t i c s 图形和光学处理i m a g i n ga n do p t i cp r o c e s s i n g 全息光学h o l o g r a p h y 量子光学q u a n t u mo p t i c s 激光l a s e r s 激光光学系统:设计和操作l a s e ro p t i cs y s t e m s :d e s i g na n do p e r a t i o n 激光应用l a s e ra p p l i c a t i o n s 非线性光学n o n l i n e a ro p t i c s 生理光学p h y s i o l o g i c a lo p t i c s 大气以及海洋光学a t m o s p h e r i c a n do c e a no p t i c s 光学材料o p t i c m a t e r i a l s 光学资源和标准o p t i cs o u r c e sa n ds t a n d a r d s 光学元素、设备及系统o p t i c e l e m e n t s ,d e v i c e s , a n ds y s t e m s 光纤光学f i b e ro p t i c s 集成光学i n t e g r a t e do p t i c s 光学工作技术o p t i cw o r k s h o pt e c h n i q u e s 光学测试技术o p t i ct e s t i n gt e c h n i q u e s 环境、辐射对光学元素、设备以及系统的影响e n v i r o n m e n t a la n d r a d i a t i o ne f f e c t so n o p t i ce l e m e n t s ,d e v i c e s , a n d s y s t e m s 光学其他学科o t h e rt o p i c si no p t i c s 做好了光学原始数据的各个不同分类,之后我们所要建的光学专业数据库 就是在这分类基础上建立的,包括基于w e b 的光学专业数据库的查询也是在 这个分类基础上进行设计和运行的。 第二章信息检索 上一章我们讨论了光学分类,为光学信息的w e b 检索做好了前期的准备。 这一章主要介绍下什么是信息组织和检索,信息检索系统的组成和概念,以 及基于w o r l dw e bw i d e ( w w w ) 环球信息网的w e b 检索的组成和特性。 2 1 信息检索系统 每天,数据采集、计算机数字化、卫星遥感、生产和经济运行、办公和管 理等系统产生大量的数据,尤其是随着信息技术在全球迅猛地发展,人们每天 都在与世界上最庞大的资源库i n t e r n e t 打交道。我们被“淹没”在数据的海洋 中,为此需要有效地从大量的数据中检索出信息的方法和工具,这就是信息检 索的任务。 2 1 1 信息组织和检索的概念 1 数据、信息和知识 在信息检索这个概念中,我们经常会遇到“数据”和“信息”这两个名词。 “数据”和“信息”经常会交叉使用,容易混淆,他们的含义不同,但是又有 着某种程度的联系。 数据可以是文本、图像、视频、音频等基本数据元素。数据是按某一规格 化方式对事实和概念的一种表示,适于入或自动装置进行通信、解释或处理。 它是任何有意义或可以赋予涵义的表达形式,例如字符或者数字。在计算领域, 数据是输入给计算机程序或例行程序的内容,他们可以经过算术或逻辑运算的 处理,求得所处理后的结果。根据这种定义,程序和编程指令不属于“数据” 的范围,“数据”指的是程序和指令进行处理的那些数据项( 内容) 。然而从广 义来讲,“数据”也包括程序和编程指令。在这里,与“信息”一词相b e 较而言, “数据”指的是源数据或原始数据,而“信息”则定义为通过对数据进行处理 之后获得的数据。 “信息”一词对应于英文的“i n f o r m a t i o n ”,它在不同的领域下有不同的 解释。其含义可以涉及到哲学、心理学、信号处理、物理学方面的解释。牛津 英语字典中,“信息”一词的解释是:通知、告知、告知的事情、消息、一种知 识等。图2 1 中给出信息的层次观点。 6 图2 - i 信息的层次 最下层是数据,是信息的来源和原始资料,用数据可以表达信息。信息是 经过处理、组织和表现出来的数据。读、听、看、理解的信息,经过归纳和总 结得出知识。最高层为智慧是提炼和综合出来的知识和理解,它建立在知识 之上。图2 - 1 中用金字塔形状,下宽上窄,表示层次越高抽象级别就越高;另 一方面,随着层次的上升,要求的表达数据量就越少。 2 信息的周期 从产生被利用,信息具有一个完整的生命周期,如图2 2 所示。信息的生 命周期有三个主要阶段:产生、检索、利用。 图2 2 信息的生命周期 信息产生阶段 1 ) 使用产生 产生的信息供用户使用,使用过程中又可以产生新的信息。例如可以把信 息转换为知识,知识也可以作为新的数据和新的信息。由此,信息的生命期开 始了新的一轮周期。 2 ) 写作修改 信息的写作和修改是信息产生阶段的重要步骤。通过把数据、信息和知识 进行一定的处理,产生出新的信息,或从观察和思考过程中产生信息。信息可 以经过编辑并发布出去。 7 3 ) 组织存储 信息组织就是收集和综合信息,建立元数据库、原始资料库及其关系。元 数据是描述数据的信息,支持信息的搜索。经过组织的数据以利于检索的各种 形式存储在数字信息库中。 信息检索阶段 1 ) 分布网络 一般来说,信息环境是一个分布的信息空间,用户通过网络在一个分布的 信息环境中获取和利用信息。 2 ) 搜索索引 在分布的信息空间中进行信息的搜索,即如何从信息库中找到所需的相关 信息。为了快速对信息库进行搜索,必须建立起索引。 信息利用阶段 存取到信息之后,就可以使用获取的信息。存取可以是浏览、搜索或过滤 等形式。过滤是通过在信息的输入和输出阶段建立的“配置”( 即用户特定的参 数配置) 来为用户提供信息。用户可以选择要求的或相关的信息,实现个性化 的信息服务。用户在信息使用过程中,可以产生新的信息,信息进入下一轮生 命周期。 2 1 2 信息检索系统及过程 1 系统结构 信息检索系统的一般系统结构如图2 3 所示,它包含“查询”和“创建” 两大子系统。“查询”子系统是根据用户的信息查询的要求,对文档进行信息搜 索,并把结果返回给用户。它主要包括用户的查询接口和搜索引擎模块。“创建” 子系统是对输入到文档集中的原始数据进行预处理和结构化,按照信息检索的 要求对原始数据进行组织。形成元数据库、文档库和特征库。从这些库中建立 的索引,有效地支持快速的搜索处理。它主要包括预处理和结构化模块。具体 来说,系统结构中的各功能模块为: 文档集 查询 图2 - 3 信息检索的一般系统结构 创建 1 ) 数据源 输入到文档集中的各种数据源,可以是文本文档、多媒体文档、w e b 文档、 多媒体数据等。这些数据包含用户要求的信息和信息线索,是被检索的原始对 象。 2 ) 文档预处理和非结构化信息结构化 原始的文档和非结构化数据信息( 如文章、媒体等) 在形成有效的可支持 信息检索的数据库之前,需要经过预处理和结构化,提取文档和非结构化信息 的有效逻辑属性和特征,形成元数据库、特征属性库,用于检索。 3 ) 文档集 又称为数字库、信息库等,是被检索的文档集合。它由元数据库、特征和 属性库、原始文档库、原始非结构化数据库组成。对于大型文档集,需要索引 的支持,加速搜索过程。 4 ) 用户查询接口 用户通过系统的查询接口提交查询的要求。查询的结果也通过用户接口来 表现。查询过程可能是多次交互的过程,用户不断修改查询的要求,直到检索 到满意的结果。查询过程也包含着浏览。 5 ) 搜索和索引 根据用户提交的查询,对文档进行搜索,通过相似匹配,找到一组与用户 查询要求相关的文档和数据,通过用户接口返回给用户。 9 2 。检索过程 信息检索的完整过程包括三大步骤,即预处理、内容描述和检索,如图2 4 所示。其中预处理和内容描述步骤对应于信息检索系统中的“创建”子系统: 检索步骤对应于“查询”子系统。我们把“内容描述”分离出来的原因是内 容描述”是可以标准化的部分,而“预处理”和“检索”是两个开放的步骤, 供研究人员施展才干,不断提出新的或改进的算法,提高信息检索的性能。 图2 - 4 信息检索的步骤 1 ) 预处理 对原始文档和非结构化数据集进行预处理,它包括文档处理、非结构化信 息结构化和特征提取。 2 ) 内容描述 对预处理步骤获得的文档的逻辑属性、索引项和特征进行规范和标准的描 述,形成文档集的逻辑视图。标准化的描述便于文档和媒体内容的网络共享和 提交。内容描述以标准的格式存储在文档集( 数字库) 中,供信息检索。 3 ) 检索 从文档集中,根据用户的查询要求搜索出相关的信息。检索活动可以是一 次性的批处理形式,或多次交互的形式,执行检索的过程。 用户提交的查询,经过“查询形成”模块,转换成计算机内部可以直接使 用的查询矢量。搜索过程在索引的支持下,对文档集进行匹配搜索,并返回一 组相关结果,呈现给用户。用户查看返回的结果,如果不满意,可以根据返回 的结果,适当调整查询的要求,包括相关度、权重、查询参数等,然后再次提 交查询。这样循环反复,交互求精,直到用户满意为止。 2 2w e b 信息搜索 2 2 1w w w 的形成与发展 w o r l dw i d ew e b 一一环球信息网( 简称w w w 。或3 _ | | f 。或w e b ) ,是以超文本 和超媒体为基础,采用面向文件阅览方式的广域超媒体查询工具。它为 i n t e r n e t 提供了一个简单的、便利的接口,有效的解决了i n t e r n e t 上的信息 传递问题。在此之前,几乎所有的信息发布都是通过e - m a i l 、f t p 、a r c h ic 和 g o p h e r 实现的。e - m a i l ( 电子邮件) 是一个全电子化的信息系统,使用在不同的 团体和个人间的信息交换,信函是以电子方式存放在计算机中,信函传递采用 存储转发方式通过计算机网络从源发地出发后,经过若干网络节点接收后再向 前转发,最终传到目的地。f t p 是建立在t c p i p 上的文件传输协议,它实现了 一台计算机到另一台计算机之间的文件传输,即用户可以从其它计算机系统中 索取和下载自己想要的文件,也可将自己的文件送到网络上去共享。a r c h i c 是 一个通过检索索引确定公共服务器中各类文件( 包括软件、数据和文本文件) 所 在地址的查询系统,是用来存储网络上的服务器和文档的联机检索工具。g o p h e r 向i n t e r n e t 用户提供了以多级菜单逐层深入的导航工具,用一系列方式打开迷 宫中的相应大门,使我们能按部就班地从i n t e r n e t 的一个资源区通向另一个更 具体一些资源点,直至找到满意的可用的信息资源。在这些服务器中,不论是 从提供信息的种类、数量,还是从用户界面的美观、方便操作上看,都存在不 尽人意的地方。w e b 有效地解决了这些问题,它能把各种类型的信息( 图形、图 象文本、声音和影像) 有机地集成在一起,供用户阅读、查找。通过一个w e b 服务器,可访问连接在该服务器的任意其它w e b 服务器的资源,w e b 还提供了 一种非常易于使用的界面,用浏览器软件( 如n e t s c a p e ) 可访问f t p 和g o p h e r 等过去要用不同客户程序才能访问的信息资源。它统一了整个i n t e r n e t ,使之 变成一个超媒体的信息资源集合。 2 2 2w w w 的特点 1 使用了“超文本”( h y p e r t e x t ) “超媒体”( h y p e r m e d i a ) w w w 的最大功能特色是提供了全球范围的超文本与超媒体的信息查询与 导航服务。超文本是指带有指针链接的文本。超文本并不是一个新思想,在计 算机的使用过程中有着许多“超文本”文档的例子,例如:m i c r o s o f t 公司的 w i n d o w s 系统中的h e l p 联机求助系统就是按照“超文本”方式加以组织的, 用户只需要在联机帮助内容中用鼠标器点击一下那些绿色的词( 或带下划线的 词、,在显示屏上立即会跳出与该词相应的一段文档解释内容。将这一思想用于 环球信息网,我们就可以浏览各种信息。并且通过各种超链接能够很容易地从 一种信息来源转到另一种信息来源。超媒体是超文本的自然扩展,是超文本与 多媒体的简单组合,在超媒体中,文字和文本可以参加链接,而且图像,声音 及影视动画均可参与链接。 2 使用了h t m l 语言 h t m l ( h y p e rt e x tm a r k u pl a n g u a g e ) 是一种超文本与超媒体开发置标语 言。尽管在w e b 中允许有多种不同的信息表示格式,但是,每一个w e b 客户 端程序都能加以理解的一种最基本的“文档”格式是h t m l ,h t m l 是标准置 标语言s g m l ( s t a n d a r dg e n e r a l i z e dm a r k u pl a n g u a g e ) 的一个应用,是w e b 世界 的通用语言。w e b 世界的服务器与客户浏览器间通过它可以互相沟通,信息是 由它描述而表现的。h t m l 语言通过标记和属性对文本语义进行描述,它可以 描述标题、文档结构、段落、文本的格式、字体大小、特殊字符符号及非常的 亮度,使显示信息丰富多彩。h t m l 文档格式特别适宜于带有链接指针的结构 化文本,允许在各类不同平台上采用各种字体约定优化地去显示出文件内容。 特别是它具有与其它文档“链接”功能,并可以规定如何在语言中嵌入图像、 声音和动画。因此,可以图文声并茂的显示信息。 3 采用了客户机服务器工作模式 w e b 实现全球信息网络的关键是采用了客户机服务器( c l i e n t s e r v e r ) 工作模式,分布在世界各地的异种计算机都可以成为w e b 的服务器,这成千上 万台服务器有机的协作工作,为客户端的请求提供自己力所能及的信息服务, 更重要的是服务器可以“导航”,即指向其它服务器上的信息,而这些服务器可 以进一步导航去指向更多的服务器。服务器之间互相导航的结果是编织起了规 模极大的w e b 信息网。 4 用户界面友好,使用方便简单 w e b 一改过去人们常用的检索模式,使用了图形界面,界面灵活、多变、 生动,用户只需提出查询要求,w e b 则自动完成查询。用户只需方便地操纵鼠 标器,即能在i n t e r n e t 互联网上,向全世界各地去获取用户希望看到的文本、 图形、图像、影视、动画及声音等各类信息。 2 2 3w e b 的组成及工作过程 w e b 系统包括了两个方面,一个是w e b 服务器。一个是w e b 浏览器,在w e b 中 分为“文档”和“链接”两部分,w e b 服务器为浏览器提供信息,给出信息源之地址, 立即可以导航回答或服务其要求。浏览器的任务是按用户需要,对服务器提出的要求, 指出链接,对“文档”进行阅读。在w e b 中,文档是按页组织的,一页包含许多信 息,不仅包含字符,也可以包含图片,声音,动画和其它标志。网中每一页有个页码 u r l ( u n i f o r m r e s o u r c e l o c a t o r ) ,u r l 是将各种计算机归类和编组,并提供 各种服务的一种方式。它完整地描述了i n t e r n e t 上超文本和超媒体文档的地址, 其标准形式是:协议:服务器路径,文件名用户可以直接在客户程序的u r l 栏目中 按上述格式填入u r l ,就可以进行远程查询。h t t p ( h y p e r t e x t t r a n s f e r p r o t o c 0 1 ) 是一 种高速传输的,无状态的并且易于扩充的超文本传输协议,它能通过超级文本接口支 持客户与服务器之间的简单快速的、无国界的连接,从而形成w e b 最主要的支撑协议。 h t t p 采用客户服务器模式下的请求、响应握手方式工作。客户机在向服务器发送一 条请求消息时,首先建立与服务器的t c p i p 连接,然后向服务器发送请求服务的消 1 2 息,服务器接收到请求后,对客户的请求加以处理并回送一个h 向应消息给客户,然后 关闭连接。由此可见,w e b 系统除包含w e b 服务器和浏览器之外,还包含了些规 范,如h t t p ,u r l 和h t m l 等。w e b 服务器利用统一资源定位器( u r l ) 、采用超文 本传输协议( h t f p ) 、利用超文本标记语言( h t m l ) 把客户端的浏览器与服务器的w e b 资源有机地集合在一起,从而实现了有效和广泛的信息检索,奠定了用户对 i n t e r n e t 透明访问的基础。 第三章光学数据库信息检索的实现 了解了w e b 信息检索的特点和概念,就要对光学数据库的信息检索提出一 种科学有效的方法。我们建立的光学数据库主要具有数据结构不统一、数据量 极为庞大等特点,因此有必要设计一种良好的数据模型,以实现快速、准确的 查询。在实际工作中发现该数据库内的数据可分为两种类型的数据,即结构化 数据和非结构化数据。结构化数据指的是组成该数据的元素之间有相互的联系, 对于这种类型的数据,我们可以根据关系数据模型的概念来对其进行组织,并 且利用现成的d b m s ( 数据库管理系统,如o r a c l e 、s q ls e r v e r 等) 来对其迸 行管理、维护、查询等操作。相对应的另一类的数据则为非结构化的数据,组 成这种数据的元素之间并没有明显的相互依赖关系。比如文献、新闻等这一类 型的数据,组成它们的基本元素是中文词组或英文的单词,它们之间并没有直 接的联系。而我们的任务则是实现对这两类数据实现快速、准确,并且易于使 用的检索。 3 1 光学信息检索系统的组成 对于海量的光学信息,根据其特点,我们设计了如下的系统结构来实现对其的有 效检索: 图3 - 1 光学信息检索系统框架圈 图中各个部分分别为: ( 1 )原始光学信息。主要来源是教育部应用物理网上合作研究中心的依 托及协作单位提供的光学信息,以及正在研发和完成的相关光学科 1 4 研基金项目。根据光学信息组成特点,将原始光学信息分为结构化 光学信息与非结构化光学信息两大类,分别用不同的方法进行信息 的封装。 ( 2 ) 结构化光学信息。该类光学信息的组成元素之间有着相互的联系, 可以使用发展成熟的关系数据库系统对其进行很好的拙述、管理。 如光学专利、光学产品等均属于该类型的光学信息。经过分类匹配, 使用预先定义的数据关系来储存、管理这些结构化数据。 ( 3 )非结构化光学信息。相对于结构化数据,组成某一光学信息的数据 元素之间没有显性的、可用函数描述的关系的数据信息称为非结构 化数据。在原始光学信息里,这种类型的光学信息占了非常大的比 例,如各个类型的光学文献、专著等。 ( 4 )光学专业数据库。用于存储将原始的结构化、非结构化光学信息经 过一定的处理,转化为适合d 蹦s 系统操作的规范化结构数据。 ( 5 )数据库管理、控制系统。在现成的d b m s 系统基础上开发适合本系统 具体要求的数据库管理系统,实现对光学数据的维护、录入、变更 等操作。 ( 6 )人机交互检索界面。基于w e b ,面向大众的光学数据检索界面系统。 以下部分分别介绍这几个部分的功能,以及实现的方法。 3 2 结构化光学信息 任何的光学数据均包含了一个或数个的数据元素。以描述某一神光学产品 的数据为例,它包含了产品名称、产品编号、生产厂家、设计参数等等各项更 基本的数据元素。如果组成该数据的各个元素之间有着明显的函数依赖关系, 则称该数据为结构化数据。 对于我们所取得的原始光学信息,里面包含了一部分这样的结构化或者半 结构化数据。这些数据首先是结构化与半结构化的,其次在很大程度上他们也 是异构的。因此有必要对这些数据进行分类匹配的操作,使其成为符合规范的 分类结构化数据,作为d b m s 系统的数据源。 现阶段根据我们对原始光学数据的分析和筛选,建立了以下几类规范的结 构化光学信息: ( 1 ) 光学产品数据,包括产品设备名称、产品设备代码、型号、用途、 单价等等。 ( 2 )光学专利数据,包括专利号、专利名称、申请人、发明人、代理人、 申请号、申请日等等。 ( 3 )光学机构数据,包括机构名称、机构代码、机构目标等等。 ( 4 ) 光学文献信息数据,包括文献名、期刊名、期刊号、页码、参考文 献、关键字等等,但不包括该文献的全文内容。 分类后的结构化光学信息为光学专业数据库提供了规范的信息来源,并能 方便数据库管理系统有效的管理维护这些数据信息。对于这些信息的关系描述 以及基于函数关系的规范化过程具体见3 5 数据库系统的建立与实现 3 3 非结构化光学信息 相对应结构化数据的另一类数据则为非结构化的数据,组成这种数据的元 素之间并没有明显的相互依赖关系。比如文献、新闻的全文内容等这一类型的 数据,组成它们的基本元素是中文词组或英文的单词,它们之间并没有直接的 联系。原始的光学数据中的绝大部分数据量是属于非结构化的数据,如光学文 献、光学专著、专利描述、产品描述等等。对于非结构化的数据如何进行有效 检索至今没有成熟的理论与产品,同时由于这一类型数据在总的数据中所占的 比例非常大,因此如何实现对非结构化光学数据的有效检索是本课题的一个核 心问题。另外在寻找这个闯题的解决方法上也必须考虑本实验室以及该课题的 具体情况。 我们把光学文献的全文看成一个数据,则组成该数据的元素为汉语的字和 词,以及英文的单词。从某种意义上来说,这样的数据也可以被视作为结构化 数据,即其数据元素以线性方式串联成一个文献全文的数据。若以此为基础建 立文献数据库,则对其进行数据检索的方法一般采用全文比较匹配的方法。我 们可以估计一下该方法的检索效率。设数据库中的文献数量为n ,同时每篇文 献的平均长度为5 0 0 0 字,则对于检索条件中的每一个检索关键字需要进行的比 较次数为: h 。5 1 0 3 n 即检索效率为 7 7 5 x 1 0 3 np e rk e y w o r d 若数据库中的文献数量较大,则该方法需要较多的比较次数才能找到相匹 配的内容,而且使用该方法时,检索时间与数据库中的文献数量成正比。因此, 若把文献全文数据看成结构化数据并进行检索,并不适合本系统的需要。 在综合分析了这一问题之后,我们可以找出本系统实现上的一些特点,以 及与其他综合性全文检索系统之间的差别: ( 1 ) 本实验室负责了基于w e b 的光学信息数据检索系统硬件部分的架 设,包括数据库服务器与网络服务器。限于经费条件,无法购置昂 贵的硬件设各,但同时又需要该搜索引擎具有较高的搜索效率,因 1 6 此全文比较匹配型的搜索引擎不适合在本系统中采用。 ( 2 ) 本系统的主要搜索内容集中在光学相关专题上,信息量有限( 相对 于g o o g l e 或者y a h o o 等一类综合性全文搜索引擎) ,而且时效性要 求并不是很高。因此有条件对原始数据进行一定的预处理,以节约 最终面向用户的检索所耗费的时间。 根据系统的以上特点,我们提出了一套新的思路和步骤来有效的处理非结 构化光学信息的检索问题,其核心思想即把非结构化的光学信息通过预处理与 分类匹配的两个步骤转化为易于管理且规范的结构化数据。其处理的框图如下: 非 通用关键字词典r 结 检 索 i 光学文章分类8 构 r 筛选。 关 定量分类 。 化 券霉 1 临时关键字表f l , 键 jl ,r 光 学 字 数 光学关键字词典l

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

最新文档

评论

0/150

提交评论