




已阅读5页,还剩76页未读, 继续免费阅读
(计算机科学与技术专业论文)基于知识库的智能搜索引擎的研究与实现.pdf.pdf 免费下载
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
独创性声明 | | u ll l ii i ii llu lli ii ii y 17 8 8 7 5 0 本人声明所呈交的论文是我个人在导师指导下进行的研究工作及取得的研 究成果。尽我所知,除了文中特别加以标注和致谢的地方外,论文中不包含其他 人已经发表或撰写过的研究成果,也不包含为获得北京工业大学或其它教育机构 的学位或证书而使用过的材料。与我一同工作的同志对本研究所做的任何贡献均 已在论文中作了明确的说明并表示了谢意。 签名:堑当勉 日期: 星q ! q 生墨旦 关于论文使用授权的说明 本人完全了解北京工业大学有关保留、使用学位论文的规定,即:学校有权 保留送交论文的复印件,允许论文被查阅和借阅;学校可以公布论文的全部或部 分内容,可以采用影印、缩印或其他复制手段保存论文。 1,j;, 摘要 摘要 互联网的迅速发展和普及导致了网上信息爆炸性增长。如何在互联网上获 得有价值的信息已成为人们日益关注的问题。搜索引擎是以一定的策略在互联 网中发现、搜集信息,对信息进行理解、提取、处理和组织,并为用户提供检 索服务,从而方便了用户快速找到所需信息。但是由于大部分搜索引擎采用基 于关键字匹配的信息检索方式,这种参与匹配的是字符的外形、外在的表现形 式,而不是它们所表达的全部概念,因而经常出现检索不全,答非所问的结果, 在很大程度上影响了搜索引擎的查准率和查全率。本文提出了一种基于知识库 的搜索引擎,以研究实现用户的概念检索。本文主要的研究工作有如下几个方 面: 对搜索引擎的体系结构和工作原理进行了研究和分析,并分析了当前搜索 引擎智能化的研究内容;研究知识库、本体技术及二者之间的关系,提出利用 一种本体技术构建知识库的方法;研究利用知识库进行查询预处理方法,把多 对多的关系转化成多对一的形式,采用与用户有关的概念下的关键字进行扩展, 提高了数据检索的准确率。论文深入分析先进制造技术领域技术知识的特点, 利用本体技术完成先进制造技术领域技术概念知识库的构建与存储模式。通过 引入相似度计算,使网络爬虫在信息搜集方面具体一定的智能性。通过知识库 对用户检索关键字的查询预处理,来实现概念检索。 在上述研究和设计的基础上,本文在n u t c h 开源搜索引擎的基础上进行二 次开发,完成原型系统( k i s e ) 的实现,并给出了核心模块的具体实现过程和实 验结果分析,以验证研究和设计的可行性。 关键词知识库;本体;搜索引擎;概念检索;网络爬虫 北京工业大学t 学硕士学位论文 i i a b s t r a c t 曼曼曼曼皇皇! 寰! 曼! 曼曼曼曼曼曼曼曼鼍曼。一i ii i i 一一一一一一一一一一 一! a b s t r a c t t h er a p i dd e v e l o p m e n ta n dp o p u l a r i z a t i o no ft h ei n t e r n e tl e dt ot h ee x p l o s i v e g r o w t ho fo n l i n ei n f o r m a t i o n h o wt oo b t a i nv a l u a b l ei n f o r m a t i o no nt h ei n t e r a c t h a sb e c o m eag r o w i n gc o n c e r t i s e a r c he n g i n ec a l lf m da n dc o l l e c ti n f o r m a t i o n 晰t l l c e r t a i ns t r a t e g i e s ,u n d e r s t a n d ,e x t r a c tp r o c e s sa n do r a g a n i z et h ei n f o r m a t i o n , a n d p r o v i d eu s e r sw i t hi n f o r n a a t i o nr e t r i e v a ls e r v i c e s ,t h u su s e r sc a nc o n v e n t i e n t l ya n d q u i c k l yf i n dt h ei n f o r m a t i o nt h e yn e e d h o w e v e r , b e c a u s em o s ts e a r c he n g i n e su s e t h ew a yo fi n f o r m a t i o nr e t r i e v a lb a s e do nm a t c h i n gk e y w o r d ,i nt h i sw a y , t h e “n g o fm a r c h i n gi st h ec h a r a c t e r sa p p e a r a n c ea n dt h ee x t e r n a lm a n i f e s t a t i o n s ,i sn o ta l l c o n c e p t se x p r e s s e db yt h e m ,s oo f t e nh a p p e n st h er e t r i e v e dr e s u l t si sn o tc o m p l e t e o r r e l e v a n t ,t oal a r g ee x t e n tt h i sw a y a f f e c t sp r e c i s i o na n dr e c a l lo ft h es e a r c he n g i n e t h ep a p e rp r e s e n t sak n o w l e d g e b a s e ds e a r c he n g i n et or e s e a r c ht h er e a l i z a t i o no f c o n c e p tr e t r i e v a l r e s e a r c ho f t h ep a p e rh a st h ef o l l o w i n gm a i na s p e c t s : t h ep a p e rs t u d i e sa n da n a l y z e st h ea r c h i t e c t u r ea n dw o r k i n gp r i n c i p l eo fs e a r c h e n g i n e ,a n da n a l y z e st h e c u r r e n tr e s e a r c ha r e a so fi n t e l l i g e n ts e a r c he n g i n e r e s e a r c hk n o w l e d g eb a s e ,o n t o l o g yt e c h n o l o g y , a n dt h er e l a t i o n s h i pb e t w e e nt h e m , p r o p o s e da m e t h o do fb u i l d i n gt h ek n o w l e d g eb a s eu s i n go n t o l o g yt e c h n o l o g y s t u d y t h em e t h o do fq u e r yp r e t r e a t m e n tu s i n gk n o w l e d g eb a s e ,c o n v e r tm a n yt om a n y r e l a t i o n s h i pi n t oam a n yt oo n ef o r m e x p a n dk e y w o r du n d e rt h ec o n c e p tr e l a t e dt o t h eu s e r , t oi m p r o v et h ea c c u r a c yo fd a t ar e t r i e v a l a n a l y z e st h ec h a r a c t e r i s t i c so f t e c h n i c a lk n o w l e d g ei nt h ef i e l do fa d v a n c e dm a n u f a c t u r i n gt e c h n o l o g y , a n d c o m p l e t et h eb u i l d i n ga n ds t o r eo ft h ek n o w l e d g eb a s er e l a t e dt o t h ea d v a n c e d m a n u f a c t u r i n gt e c h n o l o g y b yi n t r o d u c i n g t h es i m i l a r i t yc o m p u t a t i o n , t h ew e b c r a w l e rh a sac e r t a i ni n t e l l i g e n c ei n c o l l e c t i o no fi n f o r m a t i o n w i t ht h eq u e r y p r e p r o c e s s i n gt oi n p u t e dk e y w o r d sb yu s e r , s e a r c he n g i n ea c h i e v e sc o n c e p t u a l r e t r i e v a l o nt h eb a s eo fs t u d ya n dd e s i g nm e n t i o n e da b o v e ,w es e c o n d l yd e v e l o pa p r o t o t y p es y s t e mo fs e a r c he n g i n e ( k i s e ) b a s e do nt h en u t c ho p e ns o u r c es e a r c h e n g i n e ,t h ep a p e rg i v e st h ec o n c r e t ei m p l e m e n t a t i o np r o c e s so f t h ec o r em o d u l ea n d t h ee x p e r i m e n t a lr e s u l t st ov e r i f yt h ef e a s i b i l i t yo ft h er e s e a r c ha n dd e s i g n k e yw o r d sk n o w l e d g eb a s e ;o n t o l o g y ;s e a r c he n g i n e ;c o n c e p tr e t r i e v a l ;w e bc r a w l e r n i 北京工业大学t 学硕士学位论文 i v 目录 目录 摘要“i a b s t r a c t i i i 第l 章绪论”1 1 1 课题研究背景l 1 2 国内外研究现状2 1 3 课题来源及研究意义4 1 4 主要研究内容5 1 5 本文的组织结构- 5 第2 章搜索引擎技术”7 2 1 搜索引擎的体系结构7 2 2 搜索引擎的工作原理8 2 3 智能搜索引擎的行为分析8 2 3 1 检索技术的智能化9 2 3 2 检索处理结果的智能化9 2 3 3 检索服务的智能化1 0 2 4 本章小结1 0 第3 章知识库与本体1 1 3 1 知识库概述“1 1 3 1 1 知识“1 1 3 1 2 知识表示1 1 3 1 3 知识库1 2 3 2 本体概述”1 2 3 2 1 本体的定义1 2 3 2 2 本体的类型1 3 3 2 3 本体的建模元语1 3 3 2 4 本体的描述语言1 4 3 3 知识库与本体的关系”1 7 3 4 本章小结18 第4 章基于本体的知识库的构建与存储研究1 9 4 1 基于本体的知识库构建原理1 9 4 1 1 知识库构建方法1 9 4 1 2 知识库构建工具2 1 4 1 3 知识库存储方式2 2 4 2 先进制造技术领域知识分析”2 3 4 2 1 先进制造技术的内涵2 3 4 2 2 概念知识的分类2 3 4 3 概念知识库的构建“2 4 4 3 1 需要注意的问题2 4 4 3 2 构建过程分析2 5 v 北京工业大学工学硕士学位论文 4 3 3 具体实现过程描述2 6 4 3 4 知识库在p r o t 6 9 6 的构建3 0 4 4 概念知识库存储3l 4 4 1 存储方式选择3l 4 4 2j e n a 工具包“31 4 4 3j e n a 存储实现过程“3 2 4 4 4 利用p r o t 6 9 6 的存储实现3 3 4 5 本章小结3 3 第5 章智能搜索引擎系统的研究与设计3 5 5 1 智能搜索引擎系统总体要求3 5 5 2 基于知识库的智能搜索引擎优势3 5 5 3 系统总体结构3 6 5 3 1 表示层3 6 5 3 2 应用层3 6 5 3 3 数据层3 7 5 3 4 知识库支撑层3 7 5 4 系统的工作流程”3 7 5 5 信息资源收集- 3 8 5 5 1 主题资源发现3 9 5 5 2 关于主题网络爬虫4 0 5 5 3 基于知识库的主题网络爬虫4 0 5 5 4 链接地址提取4 3 5 5 5 搜索策略分析4 6 5 6 信息抽取与组织4 8 5 7 基于概念的语义检索”5 0 5 7 1 概念检索简介5 0 5 7 2 概念检索的特点5 0 5 7 3 概念检索模型51 5 7 4 概念检索流程5 2 5 8 本章小结5 3 第6 章系统实现与实验介绍5 5 6 1 系统实现策略5 5 6 2 系统开发平台与开发工具“5 5 6 3 系统部署5 6 6 4 实验演示及结果分析5 8 6 5 本章小结6 1 结论”6 3 参考文献6 5 攻读硕士学位期间发表的学术论文6 9 致谢。7 l v i 第1 章绪论 曼曼曼曼! 曼鼍曼曼曼曼皇曼曼! 皇! 蔓! 曼! 曼! 曼曼曼鼍曼量鼍曼_ ;i i 皇曼曼曼! 曼曼皇! ! 曼曼曼曼曼皇苎曼鼍皇! 曼曼曼! ! ! 曼曼曼曼曼曼皇曼曼曼兰曼鼍曼曼曼蔓曼曼曼量 1 1 课题研究背景 第l 章绪论 互联网的迅速发展和普及导致了网上信息爆炸性增长。如何在互联网上获 得有价值的信息已成为人们日益关注的问题。而以一定的策略在互联网中搜集、 发现信息,对信息进行理解、提取、组织和处理,并为用户提供检索服务,从 而起到信息导航目的的搜索技术能够方便用户快速找到所需信息。因此在 i n t e m e t 上出现了许多方便和帮助用户查找所需信息的搜索引擎,例如百度、 g o o s e 、y a h o o 等。 搜索引擎则是用户在信息海洋中搜寻所需信息的工具,是互联网上不可或 缺的工具和基础应用之一。2 0 0 9 年1 月,中国互联网络信息中心( c n n i c ) 在北 京发布第二十三次中国互联网络发展状况统计报告,报告显示:搜索引 擎、电子邮件和即时通信是互联网上的基础应用。目前使用搜索引擎的比例 6 8 o ,电子邮件应用率是5 6 8 ,即时通信使用率已经达到7 5 3 。目前2 9 8 亿网民中使用搜索引擎的比例是6 8 0 9 6 ,即已有1 5 2 亿人从搜索引擎获益,2 0 0 8 年全年搜索引擎用户增长了5 1 0 0 万人,年增长率达到3 3 6 。在各互联网应用 中位列第四。 此外,报告指出,搜索引擎的使用存在明显的城乡、年龄、学历、收入差 异:城镇网民搜索引擎使用率明显高于农村;2 0 - 4 0 岁网民搜索引擎使用率明 显高于其他人群;学历越高,搜索引擎使用率越高;收入越高,搜索引擎使用 率越高。搜索引擎应用人群的特点决定了它在互联网领域的高商业价值。 可以看出未来的中国互联网中搜索引擎所占有的重要地位。搜索引擎能成 为最受欢迎的服务之一是因为它解决了用户在浩瀚的互联网海量信息中快速定 位信息的瓶颈问题。但是,互联网的信息量呈爆炸趋势增长,几年前全球式搜 索引擎收录的网页量只有几千万页,而现在已经达到几百亿页,且每天以7 5 0 万个的速度增长。数量增加带来的是搜索服务的火热,另一方面,也使传统的 综合性搜索的缺点突出表现出来:采集无针对性、页面失效率高、不能满足特 定专业人群的需要。这类搜索引擎在搜集网络信息上远赶不上网络信息的增长 速度,同时查询的结果集是海量的,经常是几十万笔的资料,看上去很好,但 想找到合适的结果很难。原因是搜索噪音的存在,搜索的信息比较宽泛,传统 的搜索引擎往往不知道用户想要什么,所以返回结果可能是用户不想要的,需 要翻好多页,更换很多关键词,也许最后还不能满足用户的需求。 目前网络上的搜索引擎主要使用两种检索方法髓1 :一类是基于内容分类的 北京1 = 业大学工学硕士学位论文 目录式搜索,另一类是基于关键词匹配的全文搜索。目录式搜索常见于一些门 户网站,y a h o o 就是一个典型的例子,其技术思想是把网站进行树状的归类, 登录的网站至少属于一个类别,且每个站点都有简略的描述。这种技术主要通 过人工发现信息,依靠编目员的知识进行甄别和分类,存在着成本较高、网站 描述十分简略、对网站内部细节的描述能力不够深入等缺陷,最终造成了信息 丢失的现象。基于关键词匹配的搜索是最基本和最常用的方法,它把用户的查 询请求和w e b 页面、文档中的每一个词进行比较,只要发现某个网页中含有这 个关键字符,就将该网页作为查询结果返回给用户。这种方式虽然可以保证查 全率,但却带来了信息过载的问题。 当前搜索引擎所使用的技术都存在难以解决“找信息难 的问题。国内外 许多学者进行了大量的研究,并对现有的检索技术进行了改进。但是这些改进 大都是从搜索算法层面出发,基于数学模型的角度来提高检索的质量,并没有 对所检索的关键词给予语义上的分析和处理。对计算机内部处理而言,关键词 仍然几乎没有任何语义,搜索的性能还是难以得到本质上的提高。造成这种困 难的关键在于搜索引擎缺乏知识处理和理解能力,如何使搜索引擎能够对词意 进行分析与扩展,把信息检索从目前的基于关键词层面提高到基于知识( 或概念) 的层面,使得检索过程由原来的关键词组匹配进化为语义匹配,成为了提高搜 索引擎性能的一条有效途径。 1 2 国内外研究现状 随着i n t e m e t 的迅速发展,人类己步入网络信息时代。面对网络信息量呈指 数增长,如何从这浩瀚的海洋中取得所需要的、真正有用的信息,已成为广大 网络用户共同面临的课题。时代周刊曾如是评论,“因特网与其说把新用户 带入了信息世界,不如说是把他们领进了茫茫无际的大海”。而网络搜索引擎则 是目前解决因特网上信息剧增与人们快速准确检索信息之间矛盾的有力工具。 一般说来,搜索引擎由信息抽取系统和用户界面组成。传统搜索引擎一般 有两种信息检索方式:一种是目录式搜索引擎,这种方式采用目录树分类方式, 用户登录的网站至少属于其中某一个类别。由于使用了人( 专家) 的智力来对网 站进行归纳和分类,所以搜索的信息比较准确,导航质量比较高,但是成本也 较高。此外,对网站的描述十分简略,不能深人网站的内部细节,因此用户查 询不到网站内部的重要信息,容易造成信息丢失,而且由于人工编辑能力有限, 往往导致网站信息陈旧,数据库更新不及时等问题。二是使用全文检索技术, 全文检索技术处理的对象是文本,它能够对大量文档( 这里是大量网页数据) 建 立由字( 词) 到文档的倒排索引,在此基础上,用户使用关键词来对文档( 网页) 第l 章绪论 进行查询时,系统将给用户返回包含该关键词的网页。全文检索是一个很成熟 的技术,它能够解决对网页细节的检索问题,但这又容易导致返回的信息太多, 同时基于关键字匹配的搜索技术有较大的局限性,它不能区分同形异义,其次 不能联想到关键字的同义词口1 。 另外,还有一种常用的搜索引擎是元搜索引擎( m e t as e a r c he n g i n e ) h 1 。元 搜索引擎其自身没有网页搜寻机制,也没有自己独立的索引数据库,但元搜索 引擎可以将多个独立搜索引擎集成在一起,并对各个独立搜索引擎返回的检索 结果进行整理、去重,然后反馈给用户,所以元搜索引擎可以大大提高检索覆 盖面,但元搜索引擎从本质上并不能克服上述两种搜索引擎所固有的弊端。 当前搜索引擎所使用的技术都是在解决难以“找信息难”的问题,造成这 种困难的关键在于搜索引擎缺乏知识处理和理解能力,把信息检索从目前基于 关键词层面提高到基于知识( 或概念) 层面,是解决问题的根本和关键。 近年来知识库系统( k b s ) 哺1 成为数据库系统、人工智能、知识工程等领域 研究的热点,知识库的研究取得了重大进展。知识库系统是由知识库、推理机、 知识管理系统、知识获取子系统和人机交互界面等五部分组成。其中知识库和 推理机是知识库系统的核心部分。知识库技术是知识型人工智能应用系统的基 础,它使计算机应用系统有了更多的智能,如智能搜索引擎的开发。 智能搜索引擎技术是基于目前i n t e m e t 上信息的无组织、异构、分布和动态 的特点提出的,用于解决信息检索中“信息过载”和“资源迷向等问题,以实 现i n t e m e t 信息个性化主动服务。为了克服关键词检索和目录查询的缺点,应该 用自然语言理解技术进行自然语言智能答询。它将信息检索从目前基于关键词 层面提高到基于知识( 或概念) 层面,对知识有一定的理解与处理能力,能够实现 分词技术、同义词技术、概念搜索、短语识别以及机器翻译技术等1 。 下面就是当前在基于知识库的智能搜索引擎中所采用的一些自然语言理解 技术。 1 ) 智能分词技术盯1 。关键词查询的前提是将查询条件分解成若干关键词。 对英文而言,一个单词就是一个词,但中文词之间的关系却复杂得多,主要问 题是中文词与词之间没有界定符,需要人为切分,但人为的切分有很大的灵活 和操作性,往往容易产生词义失真。此外,汉语中存在大量的歧义现象,对几 个字分词可能有好多种不同的结果,而且简单的分词往往会完全曲解甚至误解 用户查询的真正意图,造成误检和漏检。因此,可以利用语义知识库嘈3 进行总 结,获得每个词出现的概率以及词与词之间的关联信息,就可能有效地排除各 种歧义,大幅度提高分词的准确性,从而准确地表述查询请求和文档信息。 2 ) 同义词处理m 1 。汉语词语之间复杂性的另一个方面是同义词的问题,同一 个词组往往有许多不同的意思,处理同义词的一种方法是在语义知识库中人工 北京t 业大学工学硕士学位论文 构造同义词表,对专用领域的搜索引擎,这种方法是非常有效的。另外一种方 法是从语义知识库中自动取得同义词关系,给出一个查询的关键词,搜索引擎 能主动“联想”到与其同义或意思相近的词。 3 ) 短语识别技术睁1 。用短语描述查询请求的情况很常见,但是因为汉语词 组的复杂性,所以在中文搜索引擎中,我们不能像英文词组一样简单的将中文 短语分离成词组。譬如查询条件“河南的大学”,“河南 和“大学 存在一定 的关系,但如果不将“河南”和“大学联合起来作为一个短语查询,那么除了 选出关于“河南的大学”的文档之外,还将查出有关“河南”和“大学的冗 余文档。因此,短语识别是智能化搜索引擎应当解决的一个重要问题。 基于知识库的智能搜索引擎作为一种高效搜索引擎技术n 们,在当今网络信 息时代日益引起人们的关注。我们提出基于知识或概念层面来提高搜索引擎智 能水平的方法,建立一种基于内容的搜索引擎,通过搜索引擎技术与语言学的 结合,开发检索专用字典或是通过全文扫描和词间关系的分析,实现搜索引擎 对搜索词在语义层次上的理解。知识库系统是人工智能的一个重要分支,是近 年来发展起来的一门综合性的新兴学科。随着计算机科学和人工智能技术的迅 速发展,知识库系统将在智能搜索引擎中得到广泛应用n u 。 1 3 课题来源及研究意义 搜索引擎的性能可以用衡量传统信息检索系统性能的两个参数查全率和查 准率来衡量。查全率是检索出的相关文档数与文档库中所有的相关文档数的比 率;查准率是检索出的相关文档数与检索出的文档总数的比率。 建立各专业领城的概念检索系统是搜索引擎的重要研究方向之一,是搜索 引擎研究领域两个发展方向专业化和智能化的结合n 引。我们知道,同一个概念 在不同的领域会有不同的含义,导致了综合搜索引擎返回的信息中有用信息含 量低即信息查准率低。如把该概念的检索限制在某一学科内,再进一步限定在 某一专业、甚至专业的一个小类,例如“花 ,在植物学领城是无歧义的,这样 将可以大大提高查准率。 目前的大多数搜索引擎都采用字符串匹配的检索方法,这种方法使用的是 机械的关键词匹配技术,采取全文检索的方法即检索全文中是否存在关键字符, 只要发现含有这个关键字符,就将该文献或网页作为查询结果返回给用户。由 于参与匹配的是字符的外形、外在的表现形式,而不是它们所表达的全部概念, 因而经常出现检索不全,答非所问的结果,在很大程度上影响了搜索引擎的查 准率和查全率。同时,在很多情况下,用户很难简单用关键词或关键词串来真 实地表达真正需要检索的内容。另外,对同一概念的检索,不同的用户可能使 第1 章绪论 用不同的关键词来查询。这两方面原因造成的直接结果就是返回大量的无关信 息。因此,增强搜索引擎的知识处理能力和理解能力,已成为搜索技术未来的 发展目标与趋势n 引。 本课题来源于北京市科学技术委员会一北京市技术转移中心信息交互平台 项目。目标是解决信息检索中“信息过载和“资源迷向”等问题,通过建立 先进制造技术领域方面的知识库,研究基于知识( 或概念) 检索的原型设计与实 现,从而提高信息搜索的查全率和准确率。 1 4 主要研究内容 本文的主要研究内容如下: 1 ) 通过研究和分析先进制造技术n 钔领域中的技术知识、学科体系,以及目 前领域知识库建立的技术,提出利用本体技术表示知识和建立先进制造技术领 域知识库的方法。 2 ) 研究如何利用知识库进行查询预处理。概念检索【1 6 】能够克服自然语言中 词的同义现象,但是却不能克服词的歧义现象,因此不能从根本上提高w e b 信 息检索的性能;如何建立一种查询扩展机制,在消除自然语言中同义现象的同 时,又能够克服词的歧义现象;对于一个关键字,如何能够把关键字与概念之 间能够把原来多对多的关系转化成多对一的形式,从而可以仅仅采用跟用户有 关的概念下的关键字如同义词、近义词、上下位词等进行扩展;如何将知识库 应用于查询预处理,以提高数据检索的准确率。 ? 3 ) 网络爬虫( w e bc r a w l e r ) 智能化研究n 钉。研究利用知识库,通过人工智 能的算法,使得网络爬虫能够具有学习的功能,并采取最有效的搜索策略,从 i n t e r n e t 上自动收集、整理的领域相关信息。 1 5 本文的组织结构 本文共分五章,具体章节安排如下: 第1 章:绪论。本章探讨了课题的研究背景,课题来源及研究意义,并对 搜索引擎在国内外的研究现状进行了分析。 第2 章:搜索引擎技术。本章主要介绍搜索引擎的基本原理及智能搜索引 擎的行为分析。 第3 章:知识库与本体。本章首先介绍本体和知识库的基本概念,然后分 析二者之间的关系,最后阐述基于本体技术的知识库构建方法。 第4 章:基于本体的知识库的构建及存储。本章首先对先进制造技术领域 知识进行分析,进而利用本体技术构建先进制造技术领域的知识库。 北京_ t 业大学工学硕士学位论文 第5 章:智能搜索引擎系统的研究与设计。本章主要构建一个基于知识库 的智能搜索引擎的原型系统。首先提出系统的体系结构、然后详细阐述了核心 模块的设计机制,并详细说明了信息资源的收集过程和概念检索的过程。 第6 章:智能搜索引擎系统的实现与实验。在n u t c h 开源搜索引擎基础上 进行系统分析与设计,完成基于知识库的智能搜索引擎的原型系统( k i s e ) 的实 现,通过系统部署、运行,验证了系统的可行性。 结论:总结了本课题的研究情况,并对下一步研究提出了设想。 第2 章搜索引擎技术 第2 章搜索引擎技术 2 1 搜索引擎的体系结构 所谓搜索引擎,是一种给用户提供互联网信息查询服务的搜索工具。它是 按照一定的策略在i n t e m e t 中进行搜索和发现信息,并对信息进行提取、组织和 处理,为用户提供检索服务,起到导航信息的作用。搜索引擎会在i n t e m e t 上主 动搜索网页信息并将按规则其进行索引,索引内容存储在可供查询的数据库中, 这样当用户输入关键字进行查询时,搜索引擎就会反馈给用户包含关键字信息 的所有网址链接。搜索引擎主要由搜索器、索引器、检索器和用户接口四大部 分组成,其体系结构n 刚如图2 1 所示。 图2 - i 搜索引孥的体系结构 f i g u r e2 - 1a r c h i t e c t u r eo fs e a r c he n g i n e 搜索引擎系统结构的搜索器( c r a w l e r ) 俗称网络蜘蛛或网络爬虫,是一个自 动收集网页的系统程序,其功能是日夜不停地在互联网上漫游,搜集信息。它 是尽可能多、尽可能快地搜集各种类型的新信息,还要定期更新已经搜集过的 旧信息,以避免出现死链。 索引器( i n d e x e r ) 的功能是理解搜索器所搜索的信息,由分析索引系统程序 对收集回来的网页进行分析,提取相关网页信息( 包括网页所在u r l 、编码类型、 页面内容包含的关键词、关键词位置、生成时间、大小、与其他网页的链接关 系等) ,根据一定的相关度算法进行大量复杂计算,得到每一个网页针对网页内 北京工业大学工学硕士学位论文 容中及超链接中每一个关键词的相关度( 或重要性) ,然后用这些相关信息建立 网页索引数据库。 检索- 器r ( s e a r c h e r ) 的功能是针对用户的查询请求在索引库中快速检出文档, 采用一定的信息检索模型进行文档与查询的相关度评价,对将要输出的结果进 行排序、聚类等操作,并实现某种用户相关性反馈机制。 用户接口彻) 的作用是输入用户查询,显示查询结果,提供用户相关性反 馈机制。u i 的主要目的是方便用户使用那个搜索引擎,高效率、多方式地从搜 索引擎中得到有效、及时的信息。u i 的设计和实现使用人机交互的理论和方法, 以充分适应人类的思维习惯。可以分为简单接口和复杂接口两种。简单接口只 提供用户输入查询串的文本框;复杂接口可以让用户对查询进行限制,如逻辑 运算( 与、或、非;+ 、) 、相近关系( 相邻;n e a r ) 、域名范围( 如e d u 、c o r n ) 、出 现位置( 如标题、内容) 、信息时间、长度等。 2 2 搜索引擎的工作原理 搜索引擎的工作原理n7 1 ,可以分为3 步:从互联网上抓取网页、建立索引 数据库、在索引数据库中搜索排序。 1 ) 从互联网上抓取网页,就是利用能够从互联网上自动收集网页的s p i d e r 系统程序,自动访问互联网,并沿着任何网页中的所有u r l 爬到其他网页,重 复这个过程,并把爬过的所有网页收集回来。 2 ) 建立索引数据库,就是由分析索引系统程序对收集回来的网页进行分析, 提取相关网页信息,根据一定的相关度算法进行大量复杂计算,得到每一个网 页针对页面内容中及超链接中每一关键词的相关度( 或重要性) ,然后用这些相 关信息建立网页索引数据库。 3 ) 在索引数据库中搜索排序,就是当用户输入关键词搜索后,由搜索系统 程序从网页索引数据库中找到符合该关键词的所有相关网页,按照相关度数值 排序,相关度越高,网站排名越靠前。最后,由页面生成系统将搜索结果的链 接地址和页面内容摘要等内容组织起来返回给用户。 2 3 智能搜索引擎的行为分析 搜索引擎为人们发现、搜集、利用网络信息提供了有效的工具,在一定程 度上满足了人们信息获取的基本需求,但是其固有缺陷也在一定程度上影响了 人们获取信息的效率和深度。据r o p e r s t a r e h 的调查指出,7 1 的网络用户在使 用搜索引擎室遇到过麻烦,平均搜索1 2 分钟后发现搜索受挫,搜索受挫中4 6 都是因为链接错误,8 6 的用户感到应当超巨星更有效的、准确的信息搜索技术。 第2 章搜索引擎技术 曼舅曼皇! 曼苎| 1mi 皇! 皇曼曼曼! 曼苎鼍曼曼曼曼! 曼皇曼皇曼! 曼曼曼曼鼍曼曼皇曼曼曼皇皇! 寰曼曼舅曼! 量曼量 传统搜索引擎采用关键词的机械匹配,缺乏知识处理能力和;理解能力, 即搜索引擎无法处理一些在用户看来是非常普遍的常识性知识,更无法处理随 用户不同而变化的个性化知识、随地域不同而变化的区域性知识以及随领域不 同而变化的专业性知识等。为提高搜索引擎的搜索性能,并随着人工智能、自 然语言处理、信息组织与检索等技术的发展,开发智能搜索引擎已受到广泛关 注,并将作为第三代搜索引擎登上舞台n 引。 2 3 1 检索技术的智能化 1 ) 机灵的网络蜘蛛n 钔。网络蜘蛛通过对网络的链接访问能够实现对i n t e m e t 信息的遍历。它定期根据预先设定的地址查看对应网页,若网页发生变化则重 新获取该网页,否则根据该网页中的链接继续访问。而智能搜索引擎的设计网 络蜘蛛不仅能遍历整个i n t e m e t ,自动完成在线信息的索引,还能通过启发式学 习采取最有效的策略,选择最佳时机从i n t e m e t 上自动收集、整理信息。同时, 它能够对网页内容的相关性及该网页所包含的链接质量等做出判断,质量较差 或内容不大相关的网页将不被选取,从而保证信息来源的质量,提高检索效果。 2 ) 自然语言理解技术圆2 钔。借助自然语言理解技术,智能搜索引擎能够是想 基于知识( 或概念) 层面的检索,并对知识有一定的理解与处理能力,能够实现 分词技术、同义词技术、概念搜索、短语识别以及机器翻译技术等。因而智能 搜索引擎具有信息服务的智能化、人性化特征,允许用户采用自然语言进行信 息检索,并能为用户提供更方便、更确切的搜索服务。 3 ) 检索对象形式的多样化1 。智能搜索引擎具有跨平台工作和处理多种混 合文档结构的能力,既能处理h t m l ( h y p e r t e x tm a r k u pl a i l g u a g e ,超文本标志 语言) ,又能处理s g m l ( s t a n d a r df o rg e n e r a lm a r k u pl a n g u a g e ,通用标志语言 标准) 和x m l ( e x t e n s i b l em a r k u pl a n g u a g e ,可扩展标志语言) 文档以及其他类型 的文档,如w o r d 、w p s 等。另外,智能搜索引擎还支持多语言检索,允许用 户用中文输入查询英文或其他语言的信息。 4 ) 人t 机编混合型目录妲劓。它呈两种形式:人工进行质量控制的机编目录 和运用智能技术检索的手编目录。这种混合型目录能够弥补机编目录和手编目 录的缺憾,提高网页索引覆盖率。 2 3 2 检索处理结果的智能化 1 ) 测试群体用户使用网络的方式提高检索结果的相关度恤瑚1 。例如,访问量 排序和基于超链接的排序。搜索引擎记录其所搜索到的w e b 页面的被点击次数 ( 即访问量) ,从而判断该w e b 页面被访问的频率。这是一种由公众集体确认网 北京工业大学工学硕士学位论文 站重要性的方法,具有一定的客观性与公众性。而基于超链接的排序则是利用 w e b 页面之间的引用关系,综合考虑w e b 页面被引用次数以及所引用页面的相 关度来判断本页面的重要性。 2 ) 检索结果的转换过滤1 。即根据一定条件对检索结果进行优化过滤的过 程,如信息格式的支持与转换。采用信息过滤技术可减少重复信息和垃圾信息, 应用聚类技术对检索结果进行联机聚类处理,从而“精简 检索结果。 3 ) 检索结果的知识提取。搜索程序具有机械性及其对网络用户的透明性, 而网络用户对搜索程序所规定的概念和语词符合一无所知,这就使用户的检索 具有一定的模糊性,进而降低检索结果的满意度。因此,智能搜索引擎通过对 用户需求进行分析研究,跟踪用户的兴趣爱好,建立用户需求模型库,并对检 索结果进行一定程度上的知识提取,完成检索结果的集成。 2 3 3 检索服务的智能化 在检索服务方面,检索质量的提高依赖于对网络用户信息需求的分析与挖 掘,最基本的在于确定提问词中词语在不同领域的含义。比如对“b o n d 的检 索,不同的用户会有不一样的需求,这就需要分析用户检索的是“金融债券 ( f i n a n c i a lb o n d ) ,“化学键( c h e m i c a lb o n d ) ,还是“人名( j a m e sb o n d ) 。只有理 解提问词的含义范围,理论上将检索范围缩小到一个适当的相关范围,检索才 能精确。同时,试图理解用户的意图,并相应地将检索结果分类编排,便于用 户的选择利用圆1 。 2 4 本章小结 本章首先研究了搜索引擎的基本概念、体系结构和工作原理;然后,分析 了搜索引擎的行为智能化,包括检索技术的智能化、检索处理结果的智能化和 检索服务的智能化。 第3 章知识库与本体 3 1 知识库概述 3 1 1 知识 第3 章知识库与本体 知识,作为一个被广泛使用的词,根据韦伯斯特( w e b s t e r ) 词典1 9 9 7 年的定 义,知识是通过实践、研究、联系或调查获得的关于事物的事实和状态的认识, 是对科学、艺术或技术的理解,是人类获得的关于真理和原理的认识的总和。 总之,知识是人类积累的关于自然和社会的认识和经验的总和。 从计算机科学的角度看,知识是分析处理信息的结果,在这个过程中,数 据信息经过分析、比较、整合,结合成有意义的资源m 1 。数据、信息
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 2025年医学检验(师)考试彩蛋押题及参考答案详解(达标题)
- 2025年超声科出科理论考试试题(附答案)
- 委托法人代表合同
- 2025年营养与健康政策试题及答案
- 2025年全国“安全生产活动月”《安全知识》备考模拟题(附答案)
- 2025年免疫规划试题(附答案)
- 夜间建筑配色方案设计图
- 建筑垃圾围护方案设计图
- 2025年科目一考试题库(附答案)
- 播种机维修创新创业项目商业计划书
- 2025至2030中国军用降落伞行业运营态势与投资前景调查研究报告
- 孕妇孕期心理健康管理策略
- 血尿临床评估与健康管理
- 毕业设计(论文)-芦苇草方格铺设装置设计
- 手术后疼痛评估与护理团体标准
- 五金公司质量管理制度
- 中试平台运营管理制度
- 2025年中国汽车用PTC电加热器数据监测报告
- 海参池养殖合作合同协议书
- 日本《大肠癌治疗指南》解读
- 颞下颌关节肿瘤
评论
0/150
提交评论