




已阅读5页,还剩68页未读, 继续免费阅读
(计算机应用技术专业论文)基于oracle+text的电子银行知识库系统设计.pdf.pdf 免费下载
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
摘要 摘要 呼叫中心的出现大大提高了企业和用户之间沟通的有效性和缩短了响应时 间。通过2 0 多年的发展,呼叫中心已经从“电话中心”、“自动应答”发展到 现在的“计算机电话集成c t i ”时代,其技术能力已经非常成熟和稳定。“硬 件”具备,但是软件能力却远远不能满足要求:即座席的服务水平难以提高, 于是知识库管理系统应运而生。目前,呼叫中心都开始认识到知识管理的重要 性,纷纷建立规模不等、平台多样的知识库管理系统。 信息检索是知识库管理系统的一个核心主题,帮助座席发现信息是知识库 提供的核心服务之一。全文信息检索就是根据互联网信息的特点而发展起来的 一种检索方式,是利用网络信息资源的一种有效手段。所谓全文检索( f u l lt e x t r e t r i e v a l ) ,是以各类数据诸如文字、声音、图像等为主要处理对象,提供按照 数据资料的内容而不是外在特征来实现的信息检索手段。它通过提供快捷的数 据管理工具和强大的数据查询手段,帮助人们进行大量信息资料的整理和管理 工作,使人们能快速方便地查到他们需要的任何信息。 o r a c l et e x t 作为o r a c l e 9 i 的一个组件,提供了强大的全文检索功能,用 o r a c l e 9 i 做后台数据库,就可以充分利用其全文检索技术,构建复杂的大型文 档管理系统。电子银行知识库是工商银行客户服务中心内部提供给客户代表使 用的知识管理系统,采用全文检索工具后,检索精度和效率大大提高,缩短了 客户代表查询文档的时间并提高了客户代表的服务水平。本文通过对o r a c l e t e x t 在电子银行知识库全文检索功能中实施过程及性能测试的研究证明了全 文检索技术能够高效地解决海量非结构化数据的查询问题。 关键词全文检索;o r a c l et e x t ;电子银行知识库 北京丁= 业人学t 学硕十学位论文 a b s t r a c t w h e nc a l lc e n t e rw a sb o r n , i ti m p r o v e de f f i c i e n c yo fc o m m u n i t yb e t w e e n e n t e r p r i s ea n dp e o p l ea n ds h o r t e nt h er e s p o n s et i m e a f t e r2 0y e a r sd e v e l o p m e n t ,c a l l c e n t e rh a sb e e nc h a n g e df r o mt e l p h o n ec e n t e ra n da u t or e s p o n s ei n t oc o m p u t e r t e l e p h o n ei n t e g r a t i o ne 1 - a t h et e c h n i c a la b i l i t yh a sb e e ng r o w n u pn o w w h i l et h e h a r d w a r ei sg r e a t j h es o f t w a r ei sn o ts a t i s f i e dw i t hb yf a r t h a ti st os a yt h es e r v i c e l e v e lo f c u s t o ma g e n th a sn o ti m p r o v ee a s i l y , s ot h ek n o w l e d g em a n a g e m e n tc a m et o b i r t h u pt on o w , al o to fc a l lc e n t e r sh a v er e c o g n i z e dt h ei m p o r t a n to fk n o w l e d g e m a n a g e m e n ta n da r es e t i n gu pk n o w l e d g em a n a g e m e n ts y s t e m so fv a r i o u ss i z ea n d d i f f e r e n tp l a t f o r m i n f o r m a t i o nr e t r i e v a li sak e ya r t i c l eo fl i b r a r ya n di ti sak e ys e r v i c eo f k n o w l e d g em a n a g e m e n ts y s t e mt h a th e l pc u s t o ma g e n t t of i n di n f o r m a t i o n f u l lt e x t r e t r i e v a li sar e t r i e v a lm e t h o dd e v e l o p i n gw i t ht h ef e a t u r eo fi n t e r a c ti n f o r m a t i o n , a tt h es a m et i m e ,i ti sae f f e c t i v em e t h o do fu s i n gi n f o r m a t i o nr e s o u r c e t h e s o - c a l l e d f u l lt e x tr e t r i e v a l ”i sr e g a r d i n ga l lk i n d so f d a t aa so p e r a t i o no b j e c t ,s u c h a st e x t ,s o u n da n di m a g e ,a n da c c o r d i n gt h ec o n t e n ta sr e t r i e v a lm e t h o db u tn o tt h e e x t e r n a lf a c t o r i th e l pp e o p l en o to n l ym a n a g el a r g eq u a n t i t i e si n f o r m a t i o nb u ta l s o f i n dt h e mw h a tt h e yw a n tt h r o u g hg i v e d i g i t a lm a n a g e m e n tt o o l sa n ds t r o n g i n f o r m a t i o nr e t r i e v a lm e t h o d s a sac o m p o n e n to fo r a c l e 9 i ,o r a c l et e x tp r o v i d e ss t r o n gf u l lt e x tr e t r i e v a l f u n c t i o n b a s e do r a c l e 9 i ,l a r g ed o c u m e n tm a n a g e m e n ts y s t e mc a nb eb u i l tb yi t s a d v a n t a g eo ff u l l t e x tr e t r i e v a lt e c h n o l o g y k n o w l e d g em a n a g e m e n ts y s t e mo f e - b a n ki sam a n a g e m e n ts y s t e mo ft h ei c b c sc u s t o m e rs e r v i c ec e n t e rp r o v i d e dt o c u s t o m e ra g e n t p r e c i s ea n de f f i c i e n c yf o rr e t r i e v i n ga r ei m p r o v e dg r e a t l y , t h e a g e n t s t i m eo fq u e r y i n gd o c u m e n t sa r es h o r t e na n dt h es e r v i c el e v e lo fa g e n ta r e i m p r o v e db yu s i n gf u l lt e x tr e t r i e v a lt o o l s t h ea r t i c l ep r o v et h a t f u l lt e x t r e t r i e v a l ”t e c h n o l o g yc a nr e s o l v el a r g eq u a n t i t i e sn o n - s t r u c t u r a l d a t ar e t r i e v a l p r o b l e me f f e c t i v e l yt h r o u g hr e s e a r c h i n gp r o c e s sa n dp e r f o r m a n c eo fu s i n go r a c l e t e x ti nt h ek n o w l e d g em a n a g e m e n ts y s t e mo f e b a n k k e y w o r d s f u l lt e x tr e t r i e v a l ;o r a c l et e x t ;k n o w l e d g em a n a g e m e n ts y s t e mo f e b a n k 一- 独创性声明 本人声明所呈交的论文是我个人在导师指导下进行的研究工作及取得的研 究成果。尽我所知,除了文中特别加以标注和致谢的地方外,论文中不包含其他 人已经发表或撰写过的研究成果,也不包含为获得北京工业大学或其它教育机构 的学位或证书而使用过的材料。与我一同工作的同志对本研究所做的任何贡献均 已在论文中作了明确的说明并表示了谢意。 签名: 因雇日期:迦车! ! 日 关于论文使用授权的说明 本人完全了解北京工业大学有关保留、使用学位论文的规定,即:学校有权 保留送交论文的复印件,允许论文被查阅和借阅:学校可以公布论文的全部或部 分内容,可以采用影印、缩印或其他复制手段保存论文。 ( 保密的论文在解密后应遵守此规定) i 雾 塑日期 第l 章绪论 第1 章绪论 1 1课题研究背景 电子银行知识库系统是中国工商银行9 5 5 8 8 电话银行中心提供给座席使用 的知识管理系统,旨在为电话银行座席提供解答客户问题的文件依据。在没有 知识库系统的情况下,座席往往将各种制度、业务规定、收费办法等文件打印 出来,每人准备一沓文件放在手边随时翻阅。这样做存在以下缺点:首先,客 户服务效率低。如今,业界把呼叫放弃率和每通电话通话时长作为衡量呼叫中 心( c f l lc e n t c r ) 服务水平的重要指标。如果座席接通客户电话后要浪费大量时 间用于翻找纸质资料,势必要影响其他电话的接通率;其次,座席打印出来的 资科来源不明,很难保证质量,对电话银行中心对外服务口径的一致性造成影 响,严重时还会造成纠纷和投诉;再次,学习材料不能有效共享制约了座席服 务水平的提高,也不利于入力资源的合理分配。最后,工行上市后,成本控制 成为重中之重。电话银行中心总中心现有座席5 0 0 名,如果没有打印1 0 0 张纸 的材料,将耗费纸张达5 万张,造成了资源的浪费。 随着工商银行一体化电话银行系统在功能、性能及系统架构上的完善和提 升,全国各被托管行电话银行业务陆续完成了托管上挂工作。一体化电话银行 投产从黑龙江上挂开始,运行了近四年时间,陆续上挂了北京、青海、宁夏、 甘肃、内蒙、辽宁、吉林等托管省;建设了南方托管行,对上海、海南等南方 受托管省份的电话银行进行了改造。大规模推广导致电话银行服务范围和业务 品种迅速扩大,座席员培训的成本成倍增加。托管省的上挂要求托管行的座席 在了解标准业务的同时还要掌握各托管省的特色业务。综上所述,电话银行需 要一套高效的知识库系统的支持,以便满足座席员应付客户咨询和业务指导方 面的需要。 鉴于上述现实情况,电子银行知识库项目正式立项并启动开发工作。 1 2国内外文献综述 经过几年的发展,全文检索从最初的字符串匹配程序已经演进到能对超大 文本、语音、图像、活动影像等非结构化数据进行综合管理的大型软件l j 】。由 于内涵和外延的深刻变化,全文检索系统己成为新一代管理信息系统的代名词, 衡量全文检索系统的基本指标也逐渐形成规范 首先,关注查全率,即系统在进行某一检索时,检索出的相关资料量与系 统资料库中相关资料总量的比率。查准率则是保证我们找到最有用资料的一个 北京t 业人学t 学硕十学仔论文 关键,是系统在进行某一检索时,检索出的有用资料数量与检索出资料总量的 比率【2 】。检索速度或者说响应时间是提高工作效率的保障,指的是从提交检索 课题到查出资料结果所需的时间。最基本的检索速度是应该达千万汉字,秒级 响应。还有诸如收录范围( 所查找的范围) 、用户负担( 用户在检索过程中付出 精力的总和) 、输出形式( 输出信息表现形式) 等指标也是衡量全文检索系统 优劣的要素。 搜索引擎应该是全文检索技术最主要的一个应用。目前,搜索引擎的使用 已成为排在收发电子邮件之后的第二大互联网应用技术【3 1 。搜索引擎起源于传 统的信息全文检索理论,即计算机程序通过扫描每一篇文章中的每一个词,建 立以词为单位的倒排文件,检索程序根据检索词在每一篇文章中出现的频率和 每一个检索词在一篇文章中出现的概率,对包含这些检索词的文章进行排序, 最后输出排序的结果。全文检索技术是搜索引擎的核心支撑技术。 目前搜索引擎领域的商业开发非常活跃,各大搜索引擎公司都在投巨资研 制搜索引擎系统,同时也不断地涌现出新的具有鲜明特色的搜索引擎产品,搜 索引擎已经成为信息领域的产业之一【4 】。在这种情况下,对搜索引擎技术相关 领域的学术研究得到了大学和科研机构的重视。如s t a n f o r d 大学在其数字图书 馆项目中开发了g o o g l e 搜索引擎,在w e b 信息的高效搜索、文档的相关度评 价、大规模索引等方面作了深入的研究,取得了很好的成果。 国内先后有北京大学、清华大学、国家智能研究中心等高校和研究单位对 搜索引擎技术开展研究,并开发出了几个较好的系统。如由北京大学计算机系 网络研究室开发的“天网”中英文搜索引擎 ( h t t p :p c c m s p k u e d u c n :8 0 0 0 g b i n d e x p h p ) ,在系统规模及系统性能方面达到了 国外中型搜索引擎系统的技术水平,为国内用户提供了很好的互联网搜索服务, 受到了用户的好评。 1 。3 国内外知识库系统的发展情况 自8 0 年代初期,欧美的各大电信、银行、航空等企业为了提高和客户沟通 的效率,纷纷上马了呼叫中心( c a l lc e n t e r ) ,其实也就是电话服务中心,其优 越特性非常明显,旋即国内企业也跟踪上马,企业拥有8 0 0 、1 6 8 0 、9 5 0 0 0 等这 样的服务号码已经成为一种时服务品质的保证乃至时髦的表现。 呼叫中心的出现大大提高了企业和用户之问沟通的有效性和缩短了响应时 间,甚至可以直接通过呼叫中心进行业务交割,单位时间企业利润得到提升, 品牌形象也在良好的服务过程中得到巩固。 第1 章绪论 通过2 0 多年的发展,呼叫中心已经从“电话中心”、“自动应答”发展到 现在的“计算机电话集成c 1 r i ”时代,其技术能力已经非常成熟和稳定。“硬 件”具备,但是呼叫中心往往会面临下面这样一些问题: ( 1 ) 用户可能询问的问题范围会很广泛; ( 2 ) 呼叫中心要对提供给用户的信息负责,甚至是法律责任; ( 3 ) 用户总是希望能立刻得到问题的答案,座席工作紧张压力大; ( 4 ) 员工流动率高,根据p u r d u eu n i v e r s i t y1 9 9 9 年的呼叫中心评估报告, 呼入中心全职员工的年流动率为2 6 ,兼职员工为3 3 ; ( 5 ) 新员工要掌握的知识体系庞大复杂; ( 6 ) 不断降低平均呼叫处理时间的压力以及持续的效率衡量、跟踪和评估 等。 面对这些挑战,在呼叫中心实施知识管理能带来以下的部分( 或全部) 好 处:降低新员工的培训时间和成本;减少呼叫处理和响应时间;提升员工士气 和满意度:为用户提供更准确一致的信息;面临业务流程,产品和信息变更时 更高的灵活性;降低转移到二线支持或h e l pd e s k 的呼叫数量。 截至目前,银行、电信和各大跨国公司的呼叫中心都开始认识到知识管理 的重要性,纷纷建立规模不等、平台多样的知识库管理系统。 所谓知识库就是具有下列特征的线上资源( 放在i n t r a n e t 上) : ( 1 ) 内容全面: ( 2 ) 准确并能及时更新; ( 3 ) 很好的结构化; ( 4 ) 便于使用,不仅易用而且好用; ( 5 ) 内容充分互联( 通过超链接方式) ; ( 6 ) 有搜索、索引、辅助浏览等支持工具: ( 7 ) 使用内容管理或其他系统进行内容创建和维护。 从知识库的特点可以看出,只是把w o r d 格式的文件转换成h t m l 格式并 放在网上并不算是建立了真正意义的知识库。在呼叫中心实施知识管理需要解 决两方面的问题:建立高效的流程,确保正确的知识可以被抓取、管理并保持 更新;知识管理系统必须能支持这些流程,先进的i t 系统是基于知识管理的呼 叫中心的核心。解决了这些问题,企业就拥有了支持一线员工的资源和帮助他 们实现最大价值的流程。 1 4本课题的主要研究内容 本课题通过在电子银行知识库系统设计与实施过程中使用全文检索工具 北京t 业人学丁学硕十学仲论文 o r a c l et e x t 实现了知识库文档的全文检索,并且对o r a c l et e x t 的各方面性能进 行了深入的测试和研究。 本文将为今后使用数据库技术作为搜索引擎的系统建设提供参考依据。 1 5本文的组织结构 第一章为绪论,主要阐述了研究课题的背景和国内外文献综述。 第二章为相关技术介绍,对全文检索技术和o r a c l et e x t 的检索原理及体系 结构进行了描述。 第三章为电子银行知识库的总体设计。重点介绍了系统设计要点、需求获 取方法和系统的总体设计框架。其中系统设计框架又包括系统的网络结构设计, 数据流设计、应用服务器模块设计和数据库结构的设计。 第四章是电子银行知识库的详细设计与实现,在这章中选取了知识库的几 个核心的功能进行了介绍,并且着重描述了全文检索功能的实现过程和o r a c l e t e x t 的使用方法。 第五章是系统测试和未来工作,系统测试部分对知识库系统在全文检索方 面的功能和性能进行了全面的测试。未来工作指出了现有系统的不足和今后知 识化搜索的发展方向。 最后是结论部分,是对论文主要成果的总结。 1 6本章小结 本章对课题的研究背景,国内外文献综述、国内外知识库管理系统的发展 情况进行了介绍,并且描述了课题的研究内容和文章的组织结构。经过本章的 介绍,读者可以了解本课题的研究和实施对实际工作是有重要的借鉴意义的。 第2 章相犬技术介绍 第2 章相关技术介绍 2 1 全文检索技术介绍 2 1 1 全文检索技术的起源和概念 信息检索是知识库管理系统的一个核心主题,帮助用户发现信息是知识库 提供的核心服务之一。一个用户只对某些主题的信息感兴趣,希望从知识库中 找到有关这些主题的信剧5 1 。 伴随计算机产业的发展,以计算机存储设备为载体的电子信息愈来愈多, 这些信息大致可分为两类:结构化数据和非结构化数据,结构化数据指的是诸 如企业财务帐目和生产数据、学生的分数数据等等1 6 1 ,非结构化数据则是一些 文本数据、图象声音等多媒体数据等等。据统计,非结构化数据占有整个信息 量的8 0 以上。 对于结构化数据,用r d b m s ( 关系数据库管理系统) 技术来管理是目前 最好的一种方式1 7 】。但是由于r d b m s 自身底层结构的缘故使得它管理大量非 结构化数据显得有些先天不足,特别是查询这些海量非结构化数据的速度较慢。 而通过全文检索技术就能高效地管理这些非结构化数据。 全文信息检索就是根据互联网信息的特点而发展起来的一种检索方式,是 利用网络信息资源的一种有效手段【s 】。所谓全文检索( f u l lt e x tr e t r i e v a l ) ,是以 各类数据诸如文字、声音、图像等为主要处理对象,提供按照数据资料的内容 而不是外在特征来实现的信息检索手段。它通过提供快捷的数据管理工具和强 大的数据查询手段,帮助人们进行大量信息资料的整理和管理工作,使人们能 快速方便地查到他们需要的任何信息。为了提高全文检索性能,除利用通常的 数据库技术外还要综合利用硬件、算法、情报检索、文本处理、数据挖掘、 自然语言处理以及人工智能等领域内发展起来的各种技术【9 1 。 全文检索技术是信息检索的一个分支,它的出现导致了信息检索领域的一 场革命。与以前的情报检索相比,全文检索提供了全新的、强大的检索功能。 情报检索是对数据资料的外部特征进行检索,如对数据资料的资料号、标题、 作者、摘要和附录等i l 。】;而全文检索不仅可以实现情报检索的全部功能,而且 还能直接根据数据资料的内容进行检索,实现了支持多角度、各侧面地综合利 用信息资源j 。 北京丁业人学1 :学硕十学位论文 2 1 2 信息检索系统的发展历程 纵观计算机信息检索系统的发展,可以将其发展过程划分为四个阶段: 第一阶段:1 9 7 1 年以前建立了许多信息检索系统,并取得了一定的进展。 其工作方式是传统的批处理检索方式,如1 9 5 4 年美国海军兵器中心( n o t s ) 图 书馆在i b m 7 0 1 型计算机上成功地建立的世界上第一个计算机文献检索系统。 这一阶段的数据存取与数据通信能力都比较差。 第二阶段:1 9 7 1 年以后,产生并发展了联机情报检索系统。其中,美国国 家医药图书馆中心建立的在线计算机图书馆中心 o c l c ( o h i o c o l l e g e l i b r a r y c e n t e r ) 、s d c 公司建立的s y s t e m d e v e l o p m e n t c o m p a n y 及l o c k h e e d c o r p o r a t i o n 的d i “o g 系统,都是在线商用数据库查询系统。这一阶 段的特点是联机数据库集中管理,具有完备的数据库联机检索功能,但其数据 通信能力较差。 第三阶段:以i n t e m e t 的出现为标志。系统大多采用分布式的网络化管理, 其信息资源的主要特点是:数字形式表达、多媒体和多载体、内容覆盖全社会领 域、分布无序、难于规范化和结构化、内容特征抽取复杂、用户界面要求高等 1 1 2 l 。这些特点导致了信息处理从传统模式向新型模式的转变,如体系结构从终 端主机方式到客户服务器结构方式、网络环境从局域网到i n t e r n e t 等开放网, 应用接口从封闭界面到w w w 和z 3 9 5 0 等,信息结构从结构化到非结构化, 系统功能从单纯信息检索到综合信息管理和服务等等。其中较著名的系统有 a l t a v i s t a 、y a h o o ! 、w e b c r a w l e r 等i 1 。 第四阶段:在前三个阶段的基础上,随着连续性语音识别技术的不断发展, 预计计算机信息检索系统将会跨入一个新的阶段。 2 1 3 衡量全文检索系统性能的指标 衡量全文检索系统性能的基本指标有:查全率、查准率、响应时间、收录 范围、用户负担和输出形式等【1 4 1 。 首先,关注查全率【l5 1 ,即系统在进行某一检索时,检索出的相关资料量与 系统资料库中相关资料总量的比率。查准率【1 6 】则是保证我们找到最有用资料的 一个关键,是系统在进行某一检索时,检索出的有用资料数量与检索出资料总 量的比率。检索速度或者说响应时间是提高工作效率的保障,指的是从提交检 索课题到查出资料结果所需的时间。最基本的检索速度是应该达千万汉字,秒 级响应。还有诸如收录范围( 所查找的范围) 、用户负担( 用户在检索过程中付 出精力的总和) 、输出形式( 输出信息表现形式) 等指标也是衡量全文检索系 统优劣的要素。 第2 章相芙技术介绍 2 1 4 全文检索技术的分类 今天,全文检索已经发展成为成熟的技术,它能够解决对网页细节的检索 问题。从理论上说,只要网页上出现了某个关键词,就能够使用全文检索用关 键词匹配把该网页查出来,因而它是网络资源深度开发、虚拟馆藏信息资源建 设的有效技术。目前,全文检索技术主要分布在互联网资源检索的几个方面, 支持全文数据库检索。具体为: 1 目录检索 目录检索是由信息管理专业人员将因特网上的信息资源,按照某种主题分 类体系形成图书馆目录一样的分类树型结构目录【1 7 1 。在每个目录类下提供相应 的网络资源站点地址,用户通过逐级测览这些目录来找寻自己需要的网址或相 关信息。目录检索的主要优点是所收录的网络资源经过专业人员的选择和组织, 可以保证质量,减少了检索中的”噪声”,从而提高了检索的准确性。但是由于 人工收集整理信息,因此得花费大量的人力和时间,难以跟上网络信息的迅速 发展,所涉及信息的范围有限,其数据库的规模也相对较小 2 搜索引擎 搜索引擎利用软件( 如r o b o t 程序) 【l8 】自动访问w e b 站点,提取站点上的网 页,然后根据一定的顺序( 如字母排列、时间、相关级别等) ,建立搜索引擎数 据库,以w e b 页形式提供给用户一个检索界面,供用户查询使用【j 9 j 。搜索引擎 突出的是搜索功能,比起目录检索提供了全新的、强大的检索功能。可以直接 根据文献资料的内容进行检索,支持多角度、多侧面地综合利用信息资源。随 着信息检索技术的发展,目录检索和搜索引擎之间的界线越来越模糊。近年来, 大多数流行的网络检索同时提供上述两种方式的检索1 2 0 】。 3 多元搜索引擎 多元搜索引擎又称集合式搜索引擎。它将多个搜索引擎集成在一起,并提 供一仓统一的检索界面;在使用时,它可以自动地将一个检索提问发绘多个搜 索引擎同时进行检索【2 i 】。它的特点是本身并没有存放网页信息的数据库,当用 户查询一个关键词时,它把用户的查询请求转换成其它搜索引擎能够接受的命 令格式,并行地访问数个搜索引擎来查询这个关键词,并把这些搜索引擎返回 的结果经过处理后再返回给用户【2 2 】。m e t a 搜索引擎实现起来比较简单,但是它 也有一定的局限性,例如多数m e t a 搜索引擎都只能访问少数几个搜索引擎,并 且通常不支持这些搜索引擎的高级搜索功能,在处理逻辑查询时也常常会出现 错误【2 3 l 。 4 专用搜索软件 专用搜索软件实质上是搜索引擎功能上的一种扩展,其中有的软件可以同 北京丁业人学t 学硕十学仔论文 时登录数十个甚至数百个搜索引擎进行信息检索,检索的范围大,结果多;而 另外一些软件只搜索某一领域的信息,检索结果专业且准确度高。通过专用搜 索软件不需要登录到各大搜索引擎网站就可以直接在本机上完成对整个 i n t e m e t 上信息资源的搜索。常用的有c o p e m i c 2 0 0 0 、飓风搜索通、i q 网际搜索 家9 9 、i n t e m e tg r a p h i cf i n d e r ( 图片搜索工具) 、b o o k s e a r c h ( 书籍搜索工具) 等专 用搜索软件和工具。 5 信息收集和交换的桌面平台 信息收集和交换的桌面平台不仅能够进行桌面文档的管理和i n t e r a c t 信息 的收集,而且它还可以作为信息交换的桌面平台。管理p c 桌面上的文件,并 加以归档分类。可以管理的文件包括t e x t 、h n 沮,) 0 订l 、p d f 、m i c r o s o f to f f i c e 、 w p s 、s 2 p s 2 p s 等流行格式;使用正等浏览器浏览i n t e m e t 网页时,能够把 要保存的网页拖入本地p c 桌面上的个人资料库,并加以归档分类以便日后再 利用。 2 2o r a c l et e x t 介绍 2 2 1 概述 o r a c l et e x t ( 在o r a c l e 8 i 中称为i n t e r m e d i a 文本) 是o r a c l e 提供的一个服 务集,功能比较强大,它可以为文档提供索引方法、进行检索,还可以对文档 进行格式转换、存储和管理等。它不仅支持t x t 、h t m l 等纯文本格式,还支 持很多种二迸制格式的文档,如d o c 、p p t 、p d f 等等。o r a c l et e x t 还可用来 对不同语种的文档进行检索。o r a c l et e x t 是完全集成在数据库核心内的,它对 数据库中的文档进行检索的效率很高。因而o r a c l e 公司将其描述成第四代文本 引擎。 2 2 2o r a c l et e x t 的检索原理 关键词查询是知识库查询的主要方法,因为一般情况下人们往往只知道查 询的内容,但并不知道这些内容在哪个文档中有描述,更不清楚文档的名字等 信息。同时关键词查询实际需要对知识库内容进行全文检索,如果采用常规方 法去各个文档中逐个核对的话,效率会非常低,如图2 1 所示: 第2 章相关技术介绍 i = 3 ababcabc acbab abc tj = a i = l ababcabc acbab a t1 = 1 l = z ababc abc acbab abcac f j f s i = 4 ababcabcacbab a tj = l 1 - - 5 ababcabc acbab a t j = l ababc 。b 。a 。 1 i 1 : abc a c t 扫5 图2 - 1 常规查询遍历方法 f i g u r e2 - 1 t h ec o m m o nm e t h o do f t m v e r s a l 因为实际应用中知识库的规模随着资料内容的不断加入,一般都会比较庞 大,这种方法显然没有实际意义,现在一般都采用全文检索技术进行关键词查 询j 。 o r a c l et e x t 的查询原理是:在查询之前,先将所有文档中的关键词进行逆 向索g ( i n v e r t e di n d e x ) ,也称倒排索引,即形成一个全集的词表,词表中存储有 所有关键词及出现这些关键字的文档等信息。因此,o r a c l et e x t 进行检索时, 并不是直接检索文档原文,而是对于文本索引进行检索,由于索引本身就是一 系列文字,并带有指向原始文档的指针,所以检索速度很快。因此快速查询大 量文档的关键就在于建立起有效的文本信息索引。 例如:有以下文档: 文档d o c l ,内容为:c a t d o gs n a k e 文档d o e 2 ,内容为:c a ts n a k e 文档d o e 3 ,内容为:c a t 贝l j 产生的索引为:c a t d o c ld o c 2d o c 3 d o g d o c l s n a k ed o c id o c 2 所以当用户发出关键词查询时,只是在词表中查找,并不需要去真正的资 料文档中逐个匹配,因此查找效率非常高。同时词表中对不重复的词可以做到 北京下业人学t | 学硕十学位论文 唯一性索引,查找效率不会随着数据量的增大而出现明显的下降。 2 2 3o r a c l et e x t 与其它检索方法的比较 2 2 3 1o r a c l et e x t 与模式匹配方法的比较 数据库的结构化查询语言s q l 提供了模式匹配的方法,它使用i n s t r 函 数或l i k e 运算符,可以对文档进行检索伫7 1 。在用于文献资料库全文检索时, o r a c l et e x t 和模式匹配的区别主要在于: ( 1 ) 检索范围 模式匹配方法只能对纯文本的信息进行检索,对于其它格式,尤其是二进 制格式的文档则无能为力。而o r a c l et e x t 支持大量二进制格式。 ( 2 ) 效率 模式匹配方法是将用户检索的词与文档全文迸行逐词比较。当文档篇幅众 多,或是检索条件复杂时,要对数据库中的所有文档逐一进行比较,将极为费 时。而o r a c l e t e x t 只需对文本索引进行检索,因此效率很高。 ( 3 ) 检索方法 模式匹配方法只能确定出文档中是否含有被检索的词并返回相应信息,检 索方法非常单一;而o r a c l et e x t 提供的用于检索的运算符就有二十多个,不仅 可以检索各种语言的文档,还可以进行同义词检索、主题检索等等,功能十分 强大。由此可见,模式匹配方法并不适合于文献资料库的全文检索。 2 2 3 2o r a c l et e x t 与其它搜索引擎的比较 目前,真正意义上的搜索引擎,基本都是对被检索对象的所有文字建立索 引,然后再对这些索引进行检索【2 “。在这方面o r a c l e t e x t 和它们基本相同。但 是当用于对数据库的检索时,o r a c l et e x t 的优势就体现出来了,因为它是完全 集成在o r a c l e 数据库中的,所以文本索引的创建和管理变得更加容易,性能更 好,并可通过s q l 查询实现无缝搜索;o r a c l e 还增加了许多额外的服务,使用 户可以根据搜索条件,更方便快捷的访问数据库。 2 2 _ 3 3 o r a c l et e x t 与s q ls e r v e r 2 0 0 0 的比较 s q ls e r v e r 是m i c r o s o f t 公司在原来和s y b a s e 公司合作的基础上推出的一 款面向高端的数据库系统。而s q ls e r v e r 2 0 0 0 版本则是最新的、大型联机事务 处理的新型数据库平台。它继承了s q ls e r v e r 以前版本的一些强大的优势,如 简单易用、具有良好的稳定性和高效性等等。同时,它的功能比以前的版本更 加强大,界面更加友好。总之,无论是在功能、安全性、可维护性,还是在易 操作性上都较以前版本有了长足的进步。它的全文检索功能配置简单,使用十 第2 章相关技术介绍 分方便。 o r a c l et e x t 和s q ls e r v e r 都是基于数据库的全文检索工具,在全文检索的 功能方面两者不相上下,但o r a c l e t e x t 与s q l s e r v e r 相比主要存在以下优势: ( 1 ) o r a c l e 可以运行在u n i x 系统下,而s q l s e r v e r 只能运行在w i n d o w s 系统下,u n i x 系统相对w i n d o w s 系统稳定; ( 2 ) s q ls e r v e r 2 0 0 0 的全文检索存在一些不足。如当用户对全文索引过的 字段进行修改后,需要用户进行手工的“填充”,而不能机器自动完成这一步; o r a c l et e x t 可以通过参数设置定义实时同步索引还是批量同步索引。 2 2 4o r a c l et e x t 的体系结构 o r a c l e 一直致力于全文检索技术的研究,当o r a c l e 9 ir l e a s e 2 发布之时, o r a c l e 数据库的全文检索技术已经比较全面,o r a c l et e x t 使o r a c l e 9 i 具备了强 大的文本检索能力和智能化的文本管理能力。o r a c l et e x t 可以方便而有效地利 用标准的s q l 工具来构建基于文本的新的开发工具或对现有应用程序进行扩 展。应用程序开发人员可以在任何使用文本的o r a c l e 数据库应用程序中充分利 用o r a c l et e x t 搜索,应用范围可以是现有应用程序中可搜索的注释字段,也可 是实现涉及多种文档格式和复杂搜索标准的大型文档管理系统。o r a c l et e x t 支 持o r a c l e 数据库所支持的大多数语言的基本全文搜索功能。 图2 2 是o r a c l et e x t 的体系架构: 图2 - 2o r a c l et e x t 的体系结构 2 9 1 f i g u r e2 - 2 t h es t r u c t u r eo f o r a c l e 仇d 2 9 】 以上面的体系架构图为基础,o r a c l et e x t 索引文档时所使用的主要逻辑步 骤如下: 1 数据存储逻辑搜索表的所有行,并读取列中的数据3 0 1 。通常,这只是列 北京丁业人学下学硕十学位论文 数据,但有些数据存储使用列数据作为文档数据的指针。例如, 饥也d a t a s t o r e 将列数据作为u r l 使用。 2 过滤器提取文档数据并将其转换为文本表示方式。存储二进制文档( 如 w o r d 或a c r o b a t 文件) 时需要这样做。过滤器的输出不必是纯文本格式,它 可以是x m l 或h t m l 之类的文本格式。 3 分段器提取过滤器的输出信息,并将其转换为纯文本。包括x m l 和 h t m l 在内的不同文本格式有不同的分段器。转换为纯文本涉及检测重要文档 段标记、移去不可见的信息和文本重新格式化。 4 词法分析器提取分段器中的纯文本,并将其拆分为不连续的标记f 3 i j 。既 存在白字符分隔语言使用的词法分析器,也存在分段复杂的亚洲语言使用的专 门词法分析器。 5 索引引擎提取词法分析器中的所有标记、文档段在分段器中的偏移量以 及被称为非索引字的低信息含量字列表,并构建反向索引。倒排索引存储标记 和含有这些标记的文档l 捌。 2 3 本章小结 全文信息检索就是根据互联网信息的特点而发展起来的一种检索方式,是 利用网络信息资源的一种有效手段。为了提高全文检索性能,通常利用数据库 技术、硬件,算法、情报检索、文本处理、数据挖掘、自然语言处理以及人工 智能等领域内发展起来的各种技术。o r a c l et e x t 是o r a c l e 公司提供的一个服务 集,功能比较强大,它可以为文档提供索引方法、进行检索,还可以对文档进 行格式转换、存储和管理等。 第3 章系统总体殴计 第3 章系统总体设计 3 1 知识库系统设计要点 第二章介绍全文检索技术时已经提到全文检索技术的分类主要包括目录检 索和搜索引擎等等。但是这两种技术都存在一定的局限性。目录式检索单纯依 靠人工分类,尽管分类效果很好,分类效率却很低,不能对海量信息资源进行 人工分类。因此这种分类查找的检全率很低。全文检索已是一个很成熟的技术, 它能够解决对网页细节的检索问题。但是,使用关键词匹配检索的方式导致了 它的缺陷返回的信息太多。除此之外,还有两个深层次问题也给信息检索 带来了不少困难。这两个问题都与词汇密切相关:一个是“忠实表达”的问题, 即在很多情况下,用户很难简单地用关键词或关键词串来忠实地表达他所真正 需要检索的内容,表达困难导致检索困难。另一个是“表达差异”问题。人类 的自然语言中,随着时间、地域或领域的改变,同一概念可以用不同的语言表 现形式来表达。因此,对同一概念的检索,不同的用户可能使用不同的关键词 来查询,例如:“计算机”和“电脑”。使用“计算机”是查不到含“电脑”的 网页的,这种“表达上的差异”必然造成检索结果的差异。 为了有效避免上述两个问题的出现,知识库系统的设计必须要做到以下几 点: 1 搜索分析准确恰当 由于采取了以知识库为基础的语义分析,在检索过程中,采用的不是关键词 全文检索,而是基于概念的检索。再加上人工智能、自然语言处理、语料库语 言学等方法,通过运用灵活的常识性联想功能,就能分析出用户的真正意图,从 而给出准确的结果。 2 搜索范围定位合适 由于采用知识( 概念) 检索技术,明确和缩小了检索范围,减少了对无用 信息范围的检索。同时它能支持全文检索及概念检索,满足了不同层次的需求。 3 搜索过程交互智能 更智能的信息检索和导航服务将提供引导用户进行下一步查询的线索,在 与用户交互的过程中为其检索突出详细的修正、改进或补充意见,通过与用户的 一步步交互,启发、引导用户表达出真正意图,快速找到他所真正需要的产品、 信息。 4 搜索结果综合性强 北京丁业人学丁学硕十学位论文 由于采用了综合知识库,搜索引擎将为之面貌一新,给用户提供更全面、 更综合和更合理的知识库框架,在这里,信息检索也许只是信息服务的一部分, 通过对用户的意图分析自动生成更准确的索引摘要。此外,智能搜索引擎具有 跨平台工作和处理多种混合文档结构的能力。譬如既能处理h t m l ,又能处理 x m l 文档以及其它类型的文档,如w o r d 和p d f 等。它应该可以支持多语言搜 索,允许用户使用中文输入查询英文或其它语言的信息。 为了克服现有搜索引擎的局限性并实现上述目标,我们可以从信息的机构 化、搜索引擎的智能化入手、并将利用知识挖掘及异构信息整合检索和全息检 索等技术扩展信息检索的深度和广度。 其中信息的结构化指的是利用x m l 技术实现w e b 数据挖掘。由于x m l 可看作一种半结构化的数据模型,可以很容易地将x m l 的文档描述与关系数 据库中的属性一一对应起来,实施精确地查询与模型抽取。x m l 已经成为数据 描述和交换的标准,因此针对x m l 的半结构化特性,可以实现比传统全文检 索更好的检索效果p 。 智能化检索指的是高级检索、有效解决“忠实表达”和“表达差异”以及 智能代理技术等。本文将重点从深化智能化检索作为突破口,增强电子银行知 识库的全文
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 玉晶光电考试题及答案
- 安徽电工试题及答案
- 皮革考试题库及答案
- 2025年苏叶相关题目及答案
- 工程控制基础考试试题及答案
- 城南旧事测试卷及答案
- 湖北省荆州石首市2024-2025学年第一学期三年级科学期中质量监测(含答案)
- 2025年小学电路试题及答案
- STEM地球我们的家园课件
- 少儿美术考级题库及答案
- 环卫人员安全知识培训课件
- 4.《花之歌》教学设计-2024-2025学年统编版语文六年级上册
- 诉讼业务培训课件
- 2025青海黄南尖扎县公安局面向社会招聘警务辅助人员35人笔试参考题库附答案解析
- 12345热线培训课件
- 危险废弃物管理培训试题(附答案)
- 2025国投生物制造创新研究院有限公司招聘(31人)考试备考试题及答案解析
- 多彩的超轻泥教学课件
- 新学期,新征程+课件-2025-2026学年高二上学期开学第一课主题班会
- 赛事租赁用品租赁模式分析报告
- 全称量词命题与存在量词命题的否定 教案
评论
0/150
提交评论