已阅读5页,还剩57页未读, 继续免费阅读
(计算机软件与理论专业论文)通过分析用户行为提高检索系统的查全率与查准率.pdf.pdf 免费下载
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
通过分析用户行为提高检索系统的查全率与查准率 摘要 随着计算机信息技术的发展,全文检索技术逐渐代替主题词检索与题名检索 等“二次信息检索”成为新的主流检索技术,而如何提高全文检索的查全率和查 准率一直是这一领域的重要研究方向之一。提高查全率和查准率问题的本质是提 高检索结果与查询目的的匹配程度问题,其根本出路在于计算机的自然语言语义 理解,这一领域无法突破从根本上制约了查全率和查准率的提高。参考传统的提 高查全率和查准率手段,本文另辟奚径提出了通过收集、积累使用者的查询行为 过程,对其进行分析以将其中包含的查询规律展现在后来的使用者面前,通过这 样的方法来利用前人的查询技巧和智慧,帮助后来者进行检索,以提高检索的查 全率和查准率。本文所采用的这样方法的最大特点是积累和利用系统使用者的经 验和智慧,最大优势是通过对使用者检索行为的积累达到了系统能力自动积累和 提高、自我修正的能力。 本文采用c # 编程语言、n e t 开发框架、以x m l 文档作为数据存储手段,实 现了一个b r o w e r s e r v e r 结构的信息全文检索系统,并实现了“利用检索问题提 高查全率”、“分类点击率提高查准率”、“利用相关关键字以帮助使用者提炼关键 字以提高查准率”等创新方法和算法,并将它们与传统的检索手段作了比较详细 的优缺点比较。 此外,本文还做了其它一些相关性的工作:构建一个普通的检索系统、分析 利用失败的检索过程来完善检索系统的方法、给出了传统的根据查询关键字出现 次数提高查准率的一种实现算法、分析采用x m l 文档保存数据的优缺点、数据 导入的问题,等等。 关键词: 全文检索,查全率和查准率,经验积累与分析,检索问题,点击率分类,关 键字提炼 望鎏坌堑旦旦堑垄塑直堕室墨竺生壅垒童皇查堡至 a b s t r a c t b e c a u s et h eu s i n go fc o m p u t e ro ni n f o r m a t i o nt e c h n o l o g y ,f u l l t e x tr e t r i e v a l t e c h n o l o g yb e c a m et h em a i nr e t r i e v a lt e c h n o l o g yg r a d u a l l y o n eo ft h ep r o b l e mi n f u l l t e x tr e t r i e v a li sh o wt oi m p r o v et h er e c a l lr a t i o na n dp r e c i s i o nr a t i o n t h em o s t i d e a ls o l u t i o no ft h er e c a l lr a t i o na n dp r e c i s i o nr a t i o np r o b l e mi st h ed e v e l o p m e n t o t 、t h en a t u r a ll a n g u a g eu n d e r s t a n d i n gt e c h n o l o g y b u t ,u n t b r t u n a t e l y , i ti s i m p o s s i b l et os o l v et h en a t u r a ll a n g u a g eu n d e r s t a n d i n gp r o b l e m ,s ow eh a v et o d e v e l o po t h e rs u b s t i t u t ef 0d e a l 耐曲t h i sp r o b l e m o t h e rt h a nc o m i b o nw a y , t h i s t h e s i sd e s i g n san e ww a yt oi m p r o v er e c a l lr a t i oa n dp r e c i s i o nr a t i o f i r s t ,t h e s y s t e mw r i t e sd o w nt h er e s e a r c h i n gp r o c e s s e so f t h eu s e r st of i n dt h e i ri n f o r m a t i o nb y k e y w o r d s s e c o n d ,t h es y s t e ma n a l y s e st h ec h r r e n lr e s e a r c h i n g ,a n df i n dh e l p f u l i n f o r m a t i o ni nr e s e a r c h i n gh i s t o r y i nt h i sw a y , t h es y s t e mc a l lh e l pu s e rt oi m p r o v e t h er e c a l lr a t i oa n dp r e c i s i o nr a t i ow h e nu s i n gt h es y s t e mt or e s e a r c ht h e i n f o r m a t i o nt h e yn e e d t h es p e c i a l t yo ft h i ss y s t e mi st h a ti tc o l l e c t sa n dm a k e su s eo f t h ee x p e r i e n c ea n db r i g h t n e s so ft h eu s e r s ;a n dt h ea d v a n t a g eo ft h i ss y s t e mi st h a ti t c a na c c u m u l a t ea n de n h a n c et h ea b i l i t yo ff i n dt h ef i g h ti n f o r m a t i o n w ec o n s t r u c tt h i ss y s t e mu s i n gc 撑l a n g u a g e t h e n e tf r a m e w o r k , a n dx m l d o c u m e n ta sd a t a b r i s e ,i nb r o w e r s e r v e rs t r u c t u r e i ti saf u l l t e x tr e t r i e v a l i n f o r m a t i o ns y s t e m w ec a r r yo u ts e v e r a ln e wm e t h o d sa n da r i t h m e t i c ,s u c ha s “s e a r c h i n gr e t r i e v a lp r o b l e mt oi m p r o v er e c a l lr a t i o ,“i m p r o v ep r e c i s i o nb y c l a s s i n gc l i c kt i m e ”,h e l pu s e r st oa b s t r a c tk e y w o r d s ”,a n ds oo n b yt h ew a y , w e c o m p a r et h e mw i 血t h o s en o r m a lm e t h o d s o t h e rm o r e ,w ed os o m eo t h e rw o r k ,s u c ha sc o n s t r u c tac o m m o f lr e t r i e v a l s y s t e m ,u s i n gf a i l e dr e s e a r c h i n gt oh e l pc o m p l e m e n ti n f o r m a t i o n ,c a r r y i n go u tt h e m e t h o do fs o r t i n gs e a r c hr e s u l tb yt h et i m eo fi n c l u d i n gt h ek e y w o r d s ,a n a l y z i n gt h e e x c e l l e n c eo f x m ld o c u m e n td a t a b a s e ,a n ds oo n k e y w o r d :f u l l t e x tr e t r i e v a l ,r e c a l lr a t i o ,p r e c i s i o nr a t i o ,e x p e r i e n c e a c c u m u l a t i n g ,c l a s s i n gc l i c kr a t i o ,a b s t r a c tk e y w o r d 3 通过分析用户行为提高检索系统的查全率与查准率 第一章绪论一一检索技术的发展 历程以及本文研究方向与背景 1 1 从手工检索到计算机联机检索 2 0 世纪8 0 年代以前,计算机还没有普及时,手工检索一直占据着重要的地 位,各种有关手工检索的工具书层出不穷。如国内出现的中文科技资料目录、 国外科技资料目录,国外的化学文摘、生物学文摘、科学引文索引 等等。 手工检索的主要功能和特点是:( 1 ) 遵循既定的标引规则,进行各项的著录, 榆索者根据文献标引规则查阅有关文献;( 2 ) 能了解各类检索刊物的收录范围、 专业覆盖面、特点和编制要点,提高查全率和查准率;( 3 ) 便于检索策略的修改, 检索过程及时发现问题,及时修改和补充;( 4 ) 用户主要是专业人员。 而计算机联机信息检索,贝u 是在手工检索方法基础上,伴随计算机技术发展 而出现的。所谓联机信息检索,是指信息用户利用终端设备,通过国际通讯网络 与世界上的信息检索系统进行直接的人枫对话,从检索系统的数据库中查找出用 户所需信息的全过程。实现联饥检索的主要环节有数据库、检索方法、主机与终 端的联络等。中心数据库是联机检索的基本出发点和技术核心。 联机恃富检索的主要特点有: ( 1 ) 检索速度快,检索效率高。一般课题均可以在几分钟之内完成检索过程, 并且能达到较为理想的查全率和查准率。 ( 2 ) 信息资源丰富且质量较高。各大联机检索系统刁i 仪是数据库经销商,而 且也是数据库生产者,所提供的一般是各领域的核心、权威数据库,数量从几十 个到数百个不等,信息资源丰富且经过严格的加工、处理和组织,质量较高。 ( 3 ) 可及时提供最新信息。一些大型联机检索系统数据库的更新速度较快, 有季更新、月更新、周更新、甚至每日更新,用户可以及时得到最新信息。 时至今日,虽然已经很少有人纯粹的依靠手工检索获取信息了,各种先进的 蹬备和手段带给人们更多的选择,但是在某些场台,手工检索仍被认为是计算机 枪索重要的辅助环节,这也是至今许多科研部门仍然保持着手工检索职能部门的 通过分析用户行为提高检索系统的查全率与查准率 原因。有人认为尤其在查新检索工作中,不可忽视手工检索,这是因为手工检索 在查新中有以f 作用1 】:( 1 ) 弥补数据库更新周期时间差及制作时存在的年代差; ( 2 1 弥补国内数据库文献检索收录不全,专业文献遗漏现象;( 3 ) 弥补国内数据库 缺乏文摘的空档;f 3 ) 检索书本式工具书,弥补和扩大文献信息量;( 4 ) 手工检索 原始文献,弥补数据库及文摘的更新时差。可见任何新事物的出现都不能完全替 代旧有事物,在必要的时候,仍要依靠手工检索来满足信息需求。 1 2 从主题词检索到全文检索 随着计算机技术不断地发展,以文献标题、作者、日期、分类毫等著录事项 为关键词的文件检索系统,在图书、档案和资料管理部门里得到了应用。7 0 年 代到8 0 年代,由于数据库管理系统( d b m s ) 技术的不断发展和逐步完善,数 据内容不仅是数字、文字,而且还发展到图形、图像,应用领域也更加广泛。但 是,在前一个时期,几乎所有计算机检索系统都有一个共同的特点,那就是都以 “二次文献信息”作为处理和检索的对象。在每一个数据库管理系统的背后都有 一个数量可观的“二次信息”开发人员队伍。“二次信息”的开发质量在很大程 度上决定着相应的计算机检索系统的质量和使用效果。 当今人类社会已进入信息时代,人们越来越感受到如何迅速而准确地获得自 己所需要的信息是一件重要而又迫切的事情。于是情报检索技术随着计算机技术 的发展而得到迅速发展,经历了从传统的基于词的主题词检索到基于单汉字标引 的全文检索的发展过程。这是因为主题词表检索系统存在许多缺陷。首先,用主 题词法建立实用文献检索系统至今仍靠人工标引。人工标引的工作量相当庞大, 一般部门难以承受这种沉重的负担【2 】。虽然目前在汉语自动标引研究方面取得一 些成果,但因汉语中词组组合规律很复杂,语义多,致使自动标引还未进入实用 化阶段。第二,人工标引要受标引政策的制约和标引员意识的支配【3 】。当文献的 专业化程度越高时,很难找到合适的标引人选,也容易导致标引员对文献理解不 一定与情报用户检索要求相吻合。第三,用主题词法检索时,检素词必须和主题 词完全一致,致使用户必须了解主题词标引知以和利用主题词表,花费时间多。 第四,书目或题录检索系统是以提供二次文献为主检索系统。二次文献是对原始 文献所畲信息进行高度压缩,它一般不能替代原始文献的阅读,面是提供寻找原 通过分析用户行为提高检索系统的查全率与查准率 始文献的途径,要解决实质性情报需求,还得找到原始全文,为此人们采用全文 检索系统,即将文献原文全部转换成计算机可读形式,建立全文数据库,允许用 户检索全文数据库中的任何字、词、句、段、节、章等等文字【4 。 全文检索是2 0 世纪末产生的一种新的信息检索技术。经过几十年的发展, 特别是以计算机技术为代表的新一代信息技术应用,使全文检索从最初的字符串 匹配和简单的布尔逻辑检索技术演进到能对超文本、语音、图像、活动影像等非 结构化数据进行综合管理的复合技术。由于内涵和外延的深刻变化,全文检索系 统已成为新一代管理信息系统的代名词,衡量全文检索系统的基本指标和全文检 索的内涵也发生巨大变化。 关于全文检索系统的特点,全文数据库与书目数据库、事实数据库相比较主 要有如下特点:( 1 ) 全文数据库包含信息的原始性。库中信息基本上是未经信息 加工的原始文本,具有客观性。( 2 ) 信息检索的彻底性。可对文中任何字、词、 句进行检索,还可以表示检索之间的复杂位置关系。( 3 ) 所用检索语言的自然性。 不做人工标引,借助截词、邻接等匹配方法,以自然语言检索所需文献,这是与 传统主题同检索方法的根本区别。( 4 ) 数据相对的稳定性。全文数据库基本上是 封闭的,一般不需更新。( 5 ) 检索结果的准确性。( 6 ) 数据结构的非结构性。 1 3 检索技术的发展趋势 1 3 1 信息检索并行技术 对于大容量数据库的检索,响应时间侵一直是信息检索要解决的重要问题。 并行信息检索这一领域的形成,为实现大容量文本信息的存储与快速检索提供了 条有效的途径。传统信息检索无非是倒排检索与顺排检索技术两种形式,而 且它们都是通过顺序计算机束实现的,而并行检索则通过大型并行检索计算机来 文现。这类汁算机含有多台处理机,并行执行多个相同任务,提高系统的速度、 效率等性能。除了适合并行检索的计算机体系结构以外,还必须有并行软件的支 持。研究并行算法的重要途径之 ,是在现有的串行算法中挖掘并行性。用于顺 排检索和倒排检索的串行算法已较成熟,而深入分析各自的功能,仔细识别其内 部的可并行成分,进而深入研究并行检索算法,是一个很有意义的课题吼 1 3 2 基于导航的信息库制作技术 通过分析用户行为提高检索系统的查全率与查准率 从我国目前网上信息近几年的发展来看,我国互联网信息资源的组织明显缺 乏有序性,虽然有一些综合性i n t e m e t 搜索引擎可以为不同用户群解决一些问题, 但是对于那些专业用户来说,这些综合性导航嘲站并不能起到很好的导航作用。 基于此现实,不少学者提出建立专业性导航信息库以帮助专业信息用户来查询自 己所需信息,有计划地组织有关部门或与有影响的门户站点合作,以因特网搜索 引擎为依托,建立一些智能专业( 或专题) 导航系统,这样有利于加速网上信息资 源的有序化建设进程,提高网上信息资源的利用率,从而使网上信息资源的建设 和发展走向良性循环1 6 j 。 1 3 3 自然语言处理技术 在信息用户看来,一个完全理想的信息检索系统应该是一个“问答机”。信 息用户提出问题,系统负责解释并问答,并能很好理解提问者的意图。而信息用 户不应多费心思表达自己的提问,也不必学习一套烦琐的命令、格式或代码。以 前,人们大多数在用布尔逻辑命令的检索方式,但未来信息技术的发展趋势是以 相关排序与智能文本处理为特征的“自然语言处理”( n l p ) 。所谓自然语言检索, 从技术上讲是将n l p 技术应用于信息检索系统的信息组织、标引与输出。从用 户角度看就是用自然语言作为提问输入与对话接口的检索方式。 1 3 4 数据仓库和数据挖掘技术 今天的数据正在以惊人的速度增长,数据仓库的容量越来越大,原有的数据 库工具已不能满足用户在决策利预测方圆的需求。如何从庞大企业信息资料库中 寻找出更有价值的信息,数据挖掘便是最先想到的技术。由于数据库技术和枫器 学习技术的发展,数据库中的知识发现( k n o w l e d g ed i s c o v e ri nd a t a b a s e 简称 k d d ) 技术也逐渐发展起来。k d d 也可称为数据挖掘( d a t am i n i n g ) ,k d d 就是 从大量的、不完全的、有噪声的、模糊的、随机的数据中、提取隐含在其中的、 人们事先不知道的、但又是潜在有用的信息和知识的过程。 1 4 全文检索的查准率与查全率问题 查全率是指系统在进行某一检索时,检出的相关文献量与系统文献库中相关 文献总量的比率,查全率是用来描述系统检出文献能力的种尺度。即: 通过分析用户行为提高检索系统的查全率与查准率 杏全率= 检出的相关文献实有相关文献 查准率是指系统在进行某一检索时,检出的楣关文献量与检出文献总量的 举。查准率是用来描述系统拒绝不相关文献的能力或检索精确度的一种尺度。目口: 查准率= 检出的相关文献,检出的全部文献文 献检索中的查全率和查准率结合起来,用以定量描述了系统的检索成功率, 但无法评价与查新点的相关程度。 提高查全率与查准率一直是全文检索研究中的重点和难点。以查全率而论, 全文检索系统通常按词索引或单汉字索引二种方法进行标引和检索,词索引即对 源文献进行分词、抽词,用切分获得的词作为标引词,据此建立索引文件,分词 的方法多采用词典,检索时将检索条件( 提问输入) 也进行分词,对每个分词进 行检索。劳裰据检索条件中的位置、逻辑关系找到符合条件的文章;单汉字索引 即以汉字为单位对源文献进行分词,据此自动标引,避免分词组合造成的歧义性, 检索时将检索条件( 提问输入) 切分成单个汉字,通过索引对汉字进行多次匹配 组合成词。这两个方法中,单汉字索引的查全率通常比较高一点,相当与检索用 关键词一旦在文章中出现即可查出,但仍然不能彻底解决问题,因为有时候虽然 通篇文献都未提到某个词,但文献确未必不是查询条件的相关文献,举一个很简 单的例子,比如以关键词“乙醇”迸行查询,而某篇文献通篇都在介绍“酒精” 怎么样怎么样,在文献中并未出现过“乙醇”一词,但这篇文献仍然是该次检索 的相关文献,诸如此类情况还有很多这就是无论是词检索还是单汉字标引检索 都无法解决的。为此,有入叉在全文检索系统中引入了传统的“主题词索引”, 但是主题词属于二次信息,必须由人手工编制,无法自动生成,在i n t e m e t 搜索 引擎等面对海量、高速更新的动态信息索引中无法使用,而且诚如前文所述,主 题词索引能够到达的效果也极大的受标引员个人水平、工作态度等非客观因素的 影响,非常不稳定。本文将提出一个新方法来提高全文索引的查全率相关源 索引。 再说查准率。查全率低会导致大量的相关信息被漏查,而许多提高查全率的 方法却又会以降低查准率为代价,导致大量的非相关信息进入搜索结果。已经有 人从理论和经验两个方面证明,查全率和查准率之间既可以存在负相关也可能存 在正相关。事实上,查全率低会导致大量的相关信息被漏查,而一味地以降低查 1 0 通过分析用户行为提高检索系统的查全率与查准率 准率为代价以求得查全率的提高一样会导致相关信息被漏查。查准率是衡量检索 系统排除非相关信息能力的指标,查准率太低的话,会导致大量的无关信息进入 检索结果,导致使用者不得不面对大量的非相关检索结果信息,要从大量的非相 关检索结果巾找出需要的资料,仍然是一个“文海捞针”的问题,结果就是相关 的、用户所需要的信息也被淹没了。 1 5 本文的研究目标 建立高查全率和高查准率的全文检索系统,最理想的情况是系统能对文本资 料进行语言学意义上的理解,当用户查询时对查询也进行理解,然后再对文本 进行语义卜- 的概念匹配。但是目前自然语言文本的理解仅仅处于研究探索阶段, 近期内无望解决川,所以要提高全文检索系统的查全率和查准率更多的还是要依 靠其他方法。 本文的目的是通过收集积累和分析使用者使用检索系统进行检索的过程,以 发现其中存在的规律性,充分挖掘利用其中所蕴涵的有用信息和规律性,借此来 提高查询的查全率和查准率。 为了提高检索系统的查全率、查准率、系统组织合理性和系统信息完善性, 本文提出了以下方法: ( 1 ) “利用源链接信息提高查全率”; ( 2 ) “排序关键字点击率以提高查准率”; ( 3 ) “排序点击率以提高查准率”; ( 4 ) “排序关键字相关度以提高查准率” ( 5 ) “利用相关关键字以帮助使用者准确提炼关键字” ( 6 ) “分析失败查询过程以修正主题词” ( 7 ) “分析失败查询过程以补充主题”。 对于以上方法,本文大多予以编程实现,以考察其可行性和效果。本文在构 建实现系统时,采用d o t n e t 框架、c 群编程语言和x m l 文档作为数据库存储资 料信息。 为了实现以上方法,本文先要构建一个普通的全文检索系统。当前的全文检 索系统其检索方式包括串查找、串匹配、检索词字关键字( 二次信息) 三种,其 通过分析用户行为提高检索系统的查全率与查准率 中串查找的方法不作倒排索引,在检索资料时直接在资料库中搜索所需要的资 料,在管理小资料量数据是比较有优势。实现起来也比较容易,为本文所采用。 当然,当前的全文检索系统用得最多的还是先对文献进行词或字标引的索引法, 这种方法检索的是标引产生的二次信息( 采用自动标引) ,检索速度大大加快, 在榆索大量数据时必须采用这种方法,因为如果用串查找的方法直接对原始信息 进行查找的话,大量的字符串匹配操作将会使系统的响应时间馒到难以接受的程 度。由f 进行词字索引将涉及大量技术,编程实现的工作量相当大,而这又不是 本文的研究重点,所以本文不采用词字索引的方法,而采用较为简单的串查找法, 以集中论述本文的核心内容通过收集和分析用户的查询行为过程信息以优 化查询性能,提高查询的查全率和查准率。此外,本文还会述及数据导入的问题 如何将外部数据导入到本系统,使之以能为本系统所用的状态存在,即将外 部数据转换为格式化x m l 文档的数据项,以为本系统所查询、修改、优化。因 为任何信息检索系统,起信息库内容都不可能完全自建而获取外部信息肯定是 信息的最重要来源之一。在获取外部信息和信息格式转换方面,x m l 文档无疑 具有无可比拟的优势,x m l 文档本身就常用来作为信息交换的中问状态,这也 是本文采用x m l 技术存储数据,而不采用其他方式的重要原因之一。 在系统结构方面,本文采用b r o w e r s e r v e r 结构。任何信息查询系统,肯定 都是为多用户所用,故也肯定采用c l i e n t s e r v e r 结构,其中服务器作为存储数据 和进行检索、信息收集的核心,而使用者以客户端的方式连入系统。随着i n t e r n e t 和万维网的不断发展,目前b r o w e r s e r v e r 结构已经成为一种最重要的 c l i e n l j s e r v e r 结构。比较普通的c l i e n t s e r v e r 而言,b r o w e r s e r v e r 的客户端编制 比较容易,而且界面更加友好、使用更加方便,而且,无论是在客户端还是在服 务器端,采用b r o w e r s e r v e r 结构都有更多的软件工具和s d k 工具( s o f t w a r e d e v e l o pk i t ) 可采用,使得开发者可以方便地设计功能强大的复杂系统。 通过分析用户行为提高检索系统的查全率与查准率 第二章系统数据库的设计 2 1 存储方式的选用 本研究课题选用x m l 文档作为数据的存储方式,而非关系型数据库。 般而言,现阶段的查询系统通常采用关系型数据库作为数据的存储方式, 这固然是由于关系型数据库设计方便、实现容易、查询速度快、能存储大批量数 据、有众多成熟的商业化软件产品可选用等等优势,也于人们的设计习惯有关, 毕竟,从六十年代关系型数据库理论提出、商业产品相继成型以来,其在数据库 领域的领导地位至今尚未受到过任何有力的挑战,比较而言,面向对象数据库、 x m l 等新技术只能算是初出茅庐的“后生小辈”而已。 x m l 目前主要用在异构系统数据存储交换等领域,它的一个重要优点就是 结构设计灵活,自定义标签和自由设定文档结构使得x m l 的存储结构本身就能 说明数据的逻辑关系以及数据的意义,本系统本质上来说是一个实验系统,这一 点就非常关键了,未来能随时审视系统的合理性( 以确定是否可以有更加好的改 进) ,这就要求选用像x m l 这样能直接直观地通过文档本身来体现数据逻辑结 构以及意义的存储方式。相反,关系型数据库就没有这样的优点。关系型数据库 是建立在严谨的数学理论基础上的,强调的是数据的“合式”( 符合一定的数学 规范,以便把数据的运算映射到关系代数的运算) ,所以实现后对数据进行各种 操作的速度也比较快;而x m l 就比较拟人化,其对大量数据的运算速度也比较 慢,因为它本质上只是一个格式化的文本文档而已。我们可以说关系型数据库是 比较注重存储空问利用率、数据操作速度、对数学理论的符合的,而x m l 则比 较注重其对数据逻辑结构设计的方便、直观。作为研究阶段的小型系统,数据量 1 ;大,而又比较强调数据结构设计的直观、方便,故采用x m l 是比较合适的。 x m l 在数据量不大时改动数据的逻辑结构也比较容易实现,而关系型数据 库就相对麻烦一点。这是因为,数据结构的设计与改进总是从逻辑结构开始的, 对与x m l 系统而言,其逻辑结构差不多就是其存储结构了,从逻辑结构设计、 改进完成再到存储结构的实现,中间环节的转换工作非常少。而关系型数据库就 不同了,从逻辑结构到存储结构,其差别是非常大的,稍微复杂一点的关系型数 据库,其存储结构就已经复杂到比较难看懂的程度了,这根本上来说是因为关系 通过分析用户行为提高检索系统的查全率与查准率 型数据库的表现形式是数学的,而非面向对象的,从逻辑结构到存储结构,中间 不得不经过比较多的变换。对于实验系统来说,数据量是不大的,而数据结构有 时候就不得不进行改进,这样一来,采用x m l 的优势就比较明显了。 此外,按照计算机技术发展的历程来看,无论是软件设计技术、操作系统技 术还足数据库技术,其发展趋势都是从高级到低级,从注重对系统资源的利用率 到注重逻辑结构的清晰、可分析与可维护性的提高。这里“低级”与“高级”的 定义是这样的:越接近计算机底层就是低级,越接近人类的思维方式就是高级。 以编程方式而论,机器语言就是最低级的,它最接近计算机底层,在所有的编程 方式中离人类的思维方式最远;汇编语言就比机器语言高级很多,它离人类的思 维方式就近一点;在高级语言中,面向对象技术又比结构化编程高级很多。操作 系统也有类似的发展趋势,现代所采用的“微内核”系统设计技术,其实就是强 调系统的结构层次,比传统的面向系统调用的设计方式就高级一些。但是,“高 级”的东西往往都在运行的时间空间上带来一些劣势,较之关系型数据库,x m l 也一样存在这个问题,虽然它比较接近人类的思维方式,表达数据的方式比较“结 构化”和“面向对象”,应该说是比较“高级”的,但是,其在存储大量数据的 时候的运行效率是比较低的,一个数十m 的x m l ,其进行各种操作的速度已经 比较慢了。这也是在现实系统中,通常不采用x m l 作为数据存储方式的重要原 因。但是对于本研究课题来说,因为数据量不会太大,因此采用更高级的数据存 储方式,其所带来的时间效率上的损失并不是很明显,是完全可以接受的,顺应 计算机技术的发展技术,采用更高级、更人性化的技术也就非常合理了。 2 2 x m l 文档标签与结构的初步设计 本研究课题的主要目的是利用用户的使用行为和专家的领域知识,实现查询 系统的智能化优化,使查询系统具备自学习、自组织的智能化特性。x m l 文档 除要存储专家的领域知识之外,好要记录用户的使用行为,包括成功的查询和不 成功的查询,还要记录专家所设定的知识间联系以及用户行为所导致的领域知识 问联系。此外,x m l 文档结构还应该方便系统自动对领域知识之间的联系进行 分析、重组( 利用用户行为作为分析与重组的依据) ,方便专家利用用户行为对 系统领域知识进行补充与调整,方便用户进行查询。因此,合理的设计x m l 文 通过分析用户行为提高检索系统的查全率与查准率 档的结构是比较关键的。 首先,x m l 文档要记录基本的数据单位,即问题及其解答。问题必须有其 标题,以便查看,标题又未必能详细描述清楚问题的所以方面以及详细情况,故 问题又必须有详细描述这一项。由此,设计出来的一组标签及其结构关系应该是 这样的: 刮标题 叫描述) 叫解答 ,问题) 为了便于查询和建立领域知识之间的有机结构,问题还应该包含一系列的关 键字,以及一组专家认为可能需要参阅的相关问题,加入这些项目之后, 标签的结构便应该是这样子的: 叫描述 q 解答 ( 关键字 ( 关键宁 ( ,关键字 叫关键字集 件目关问题集) ,问题) 其中“关键字”和“相关问题”都应该是一组,我们用标签 和 来表示,每个关键字再用标签 来表示;而相关问题则不必 再原样记录问题的所有内容了,用标签 记录一个识别码i d 即可。 为了分析用户的使用行为,我们要记录下系统为用户成功解答的问题,以便 根据它来进行系统的自动优化( “自组织”) ,专家也要利用这些信息来进行人工 的优化( 这只是一个查询系统而已,其知识归根结底是来源于人类专家,所以在 领域知识优化方面,在系统自动优化之外,专家的人工优化还是必要的。本研究 课题所追求的不是什么纯粹的“自动”,而是一个在现实中实用的构建实用查询 系统的方法) 。因此,除了记录基本的知识之外,还要记录下替用户所解决问题 的成功案例,以便分析与优化( 包括人工的与自动的) 。 用户成功地利用系统对领域知识进行查询的过程是:输入关键字,进行查询, 对查询结果及其相关主题进行有选择的奄看,问题解决了就结束查看,问题未解 决就继续输入关键字进行查询所以通过查询解决问题的过程就是一个输入 关键字和查看主题的循环过程。故对成功查询的记录标签以及结构方式初步设计 如下: 已解决问题 ,问题描述 q 关键字, 吲步骤 叫查询过程 叫己解决问题 其中 需由使用者额外输入, 则由系统自动生成。c 关 键字集 记录每一个步骤所输入的关键字,已分析使用者采用关键字的习惯,以 1 6 通过分析用户行为提高检索系统的查全率与查准率 帮助专家和用户提炼关键字,以及力。便系统自动分析和优化与关键字相关的查询 行为、排序与组织等。 这只是对成功查询记录的初步设计,具体的查询过程又包括对相关关键字的 选择、对主题的查看又包括对查询结果的查看、对相关主题的查看。对相关主题 的查看又包括对专家认为相关主题的查看、对相关关键字相关主题的查看、对用 户查询相关主题的查看等等,这些细节是否需要加以区别和记录? 如何记录? 这 些细节问题就留待对相关问题进行具体讨论时在详细分析。 对成功的查淘过程要进行详细的记录,同样对不成功的查询过程也要进行详 细的记录。成功查询的详细过程是可以提炼出许多有用信息出来的,如帮助优化、 帮助查询、调整结构等等,4 i 成功查询过程没那么多的功用,但专家确必须依赖 它来完善系统信息,或者调整系统信息( 当系统本身是含有解决该问题的信息, 面用户确无法将之查询出来的时候) 。对不成功的查询的记录类似与不成功的查 询,因为不过查询成功与否,用户的查询过程都是相似的,所以对不成功的查询 的记录标签和结构与成功查询也非常相似: 未解决问题 叫问题描述 q 关键字集 ( 问题l d 集 叫蝴题) 集 叫步骤 叫查询过程 叫未解决问题 通过分析用户行为提高检索系统的查全率与查准率 第三章系统基本功能的设计 本研究课题的目的是采用智能化分析的方法,对普通的查询系统进行改进, 使之能从用户的使用过程中自动提取有用信息,从中吸取“经验”和“教训”以 进行自我调整( “自组织”) 和自我完善( “自学习”) 。因为是采用某种方法对普 通系统进行改进和提升,所以必须先行设计一个“普通”的查询系统,再对之实 施改造,使之具有自组织、自学习的能力,从而超越普通系统,达到更加完善的 查询效果。 因为对系统功能的调整涉及到数据结构的改动,源程序也要作相应调整,所 以即使是在设计普通的基础系统的阶段,也要考虑后续的智能化设计,为后续设 计作好相应的准备。可以说,整个智能化系统是建立在本节所论述、建立的系统 基础上的,本节所建立的系统是专为整个智能化系统所专门设计的查询系统基本 框架,它是最终系统的有机的组成部分和专门设计的基础,整个系统将有它开始, 不断地完善、扩展开来,形成一个功能完善的整体。 系统的基本功能即信息的读取、添加、修改、删除、查找。因为本研究课题 采用的数据存储方式是x m l 文件,救这些操作晟终都映射到对x m l 文件的操 作,总的来说是对x m l 文件的读和写,具体来说便是对x m l 文档对象模型中 节点的操作:查询、读取、移除、添加。本研究课题采用,n e t 框架来实现这些功 能,编程语言则选用c # 语言。对于x m l 文件的操作,n e t 的类库提供了组比 较完善的类来处理x m l 文竹,c 舟语言也比较精练,因此系统的基本功能设计和 实现起来并不会太过繁琐。 3 1 增加条目功髋的设计 增加条目,即增加一个问题的解答,包括其标题、具体描述、解答内容、 系列的关键字、系列的相关问题等。其x m i 。文档节点的结构如下: 吲标题 吲描述 ( 解答础蓐 通过分析用户行为提高检索系统的查全率与查准率 ( 关键字 叫关键字 叫关键字 叫关键字集 叫问题 我们先设计一个将这些信息添加入x m l 文档的函数a d d p r o b l e m 0 ,它作为 本系统中操作x m l 文档的类x m l d o c 的一个成员函数。该函数的主要操作过程 是: 第一步: 先构造一个条同节点 并设置其属性“i d ”。其中属性i d 的值是根据存 储在x m l 文档的一个节点 中的值所指示的系统己用最大节 点i d 来确定,并且修改m a x i d ,已便下次使用; i n tm a x i d : m 8 z i d = c o n v e r t t o i n t 3 2 ( d o c s e l e c t s i n g l e n o d e ( 系统系统参数, m a x i d “) i n n e r t e x t ) + 1 d o c s e l e c t s i n 9 1 e n o d e ( ”系统系统参数m a x i d ) 1 n n e r t e x t = c o n v e r t ,t o s t r i n g ( 由a x i d ) s y s t e m ( 1 1 1 1 x m i e l e m e n tn e w p r o b l e m = d o ec r e a t e e l e m e n t ( 问题。) ; s y s t e m ) ( i n l x m l a t t r i b u t en e , p r o b l e m l d = d o e c r e a t e a t t r i b u t e ( i d ) : n e w p r o b l e m i d v a l u e :c o n v e r t t o s tr i n g ( a x i d ) : n e w p r o b l e t l l a t t r i b u t e s a p p e n d ( n e w p r o b l e m l d ) : 第二步: 在逐个构造 、 、 等节点,赋予各节点内容,并将其添 加到 节点下,作为其予节点。添加 标签的代码如下: s y s t e mx m l ,x u d e l e m e n tn e w p r o b l e m t i t 】e = d o c c r e a t e e l e m e n t ( 。标题) : n e w p r o b l e m t i t l eh l n e r t e x t = t i t le : 通过分析用户行为提高检索系统的壹全率与套准率 n e w l ,1 ,o b 】e ma d p e n d c h i i d ( n e w p r o b l e m t i t l e ) , 、 标签的构造代码也是类似的,限于篇幅,不再列出。 第三步: 构造
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 2026年河南省漯河市广播电视台(融媒体中心)人员招聘笔试参考试题及答案解析
- 2026年聚四氟乙烯衬里管行业分析报告及未来发展趋势报告
- 2026年泛半导体废气治理行业分析报告及未来发展趋势报告
- 2026年江西省萍乡市林业系统人员招聘考试参考试题及答案解析
- 2026年铝酸钙水泥行业分析报告及未来发展趋势报告
- 2026年昆明市西山区广播电视台(融媒体中心)人员招聘考试备考题库及答案解析
- 2026年托曲珠利行业分析报告及未来发展趋势报告
- 2026年汽车金融行业分析报告及未来发展趋势报告
- 2026年福建省三明市广播电视台(融媒体中心)人员招聘笔试参考题库及答案解析
- 2026年贝斯行业分析报告及未来发展趋势报告
- 中小学校服使用反馈与改进制度
- 成人失禁相关性皮炎的预防与护理
- 专题12 数列-【好题汇编】五年(2020-2024)高考数学真题分类汇编
- 福建省能化集团招聘笔试真题
- DL∕T 1794-2017 柔性直流输电控制保护系统联调试验技术规程
- 编辑打印新课标高考英语词汇表3500词
- 上海市2021年中考数学真题卷(含答案与解析)
- 膝关节患者护理课件
- (完整word版)中医病证诊断疗效标准
- 承包商安全资格审查表格
- 2022年河北青年管理干部学院教师招聘考试真题
评论
0/150
提交评论