




已阅读5页,还剩57页未读, 继续免费阅读
(计算机科学与技术专业论文)中医临床诊疗垂直搜索系统研究.pdf.pdf 免费下载
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
中文摘要 中医( t r a d i t i o n a lc h i n e s em e d i c i n e ) 是以把握和研究生命及疾病的宏观功能规 律为核心的学科,在2 5 0 0 多年的发展和实践中,中医以临床实践为基础,对中国 以及东亚各国的民众的健康做出了重大贡献。i n t e m e t 中含有丰富的医学信息资源, 并且资源总量仍然在快速的增长,如何从i n t e r n e t 中获取对人们有用的医学信息已 经成为目前研究的热点。垂直搜索引擎是用来从海量数据中快速获取知识的重要 工具,并且针对中医这一行业特色,可以获取更加准确、更加详细、更加深层的 中医临床诊疗信息。本文以中医临床诊疗数据面向普通公众便捷信息服务为目标, 设计并实现了中医临床诊疗垂直搜索系统t c m v s e 。t c m v s e 系统主要由三个核 心模块组成:w e b 信息搜集、信息抽取、信息索引与检索。本文的主要研究内容 包括: ( 1 ) 对b i c l u s t e r i n g 聚类进行深入研究,通过对c h a w k 算法的改进将聚类方法应 用在中医临床数据上,并获得了初步满意的分析结果。研究表明,应用b i c l u s t e r i n g 分析方法,能够得到中医临床诊疗中重要的药物配伍信息,并发现这些药物配伍 相应的针对性症状。 ( 2 ) 利用互信息对不断增长的临床诊疗数据( 包括结构化电子病例数据和中医 临床文献题录数据) ,以及w e b 临床诊疗信息资源实现医学实体关系相似度的计 算与更新,为中医数据挖掘提供精确的数据支持。 ( 3 ) 中医临床诊疗垂直搜索系统关键模块的实现,包括w e b 中医临床诊疗信息 的搜集和信息抽取、中医临床诊疗结构化数据的概念化处理等。根据系统需要, 我们采用m a l l e t 开源文本挖掘工具包进行信息抽取并利用l u c e n e 建立索引和 提供检索服务等。 关键词:垂直搜索引擎;信息抽取;b i c l u s t e r i n g :互信息;t c m 分类号:t p 3 9 1 a bs t r a c t t c m ( t r a d i t i o n a lc h i n e s em e d i c i n e ) i sad i s c i p l i n ew h i c hs t u d i e sa n de x p l o i t st h e m a c r of u n c t i o n so fl i v e sa n dd i s e a s e s d u r i n g2 5 0 0y e a r so f d e v e l o p m e n ta n dp r a c t i c e , t c m ,b a s e do nc l i n i c a lm e d i c i n e ,h a sm a d es i g n i f i c a n tc o n t r i b u t i o n st op e o p l e sh e a l t h n o to n l yi nc h i n ab u ta l s oi ne a s ta s i a nc o u n t r i e s i n t e r n e tc o n t a i n sp l e n t yo fm e d i c a l i n f o r m a t i o na n dw h o s er e s o u r c e sa r es t i l lg r o w i n ge x p l o s i v e l y , h o wt o g e tu s e f u l m e d i c a li n f o r m a t i o nf o rt c mr e s e a r c hh a sb e c o m eap o p u l a rr e s e a r c hd i r e c t i o n v e r t i c a ls e a r c he n g i n ei sa ni m p o r t a n tt o o lu s e df o ro b t a i n i n gk n o w l e d g e r a p i d l yf r o m t h eh u g ea m o u n to fd a t a ,t h u s ,w ec a ng e tm o r ea c c u r a t e ,d e t a i l e da n dp r o f o u n dc l i n i c a l m e d i c a li n f o r m a t i o na c c o r d i n gt ot h ed i s c i p l i n ec h a r a c t e r i s t i c so ft c m i nt h i sp a p e r , w ed e s i g n e dat c mc l i n i c a lv e r t i c a ls e a r c hs y s t e mc a l l e dt c m v s e ,w h i c h p r o v i d e s c o n v e n i e n ti n f o r m a t i o ns e r v i c e sb a s e do nt c mc l i n i c a ld a t af o rp u b l i cu s e r s t c m v s e s y s t e mc o n s i s t s o ft h r e ec o r em o d u l e s :w e bi n f o r m a t i o nc o l l e c t i o n ,i n f o r m a t i o n e x t r a c t i o n ,i n f o r m a t i o ni n d e x i n ga n dr e t r i e v a l t h em a i nr e s e a r c hc o n t e n t so ft h i sp a p e r a r ea sf o l l o w s : ( 1 ) b a s e do nd e e ps t u d yo fb i c l u s t e r i n g , w eu s ear e t r o f i t t e dv e r s i o no fc h a w k a l g o r i t h mt oe x p l o i tt h et c mc l i n i c a ld a t aa n do b t a i nf a i r l ys a t i s f a c t i o nr e s u l t s t h e s t u d ys h o w st h a tw ec a nn o to n l yg e tt h ei m p o r t a n ti n f o r m a t i o no fc o m p a t i b i l i t y b e t w e e nh e r b s ,b u ta l s ot h et a r g e t e ds y m p t o m so ft h e s eh e r b sc o m b i n a t i o n s ( 2 ) w i t ht h eg r o w i n gc l i n i c a ld a t a ( i n c l u d i n gt h ec a s eo fs t r u c t u r e de l e c t r o n i c c l i n i c a ld a t aa n db i b l i o g r a p h yo fc l i n i c a l ) ,a n dw e bc l i n i c a li n f o r m a t i o nr e s o u r c e s ,w e u s em u t u a li n f o r m a t i o nt oa c h i e v et h ec a l c u l a t i o na n du p d a t eo fs i m i l a r i t yb e t w e e n m e d i c a le n t i t i e s ,w h i c hp r o v i d e sa c c u r a t ed a t as u p p o r tf o rd a t am i n i n g ( 3 ) w eh a v ei m p l e m e n t e dt h ek e ym o d u l e so ft c m c l i n i c a lv e r t i c a ls e a r c hs y s t e m , i n c l u d i n gt c mc l i n i c a li n f o r m a t i o nc o l l e c t i o na n de x t r a c t i o nf r o mw e b ,t h ec o n c e p t u a l s t r u c t u r eo fd a t ap r o c e s s i n g ,e t c a c c o r d i n gt os y s t e mr e q u i r e m e n t s ,w eu s em a l l e t o p e ns o u r c et o o l k i t ,w h i c hi su s e df o rt e x tm i n i n ga n di n f o r m a t i o ne x t r a c t i o n ,u s e l u c e n ef o ri n f o r m a t i o ni n d e x i n ga n dr e t r i e v a ls e r v i c e s k e y w o r d s :v e r t i c a ls e a r c he n g i n e ;i n f o r m a t i o ne x t r a c t i o n ;b i c l u s t e r i n g ;m u t u a l i n f o r m a t i o n ;t r a d i t i o n a lc h i n e s em e d i c i n e c l a s s n o :t p 3 9 1 独创性声明 本人声明所呈交的学位论文是本人在导师指导下进行的研究工作和取得的研 究成果,除了文中特别加以标注和致谢之处外,论文中不包含其他人已经发表或 撰写过的研究成果,也不包含为获得北京交通大学或其他教育机构的学位或证书 而使用过的材料。与我一同工作的同志对本研究所做的任何贡献均已在论文中作 了明确的说明并表示了谢意。 学位论文作者签名: 、 硅乃 |签字日期印 5 8 年6 a b 学位论文版权使用授权书 本学位论文作者完全了解北京交通大学有关保留、使用学位论文的规定。特 授权北京交通大学可以将学位论文的全部或部分内容编入有关数据库进行检索, 提供阅览服务,并采用影印、缩印或扫描等复制手段保存、汇编以供查阅和借阅。 同意学校向国家有关部门或机构送交论文的复印件和磁盘。 ( 保密的学位论文在解密后适用本授权说明) 学位论文作者签名: , 7 - , k , 签字日期研年( 月伽 i 。 导师签名: 签字嗍垮6 月7 日 致谢 本论文的工作是在我的导师于剑教授、周雪忠老师及贾彩燕老师的悉心指导 下完成的,于教授严谨的治学态度和科学的工作方法给了我极大的帮助和影响, 周老师与贾老师孜孜不倦的教诲也使我受益匪浅。在此衷心感谢两年来于老师、 周老师及贾老师对我的关心和指导。 于老师、周老师及贾老师悉心指导我们完成了实验室的科研工作,在学习上 和生活上都给予了我很大的关心和帮助,在此向这三位老师表示衷心的谢意。他 们对于我的科研工作和论文都提出了许多的宝贵意见,在此表示衷心的感谢。 在实验室工作及撰写论文期间,刘佳、王国栋、秦建等同学对我论文中的研 究工作给予了热情帮助,在此向他们表达我的感激之情。 另外也感谢我的爸爸、妈妈、哥哥、妹妹,他们的理解和支持使我能够在学 校专心完成我的学业。 本文的研究得到国家9 7 3 项目辨证论治临床评价基本原理、方法和技术平台 研究( 2 0 0 6 c b 5 0 4 6 0 1 ) ,国家科技支撑计划项目( 2 0 0 7 b a l l 0 8 0 6 0 1 ) ,国家中医 药管理局行业专项( 基于临床科研一体化平台的中风等疾病中医药临床诊疗研究, 2 0 0 7 0 7 0 0 1 ) ,北京市科委科研攻关项目( d 0 8 0 5 0 7 0 3 0 2 0 8 0 4 ) ,北京交通大学人才 科技基金项目( 2 0 0 7 r c 0 7 2 ) 等的支持。 1 1研究背景 1 引言 中医是研究人体生理、病理,以及疾病的诊断和防治等的一门学科。中医药 学是中华民族的优秀文化,是我国医学科学的特色和优势,是国家卫生事业的重 要组成部分 1 】。由于中医是临床医学,它对某一理论的验证,主要是在临床诊疗 过程中进行验证的,并且中医诊疗依靠感性认识和经验积累 2 】,因此,形成创新 的中医理论是一个相对缓慢的发展过程。如何将中医临床诊疗信息便捷的提供给 中医研究者,并实现对大众普及,是促进信息共享与中医发展的有效途径。 c n n i c ( 中国互联网络中心) 第2 3 次中国互联网络发展状况统计报告数 据显示,截至2 0 0 8 年1 2 月3 1 日,中国网民规模达到2 9 8 亿人,普及率达到2 2 6 , 超过全球平均水平 3 】。由于国外医学搜索引擎9 0 以上是英文,使用相当不便, 加上国内中文医学搜索引擎起步较晚、人力财力相对缺乏、信息资源有限、检索 结果复多、专业性不强、用户群层次不高。在生物医学网页的自动搜索、自动分 类、自动索引、自动文摘、查询智能化和信息规模等方面与国外医学搜索引擎都 存在一定差距 4 】。因此,国内中医搜索引擎有着广泛的研发价值和应用前景。 1 2搜索引擎技术的发展现状 随着信息科学的进步和i n t e r n e t 的快速发展,网络资源越来越多,并且成为人 们非常重要的知识和信息来源。为了从海量数据中检索出对人们有用的信息,搜 索引擎已经成为获取信息的不可或缺的工具。搜索引擎涉及到人工智能( a r t i f i c i a l i n t e l l i g e n c e ) 、信息检索( i n f o r m a t i o nr e t r i e v a l ) 、信息抽取( i n f o r m a t i o ne x t r a c t i o n ) 、 计算机网络、分布式处理、数据库、数据挖掘( d a t am i n i n g ) 、自然语言处理( n l p ) 等多领域的理论和技术,所以具有综合性和挑战性 5 】。随着互联网的普及和w e b 信息的爆炸式增长,它越来越引起人们的重视。根据c n n i c 2 0 0 9 年2 月发布的 2 0 0 8 年中国搜索引擎用户行为研究报告,截至2 0 0 8 年底,中国搜索引擎用户 规模达到2 0 3 亿人,与2 0 0 7 年底相比,搜索引擎的用户增长了5 1 0 0 万,年增长 率达到了3 3 6 。目前,搜索引擎在全国网民中的使用率为6 8 ,在各种互联网应 用中位列第四f 6 1 。 1 2 1搜索引擎的工作原理 搜索引擎的工作原理包括:抓取网页、建立索引、提供检索服务【7 】。 ( 1 ) 抓取网页:每个搜索引擎都有独立的网络爬虫,爬虫程序通过下载网页并 提取网页中的链接,从而不断抓取网页。网络爬虫下载网页后,搜索引擎会对网 页做些预处理,包括网页消重、网页过滤、网页分类等。 ( 2 ) 建立索引:搜索引擎抓到网页后,会采用相关的技术建立索7 1 ( 例如比较流 行的l u c e n e 索引技术) ,并将索引存入索引库。 ( 3 ) 提供检索服务:搜索引擎根据用户输入的关键词,从索引库中查找与关键 词匹配的网页,并将检索到的结果按照某种形式反馈给用户。 1 2 2搜索引擎的类别 搜索引擎根据其工作方式,可以分为目录式搜索引擎( d i r e c t o r ys e a r c h e n g i n e ) 、机器人搜索引擎( r o b o ts e a r c he n g i n e ) 、元搜索引擎( m e t as e a r c h e n g i n e ) 【5 】。 ( 1 ) 目录式搜索引擎 目录式搜索引擎是最早出现的搜索引擎,它通过人工参与方式将网络信息按 照主题分成若干个大类,每个大类再分为若干个小类,依次细分,形成一个多级 目录式索引。由于目录式搜索引擎的信息分类和信息搜集有人的参与,因此该搜 索引擎的准确率高、结构清晰,用户可以按照目录找到所需要的信息,缺点是难 以维持大规模的数据量、信息更新不及时。这类搜索引擎的典型代表是y a h o o 等。 ( 2 ) 机器人搜索引擎 机器人搜索引擎( 全文搜索引擎) 采用网络爬虫技术,自动爬取互联网上各站点 的网页,从而大幅增加了搜索的信息量并且提高了信息的更新速度。但由于缺乏 人工干预,机器人搜索引擎查准率不如目录式搜索引擎,且检索噪音较大。这类 搜索引擎的典型代表是g o o g l e 、百度等。 ( 3 ) 元搜索引擎 元搜索引擎是一种通过调用其它独立的搜索引擎而完成搜索服务的搜索引 擎。用户只需提交一次检索请求,由元搜索引擎负责转换处理后提交给多个预先 选定的独立搜索引擎,并将所有查询结果集中起来以整体统一的格式反馈给用户。 这类搜索引擎中比较著名的有i n f o s p a c e 、d o g p i l e 、v i v i s i m o 等。 2 1 2 3垂直搜索引擎的优势 目前人们广泛使用的搜索引擎如百度、g o o g l e 等都是综合性的搜索引擎,这 类搜索引擎搜集到的信息涉及到很多领域,因此它们也被称为通用搜索引擎。通 用搜索引擎是通过搜集海量的网络数据,并对信息进行处理和组织后统一返回给 用户,因此信息量大,种类繁杂,但对于特定行业的检索就会面临查询不准确, 并且出现很多无用信息的问题。针对这一问题,垂直搜索引擎应运而生,它是对 垂直行业信息进行深度的加工,有效的整合,为用户提供网页搜索无法做到的专 业性、功能性,为用户提供深一步的服务和完整的体验,而不仅仅是提供信息的 检索 8 】。c n n i c 最新统计报告也对垂直搜索这个搜索领域新军的逐步完善与向前 发展给予了一定的启示 9 】,垂直搜索引擎已经成为搜索引擎发展的一个新趋势。 1 2 4典型的垂直搜索引擎 在国外,垂直搜索引擎的研究正在成为一个新的热点,当前具有代表性的系 统如下: ( 1 ) m e d s t o r y l :m e d s t o r y 位于加州的福斯特市,主要从事和健康信息有关的搜 索引擎开发,其搜索的结果被分门别类,例如,搜索结果可以被缩小到临床研究、 治疗、个人健康信息等等。m e d s t o r y 以i t 技术为基础的新媒体与健康教育结合, 给医药企业市场营销提供了新的选择,向大众提供了全面的医药健康信息。目前, 微软已经收购了m e d s t o r y ,并在m s n 网站中加入了医疗保健知识检索服务m s n h e a l t hs e a r c h 。 ( 2 ) s i m p l yh i r e d 2 :s i m p l yh i r e d 整合了薪酬研究网站、社交网络社区、g o o g l e 地图服务等内容。在这个招聘网站上,可以方便地搜索出某个地区某一职位的工 作列表、联系方式,并可以查看该职位在当地的薪酬水平及各地间的差异。在美 国商业周刊网站最近一次由在线用户评选出的“最喜爱的网站”中,其得到 了高达2 5 的投票率。 ( 3 ) e l s e v i e r 的s c i r u s 3 系统:s c i r u s 科学搜索引擎是一种专为搜索高度相关的科 学信息而设计的搜索引擎,获得2 0 0 1 搜索引擎观察授予的“最佳专业搜索引 擎奖”。s c r i u s 是目前互联网上最全面、综合性最强的科技文献门户网站之一。它 只面向包含有科学内容的网站,如大学和作者个人主页以及e l s e v i e r 自己的数据 1 h t t p :w w w m e d s t o r y c o m 2 h t t p :w w w s i m p l y h i r e d c o r n h t t p :w w w s c i r u s c o r n 3 库。 在国内,垂直搜索引擎也已经陆续出现并迅速发展,例如: ( 1 ) 酷讯4 :酷讯成立于2 0 0 5 年底,是一款以即时的生活信息为检索对象的垂 直搜索引擎,是涵盖衣、食、住、行和工作、交友、购物等各方面的专业生活信 息搜索平台。尽管初创不久,却依靠其专业化服务而异军突起,迄今已发展成为 全球规模最大、数据最全、用户量最多的中文旅游搜索引擎,覆盖全国2 0 0 多个 城市,日均访问量超1 0 0 0 万人次。 ( 2 ) 搜房网5 :搜房网成立于1 9 9 9 年,是大中华地区最大的房地产门户网站, 目前覆盖了全国4 5 个大中型核心城市,两度唯一入选“中国互联网百强企业 的 房地产类网站,是全球访问量最高的房地产类网站。目前搜房引擎提供新房、二 手房、租房、写字楼商铺、家居、资讯等搜索服务。 1 3论文的主要研究内容和结构 针对行业信息的垂直搜索引擎是当前搜索引擎研究的热点。本文以中医临床 诊疗信息面向普通公众快速获取信息为目标,实现了中医临床诊疗垂直搜索系统 t c m v s e 文中重点研究了基于改进的c h a w k 算法、医学实体关系相似度的计算 与更新、t c m v s e 系统的整体架构及系统各子模块的实现。 论文结构安排如下: 第一章主要论述了课题的研究背景、中医的发展现状和信息搜索的需求,并 简单介绍了搜索引擎的基本原理,以及分析了当前通用搜索引擎的不足及垂直搜 索引擎的优势。 第二章主要介绍t c m v s e 系统所涉及到的相关技术。文中详细介绍了网络爬 虫、信息抽取、b i c l u s t e r i n g 聚类,并对l u c e n e 、m a l l e t 开源包进行详细的分析。 第三章对b i c l u s t e r i n g 聚类深入研究,并根据中医临床诊疗数据的特点,通过 改进的c h a w k 算法实现中医药症模块的初步挖掘。 第四章讨论了t c m v s e 系统的总体设计,并介绍了该系统各子模块关键技术 的实现。 第五章是总结与展望,主要对论文的研究工作进行总结,并分析了t c m v s e 系统现存的问题。 4 h t t p :w w w k u x u n o n 5 h t t p :w w w s o u f u n c o r n 4 2t c m v s e 系统的相关技术 搜索引擎通常由三大部分组成:网页抓取系统,索引系统和检索系统 7 】。其 中网页抓取系统为索引系统提供数据来源,索引系统对搜集到的数据建立索引, 而检索系统就是通过查找索引库从而获得用户需要的信息。由于垂直搜索引擎是 通用搜索引擎的细分和延伸,因此其基本原理和工作过程与通用搜索引擎有相似 之处。本章结合了垂直搜索引擎的特点对以下几个技术做详解:网络爬虫技术, 信息抽取技术,互信息、b i c l u s t e r i n g 聚类、l u c e n e 索引和检索相关技术等。其中 网络爬虫技术用来抓取网页数据,信息抽取技术是从网页中抽取出结构化信息, 互信息用来计算中医实体关系的相似度,b i c l u s t e r i n g 聚类则是根据中医实体相似 度信息来挖掘中医药症模块,l u c e n e 用来提供网页数据、结构化数据及中医药症 模块的索引与检索服务。 2 1 网络爬虫 当前的网页信息采集技术,主要依赖自动采集软件,即网络爬虫,也称网络 机器人、网页蜘蛛等u o ,它利用网页文本中的链接递归访问新网页。其主要功能 是自动从网络上各个w e b 站点抓取网页,为搜索引擎的建立提供最原始的数据来 源。 2 1 1网络爬虫的工作方式 网络爬虫是一个自动提取网页的程序,它为搜索引擎从互联网下载网页,是 搜索引擎的重要组成部分。网络爬虫从一个或若干初始网页的u r l 开始,首先建 立u r l 连接,然后下载该网页,并不断从当前页面提取新的u r l 放入u r l 队列, 重复上述过程,直到u r l 队列为空即没有发现可以选择的u r l 为止。 2 1 2 w e b 搜索策略 在w e b 遍历过程中,通常将w e b 看做有向图,把网页文档表示成节点,超 链接表示成有向边。因此w e b 搜索过程可以转换成图的遍历过程。遍历的策略包 5 j 塞銮道太堂亟堂位j 金室殴垒堕y 堑丕统的扭羞拉苤 括深度优先、广度优先、深度广度结合算法及最佳优先搜索算法等6 。 1 深度优先算法 深度优先是指从起始页面p 。出发,沿p o 上的某一个链接一直搜索到不包含任 何超级链接的页面,从而形成一条完整的链。然后返回p 。,从p 。的其他链接按以 上步骤继续搜索,直到p 。中的所有链接遍历完毕。访问结束的标志是没有其他可 以访问的超级链接。这种算法的优点是从理论上能够遍历所有深层嵌套的页面, 但是由于w e b 结构树深度很大,会陷入到一个分支当中或有进入循环状态的危 险,并且采用递归方式实现深度优先搜索的时间和空间开销很大。 2 广度优先算法 广度优先是指从起始页面p 。出发,遍历p o 中所有链接,然后遍历其他页面的 所有链接,直到最底层为止。该算法的设计和实现相对简单,并且能够覆盖尽可 能多的网页。其缺点是在遍历深层w e b 文档时要花费很长时间才能到达。 3 深度广度结合算法 这是一种综合了深度优先和广度优先优点的算法,一方面可以覆盖大量的网 页,并且能够访问到深层w e b 文档;另一方面能够克服陷入循环危险。检索过程 中限制采集的深度或广度是一种比较实用的策略。 4 最佳优先搜索算法 最佳优先搜索策略按照一定的网页分析算法,预测候选u r l 与目标网页的相 似度,或与主题的相关性,并选取评价最好的一个或几个u r l 进行抓取。它只访 问经过网页分析算法预测为“有用 的网页。由于最佳优先搜索是局部最优算法, 因此在爬虫抓取路径上可能会忽略很多相关网页。 2 1 3网页的消重与过滤 为了能够连续不断地爬行,网络爬虫必须从已经下载的页面中提取新的u r l , 这就需要对下载的页面进行解析。由于在网络爬虫遍历互联网的过程中,有大量 网页是重复的【11 】,如果不加判断直接下载会造成很大的资源浪费,因此需要对网 页消重。针对内容相同的网页,当前比较成功的搜索引擎系统大多是基于关键词 匹配和结合向量空间模型来完成消重任务的【1 2 】。 网页过滤技术是研究如何从提取的u r l 中找到我们需要的,尽量过滤掉我们 不需要的u r l ,例如,如果我们只要文本信息,就可以过滤掉图像、声音、视频 等信息的u r l 。好的过滤技术及灵活的实现方法,可以满足不同场合的需要,使 6 h t t p :h c n w i k i p e d i a o r g w i k i w e b _ c r a w l e r # p a t h a s c e n d i n g _ c r a w l i n g 6 网络爬虫具有较强的适应性。 2 2l u c e n e l u c e n e 【1 3 是一个基于j a v a 的高性能全文信息检索工具包,并且是免费、 开源的,它可以方便的嵌入到各种应用中实现针对应用的全文索7 1 检索功能。 l u c e n e 的贡献者d o u gc u t t i n g 是一位资深全文索7 1 检索专家,曾经是v 二1 w i n 搜 索引擎( a p p l e 的c o p l a n d 操作系统的成就之一) 的主要开发者,后在e x c i t e 担任高 级系统架构设计师,目前从事于一些i n t e m e t 底层架构的研究。他贡献出的l u c e n e 的目标是为各种中小型应用程序加入全文检索功能。目前已经有很多j 趟厂a 项目都 使用了l u c e n e 作为其后台的全文索引引擎,其中比较著名的有: j i v e :w e b 论坛系统。 e y e b r o w s :邮件列表h t m l 归档浏览查询系统,e y e b r o w s 已经成为目前 a p a c h e 项目的主要邮件列表归档系统。 i f i n d e r :德国的网站检索系统。 m i t d s p a c ef e d e r a t i o n :一个文档管理系统。 c o c o o n :基于x m l 的w e b 发布框架,全文检索部分使用了l u c e n e 。 e c l i p s e :基于j a v a 的开放开发平台,帮助部分的全文索引使用了l u c e n e 。 2 2 1l u c e n e 技术原理 l u c e n e 的检索原理是索引搜索,即用空间换时间的手段。对需要检索的内容 预先建立全文索引,检索的时候对索引文件进行快速的检索,得到检索位置,这 个位置记录了检索内容的具体信息,如文件的属性信息,某个关键字等7 。 l u c e n e 的核心是一个采用倒排文件索引技术的引擎,它把每个检索词通过哈 希函数生成一个唯一值存在数据库中,这样查找的效率就要比关系型的数据库要 快得多。倒排索引的思想是,每个文档都可以用一系列的关键词表示,如果按关 键词建立到文档的索引便可以根据关键词快速地检索到相关文档,简言之,倒排 索引技术就是通过某种方式,将常见的“一篇文档中含有哪些词”这个问题转换 成“哪篇文档中有这些词”。 现在大部分的搜索( 数据库) 引擎都是用b 树结构来维护索引,索引的更新 会导致大量的i o 操作,l u c e n e 在实现中,对此稍微有所改进:不是维护一个索引 7h t t p :w w w c h e d o n g c o m t e c h l u c e n e h t m l 7 文件,而是在扩展索引的时候不断创建新的索引文件,然后定期的把这些新的小 索引文件合并到原先的大索引中( 针对不同的更新策略,批次的大小可以调整) , 这样在不影响检索的效率的前提下,提高了索引的效率。 2 2 2l u c e n e 系统结构分析 l u c e n e 作为一个优秀的全文检索引擎,其系统结构具有强烈的面向对象特征。 首先是定义了一个与平台无关的索引文件格式,其次通过抽象将系统的核心组成 部分设计为抽象类,具体的平台实现部分设计为抽象类的实现,此外与具体平台 相关的部分比如文件存储也封装为类,经过层层的面向对象式的处理,最终达成 了一个低藕合高效率,容易二次开发的检索引擎系统【1 3 】。 从图2 1 中我们清楚的看到,l u c e n e 的系统由基础结构封装、索引核心、对 外接口三大部分组成。其中直接操作索引文件的索引核心又是系统的重点。l u c e n e 将所有源码分为了7 个模块( 在j 瓜,a 语言中以包即p a c k a g e 来表示) ,各个模块所 属的系统部分也如下图所示。需要说明的是o r g a p c h e 1 u c e n e q u 睨 y p a s c a 是做为 o r g a p a c h e 1 u c e n e s e a r c h 的语法解析器存在,不被系统之外实际调用,因此这里没 有当作对外接口看待,而是将之独立出来。 索引核心 ; 基础结构封装 图2 1 :l u c e n e 系统结构 f i g 2 1 :l u c e n es y s t e ms t r u c t u r e 2 2 3数据流分析 理解l u c e n e 系统结构的另一个方式是去探讨其中数据流的走向,并以此摸清 楚l u c e n e 系统内部的调用时序。在此基础上,我们能够更加深入的理解l u c e n e 的系统结构组织,方便以后在l u c e n e 系统上的开发工作。这部分的分析,是深入 l u c e n e 系统的钥匙,也是进行重写的基础【1 3 】。 l u c e n e 系统中主要存在4 种数据流,分别是文本流、t o k e n 流、字节流与查询 语句对象流。文本流表示了对于索引目标和交互控制的抽象,即用文本流表示了 将要索引的文件,用文本流向用户输出信息,在实际的实现中,l u e e n e 中的文本 流采用了u c s 2 作为编码,以达到适应多种语言文字的处理目的。t o k e n 流是 l u e e n e 内部所使用的概念,是对传统文字中词的概念的抽象,也是l u c e n e 在建立 索引时直接处理的最小单位,简单的讲t o k e n 就是一个词和所在域值的组合。字节 流则是对文件抽象的直接操作的体现,通过固定长度的字节流的处理,将文件操 作解脱出来,也做到了与平台文件系统的无关性。查询语句对象流则是仅仅在查 询语句解析时用到的概念,它对查询语句抽象,通过类的继承结构反映查询语句 的结构,将之传送到查找逻辑来进行查找的操作。 2 2 4l u c e n e 软件包分析 l u c e n e 的组成结构:对于外部应用来说索引模块( i n d e x ) 和检索模块( s e a r c h ) 是 主要的外部应用入口8 。 p a c k a g e :o r g a p a c h e 1 u c e n e d o c u m e n t ; 这个包提供了一些为封装要索引的文档所需要的类,比如d o c u m e n t f i e l d 。 这样,每一个文档最终被封装成了一个d o c u m e n t 对象。 p a c k a g e :o r g a p a c h e 1 u c e n e a n a l y s i s ; 这个包的主要功能是对文档进行分词,因为文档在建立索引之前必须要进行 分词,所以这个包的作用可以看成是为建立索引做准备工作。 p a c k a g e :o r g a p a c h e 1 u c e n e i n d e x ; 这个包提供了一些类来协助创建索引以及对创建好的索引进行更新。这里面 有两个基础的类:i n d e x w r i t e r 和l n d e x r e a d e r ,其中l n d e x w r i t e r 是用来创建索引 并添加文档到索引中的,i n d e x r e a d e r 是用来删除索引中的文档的。 p a c k a g e :o r g a p a c h e 1 u c e n e s e a r c h ; 8 h t t p :w w w i b m c o m d e v e l o p e r w o r k s c n j a v a j i o - l u c e n e l 9 这个包提供了在建立好的索引上进行搜索所需要的类。比如i n d e x s e a r c h e r 和 h i t s ,l n d e x s e a r c h e r 定义了在指定的索引上进行搜索的方法,h i t s 用来保存搜索得 到的结果。 下面详细介绍l u c e n e 提供的一些基础类: ( 1 ) d o c u m e n t d o c u m e n t 是用来描述文档的,这里的文档可以指一个h t m l 页面,一封电 子邮件,或者是一个文本文件。一个d o c m n e n t 对象由多个f i e l d 对象组成的。 可以把一个d o c u m e n t 对象想象成数据库中的一个记录,而每个f i e l d 对象就是 记录的一个字段。 ( 2 ) f i e l d f i e l d 对象是用来描述一个文档的某个属性的,比如一封电子邮件的标题和内 容可以用两个f i e l d 对象分别描述,每个f i e l d 对象由两部分组成:对象名( n a m e ) 和对应的值( v a l u e ) 。f i e l d 对象中的值可以是任意文本或关键字。 ( 3 ) a n a l y z e r 在一个文档被索引之前,首先需要对文档内容进行分词处理,这部分工作就 是由a n a l y z e r 来做的。a n a l y z e r 类是一个抽象类,它有多个实现,针对不同的语 言和应用需要选择适合的a n a l y z e r 。a n a l y z e r 把分词后的内容交给i n d e x w r i t e r 来建立索引。其中最常用的是s t a n d a r d a n a l y z c r 类,它在处理中文时是将一个汉字 作为一个词。 ( 4 ) i n d e x w r i t e r l n d e x w r i t e r 是l u c e n e 用来创建索引的一个核心的类,它的作用是将所有的 d o c u m e n t 对象加入到索引中,最后将索引存储在索引库中。 ( 5 ) d i r e c t o r y 这个类代表了l u c e n e 索引库存储的位置,它是一个抽象类,目前有两种实现 方式:第一个是f s d i r e c t o r y ,它表示存储在文件系统中的索引库的位置;第二个 是r a m d i r e c t o r y ,它表示存储在内存当中的索引库的位置。 ( 6 ) q u e r y 这是一个抽象类,它有多个实现,比如t e r m q u e r y , b o o l e a n q u e r y , p r e f i x q u e r y 。 这个类的目的是把用户输入的查询字符串封装成l u c e n e 能够识别的q u e r y 类型。 ( 7 ) t e r m t e r m 是搜索的基本单位,一个t e r m 对象有两个s t r i n g 类型的域组成。生成一 个t e r m 对象可以有如下一条语句来完成:t e r mt e r m = n e wt e r m ( ”f i e l d n a m e ”, ”q u e r y w o r d ”) ;其中第一个参数代表了要在文档的哪一个f i e l d 上进行查找,第二 个参数代表了要查询的关键词。 1 0 ( 8 ) t c r m q u c r y t c r m q u c r y 是抽象类q u e r y 的一个子类,它同时也是l u c e n e 支持的最为基本 的一个查询类。生成一个t c r m q u c r y 对象由如下语句完成:t c r m q u c r yt c n n q u e r y = n e wt c r m q u e r y ( n e w t e r m ( ”f i e l d n a m e 竹,”q u e r y w o r d ”) ) ;它的构造函数只接受一个 参数,那就是一个t e r m 对象。 ( 9 ) i n d e x s e a r c h e r i n d e x s e a r c h e r 是用来在建立好的索引上进行搜索的。它只能以只读的方式打 开一个索引,所以可以有多个i n d e x s e a r c h e r 的实例在一个索引上进行操作。 ( 1 0 ) h i t s h i t s 用来保存搜索的结果。 2 3信息抽取 信息抽取是将自然语言文本中的信息以结构化形式抽取出来【1 4 】。我们利用信 息抽取技术和m a l l e t 开源包对网页文本进行命名实体识别,并从网页中抽取出 结构化中医临床诊疗信息。 2 3 1发展历史 早在2 0 世纪6 0 年代中期,人们就在研究如何从自然语言文本中获取结构化 信息,这被看作是信息抽取技术的初始研究。从2 0 世纪8 0 年代术开始,信息抽 取研究蓬勃开展起来,这主要得益于消息理解系列会议( m u c ,m e s s a g e u n d e r s t a n d i n gc o n f e r e n c e ) 的召开。正是m u c 系列会议使信息抽取发展成为自 然语言处理领域一个重要分支,并一直推动这一领域的研究向前发展 1 5 】。 从1 9 8 7 年开始到1 9 9 8 年,m u c 会议共举行了七届,目的是为信息抽取研究 提供公共测试平台。前两届m u c 明确了任务的定义;第三届m u c 引入了正式的 评测标准,如召回率和准确率等,并从新闻报告中抽取恐怖事件信息,而且首次 使用模板;第四届m u c 仍然是从新闻报告中抽取恐怖信息,但是模板变的更加复 杂;第五届m u c 首次采用平均填充错误率作为主要的评测指标,并引入了嵌套的 模板结构;第六届m u c 增加了三个新的评测任务:命名实体识另 j ( n a m e de n t i t y ) 、 共指( c o r e f e r e n c e ) 关系确定、模板元素( t e m p l a t ee l e m e n t ) 填充【1 6 】;最后一届m u c 又增加了一个新的任务模板关系任务,其目的是确定实体之间与特定领域无 关的关系i 1 7 1 。但是在m u c 会议定义的多项抽取任务中,仅有命名实体识另j j ( n a m e d e n t i t y ) 任务达到了较高的评测水平,而其余任务仍处于研究与探索阶段,距离实际 应用的要求相差很远。 近几年,信息抽取技术的研究与应用更为活跃。在研究方面,主要侧重于以 下几方面:利用机器学习技
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 2025年科技电子产品贴牌加工及售后维护合同
- 2025房地产抵押贷款合同模板:绿色建筑版
- 2025年高科技企业实习生高新技术企业认定劳动合同
- 2025版砂石料行业知识产权保护合作合同范本
- 2025拆旧房屋产权置换服务合同范本
- 2025版高品质住宅社区联合开发合作协议书
- 2025年度水电工程安全生产教育与培训合同
- 2025保密协议:能源项目信息保密合同范本
- 2025年度返聘高级管理人才与跨国企业合作协议范本
- 2025年度套装门市场拓展与代理销售合同
- 医务人员行为规范
- 光伏电站安全培训
- GB/T 35267.4-2025清洗消毒器第4部分:内镜清洗消毒器
- 职工安置方案模板
- DB45T 1056-2014 土地整治工程 第2部分:质量检验与评定规程
- ISO9001工厂质量体系文件
- 2025年春季学期 形势与政策讲稿第五讲-从教育大国迈向教育强国
- 柴油发电机组操作培训
- 四川2024年12月四川省雅江县县乡机关度公开考调15名公务员笔试历年典型考题(历年真题考点)解题思路附带答案详解
- 《目标是成功的灯塔》课件
- 老年护理学试题库(含参考答案)
评论
0/150
提交评论