(农业机械化工程专业论文)中医药古文献检索系统研究.pdf_第1页
(农业机械化工程专业论文)中医药古文献检索系统研究.pdf_第2页
(农业机械化工程专业论文)中医药古文献检索系统研究.pdf_第3页
(农业机械化工程专业论文)中医药古文献检索系统研究.pdf_第4页
(农业机械化工程专业论文)中医药古文献检索系统研究.pdf_第5页
已阅读5页,还剩53页未读 继续免费阅读

(农业机械化工程专业论文)中医药古文献检索系统研究.pdf.pdf 免费下载

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

摘要 随着计算机检索技术的发展,如何将高效的计算机检索技术取代繁重的古文献检 索,已经成为计算机检索理论的重要实践课题,也是古籍数字化工作者的奋斗目标。 在众多种类的古文献中,中医古文献有着特殊的历史地位,它是现代中医技术发展研 究的重要依据,是中医文化的源泉,是利用率最高的一类古籍文献。所以,中医古文 献检索系统的研究有着重要的现实意义和学术意义,对保护中医古文献也起到了积极 作用。 从2 0 世纪8 0 年代开始,文献工作者已经作了大量的数字化整理工作。但在中医 古文献组织整理或检索系统建立时,发现中医古文献的类型繁多,如何组织文献以及 如何利用已经整理好的古文献是建立文献检索系统的关键之一。因此,本研究提出根 据古文献整理的情况来划分数据类型。即未加工整理的为原籍文献数据,整理得非常 完整的为专题数据,对古文献进行了标引的为标引数据,还有部分数据是以图片形式 存在的称为原籍图像数据。中医古文献检索系统的研究主要是从古文献数据的组织存 储及检索两方面进行研究。存储方面,主要考虑如何设计数据库才能满足古文献的特 点。在四类数据中原籍古文献数据库结构的设计成为一个难点,因为古籍文献的体裁 是多种多样的,如何将不同体裁的文献以相同数据库结构存储起来是比较困难的。经 过研究发现,古文献虽然体裁是多样的,但从目录学角度来看,无论什么样的体裁都 有清晰明确的目录级别,所以本研究打破常规的以文献内容划分字段的数据库设计模 式,而改为以目录级别来划分数据库结构,这种数据库结构能把古文献中所有文体的 数据都能存储在一个数据库中。在检索方面,要考虑什么样的检索策略和检索结果的 浏览方式能够适应古文献的特点。在检索策略上除了一般检索系统中的一次检索、二 次检索、组合检索等,本研究增加了语义检索与后控检索。语义检索是系统根据用户 的检索词能够将包含相同语义的所有内容都检索出来;后控检索是将自然语言的检索 与信息检索语言相结合,有效的控制了检索范围。语义检索与后控检索的利用大大提 高了古文献的查准率和查全率。在检索结果的浏览方式研究上,除_ 股浏览方式外, 本研究还实现了摘要浏览以及自然段浏览。摘要浏览,即以在检索词周围产生摘要的 形式进行检索结果的浏览:自然段浏览,即以只显示检索词所在自然段的形式进行浏 览。 本文针对中医古文献检索而提出的数据库的设计、检索策略、以及浏览表示方法 等,经实验表明具有定的先进性,能够兼容各类古文献,能够提高查准率与查全率, 能够方便捡索用户对检索结果输出的各种要求。 关键字:文献检索;中医古文献;检索策略;后控检索:自然段浏览 a n c i e n td o c u m e n tr e t r i e v a ls y s t e mo fc h i n e s em e d i c i n e l ip e n g a g r i c u l t u r a lm e c h a n i z a t i o ne n g i n e e r i n g s u p e r v i s o r :p r o f e s s o rt e n gg u i f a a b s t r a c t w i t ht h ed e v e l o p m e n to fr e t r i e v a lt e c h n i q u eo ft h ec o m p u t e r , h o wt od oh i 曲一e f f i c i e n t c o m p u t e rr e t r i e v a lt e c h n i q u er e p l a c eo n e r o n sa n c i e n tl i t e r a t u r es e a r c h ,i th a sb e c o m ea i m p o r t a n tp r a c t i c et a s ko fc o m p u t e rr e t r i e v a lt h e o r e t i c ,a n dh a sb e c o m eaa i mw h i c h a n c i e n tb o o kd i g i t a lw o r k e r ss t r u g g l e i na n c i e n td o c u m e n t so fn u m e r o u sk i n d s ,c h i n e s e m e d i c i n ea n c i e n tl i t e r a t u r ei ss i t u a t e ds p e c i a lh i s t o r ys t a t u s i ti sai m p o r t a n te v i d e n c et o m o d e mt i m e sc h i n e s em e d i c i n et e c h n o l o g yd e v e l o p i n g ,a n di ss o u r c eo fc h i n e s em e d i c i n e c u l t u r e ,a n di sh i g h e s tk i n d o fa n c i e n tb o o kd o c u m e n to fu t i l i z a t i o nr a t i o t h e r e f o r e ,t h e r e a r ei m p o r t a n tr e a l i s t i cm e a n i n ga n da c a d e m i cm e a n i n gi nt h er e s e a r c ho ft h ea n c i e n t d o c u m e n tr e t r i e v a ls y s t e mo fc h i n e s em e d i c i n e i na d d i t i o n ,h a v ea l s op l a y e dp r o t e c t i v e a c t i o no na n c i e n td o c u m e n t so fc h i n e s em e d i c i n e s i n c et h ee i g h t i e so ft h e2 0 t 1 1c e n t u r y , t h ew o r k e r sh a v ea l r e a d yd o n eal a r g en u m b e r o fd i g i t i z a t i o no fa r c h a i cd o c u m e n t w h e no r g a n i z i n ga n c i e n td o c u m e n t sa n de s t a b l i s h i n g t h er e t r i e v a ls y s t e m ,f i n dt h et y p eo fa n c i e n td o c u m e n t so fc h i n e s em e d i c i n ev a r i o u s ,h o w t oo r g a n i z ed o c u m e n t sa n dh o wt ou t i l i z ea n c i e n td o c u m e n t st h a th a sb e e na l r e a d yp u ti n o r d e rt ob et h ek e yt os e t t i n gu pd o c u m e n tr e t r i e v a ls y s t e m s o ,d i v i d i n gt h et y p eo ft h e d a t aa c c o r dt oa n c i e n ts i t u a t i o nt h a td o c u m e n tp u ti no r d e rw h e ns t u d y i n gi ns y s t e m u n o r d e r e dd o c u m e n ti sc a l l e do r i g i n a ll i t e r a t u r ed a t a ;o r d e r e dd o c u m e n ti sc a l l e dt h e m a t i c d a t a ;a d d e dw a t c h w o r dd o c u m e n ti sc a l l e dw a t c h w o r dd a t a ;e x i t i n gap a r to f p i c t u r ed a t ai s c a l l e do r i g i n a lp i c t u r ed a t a n er e s e a r c ho ft h ea n c i e n td o c u m e n tr e t r i e v a ls y s t e mo f c h i n e s em e d i c i n ei sm a i n l yt w or e s p e c t st h a tm e m o r ya n dr e t r i e v a ls t r a t e g y s t o r i n gi st h a t h o wt od e s i g nt h ed a t a b a s et os a t i s f yc h a r a c t e r i s t i co fa n c i e n td o c u m e n t s d e s i g n i n go f o r i g i n a ll i t e r a t u r ed a t a b a s eb e c o m ea d i f f i c u l tp o i n ti nf o u rk i n d sd a t a b e c a u s et h et y p e so f a n c i e n tb o o kd o c u m e n t si sv a r i e d ,i ti sm o r ed i f f i c u l th o wt os t o r ed o c u m e n t so fd i f f e r e n t t y p e sw i t ht h es t r u c t u r eo ft h es a m ed a t a b a s e f i n d i n gt h r o u g hs t u d y i n g ,t h o u g ht y p e si s v a r i o u sf o ra n c i e n td o c u m e n t s ,f r o mt h ep o i n to fv i e wo fc a t a l o g u e ,n om a t t e ra l lk i n d so f t y p e so fk i n d sh a v et h ec l e a rr a n ko fc a t a l o g u e ,s oc o n s i d e r , b r e a kr o u t i n ed i v i d i n gt h e m o d eo fd e s i g no fd a t a b a s eo fs e c t i o no fw o r d sw i t l lt h ec o n t e n to fd o c u m e n t s a n di si ti s i td i v i d ed a t a b a s es t r u c t u r et oc o m eb yr a n kw i t hc a t a l o g u e ,t h ed a t a b a s es t r u c t u r ec a l ls t o r e a l ls t y l eo ft h ed o c u m e n t so fa n c i e n tl i t e r a t u r e i ns e a r c h i n g ,c o n s i d e r i n gw h a tk i n do f r e t r i e v a ls t r a t e g ya n dw h a tm o d eo f b r o w s i n gt h er e t r i e v a lr e s u l tc a na d a p tt oc h a r a c t e r i s t i c o ft h ed o c u m e n t so fa n c i e n tl i t e r a t u r e b e s i d e st 1 1 ef i r s tr e t r i e v a l 、t i l es e c o n dr e t r i e v a l 、 c o m b i n a t i o nr e t r i e v a le t c ,w h i c hh a v e b e e na p p l i e dr e t r i e v a ls t r a t e g y , t h i ss t u d ya d d s e m a n t e m er e t r i e v a la n db a c k g r o u n d - c o n t r o lr e t r i e v a l s e m a n t e m er e t r i e v a li ss y s t e m b a s i n go nt h ew o r do fu s e ri n p u t t i n gs e a r c ho u ta l lo fc o n t e n tt h a ti n c l u d et h es a m e s e m a n t e m et ot h a tw o r d s e a r c h i n g o fn a t u r a ll a n g u a g ea n di n f o r m a t i o nr e t r i e v a l l a n g u a g ec o m b i n et ob a c k g r o u n d - c o n t r o lr e t r i e v a l ,i te f f e c t i v e l yc o n t r o lt h er a n g eo f s e a r c h i n g s e m a n t e m er e t r i e v a la n db a c k g r o u n d c o n t r o lr e t r i e v a li m p r o v et h er e c a l lf a c t o r a n dp e g i n e n c ef a c t o r t h em o d eo fb r o w s i n gs e a r c h i n gr e s u l t ,b e s i d e sn o r m a lm o d e , t h es t u d yr e a l i z es u m m a r yb r o w s ea n dp a r a g r a p hb r o w s e t h es u m m a r yb r o w s ei st h e m o d eo fs e a r c h i n gr e s d tt h a tc r e a t i n gs u m m a r ya r o u n dw h i c hu s e ri n p u ts e a r c h i n gw o r d a n dt h ep a r a g r a p hb r o w s ei st h em o d eo fs e a r c h i n gr e s d tt h a td i s p l a y i n gt h ep a r a g r a p h w h i c h i n c l u d i n gt h eu s e ri n p u ts e a r c h i n gw o r d t h ed e s i g no fd a t a b a s e ,s e a r c ht a c t i c s ,a n dm o d eo fb r o w s et h a tt h i st e x tp u t sf o r w a r d a g a l m ta n c i e n tl i t e r a t u r es e a r c ho fc h i n e s em e d i c i n e ,h a v eb e e np r o v e da d v a n c et h r o u g h e x p e r i m e n t t h ea n c i e n td o c u m e n tr e t r i e v a ls y s t e mo fc h i n e s em e d i c i n ec a nc o m p a t i b l ea l l k i n d so f d a t ao f a n c i e n td o c u m e n t s ,c a ni m p r o v er e c a l lf a c t o ra n dp e r t i n e n c ef a c t o r , a n dc a n i ss a t i s f i e dw i t hs e a r c hu s e r sv a r i o u sk i n d so f d e m a n dt h a tr e s u l to u t p u t k e yw o r d s :l i t e r a t u r er e t r i e v a l ;c h i n e s em e d i c i n ea n c i e n tl i t e r a t u r e :r e t r i e v a ls t r a t e g y ; b a c k g r o u n d c o n t r o lr e t r i e v a l ;p a r a g r a p hb r o w s e 独创性声明 本人声明所呈交的学位论文是本人在导师指导下进行的研究工作及取得的研 究成果。据我所知,除了文中特别加以标注和致谢的地方外,论文中不包含其他人 已经发表或撰写过的研究成果,也不包含为获得塑j g 壅些盍堂或其它教育机构的学 位或证书而使用过的材料。与我一同工作的同志对本研究所做的任何贡献均已在论 文中作了明确的说明并表示了谢意。 学位论文作者签名:力r 8 乌 签字日期: 2 。嗒年月护日 学位论文版权使用授权书 本学位论文作者完全了解河北农业大学有关保留、使用学位论文的规定,有权 保留并向国家有关部门或机构送交论文的复印件和磁盘,允许论文被查阅和借阅。本 人授权塑i 垦盔些盘茎可以将学位论文的全部或部分内容编入有关数据库进行检索, 可以采用影印、缩印或扫描等复制手段保存、汇编学位论文。 ( 保密的学位论文在解密后适用本授权书) 学位论文作者签名: 砖4 畅 导师签名: 签字日期:洳。 年g 月譬日签字只期:。_ 6 年6 月锣同 学位论文作者毕业后去向 工作单位: 通讯地址: 电话 邮编 中医古文献检索系统研究 1 1 研究背景 1 1 1 课题的提出 l 前言 中国的古文献是古代科技发展的记载形式,而且种类繁多,是祖先留下来的一笔巨大的财富。 尤其是中医古文献,更是中医现在继续发展的理论基础和中医学者探索发现的源泉。古籍文献数 字化已经被列为数字化图书馆重点发展的项目川,在古文献中占相当大比例的中医古文献也被列 为数字化对象。但是当今所提到的古籍数字化,大部分停留在将古文献通过扫描等手段变为电子 文稿的阶段。而对于这样数字化的文档如何高效的利用,做得还不是很充分。 在中医研究中要想查到与研究对象相关的全面的信息,就要翻阅大量的书籍,甚至,要跑遍 全国各地,去收集相关内容的信息。因为有些珍贵文献都是孤本,而且承载这些内容的载体也是 多种多样的,有些只有在极少数图书馆内珍藏。因此,为了满足中医日益发展壮大的需要,更应 该考虑如何充分、高效的利用中医古文献这一宝贵财富口l 。 但在中医古文献的检索应用方面,在国内外还应该说是一个空白,还没有一个专业的中医古 文献检索系统,这与目前对中医古文献检索的需求增长是相矛盾的。随着中医学文化的推广普 及,不仅中医专业人员有文献检索的需求,非专业人员出于爱好,或日常使用也会进行大量的中 医文献检索,而这些被检索的中医文献中大部分又为中医古文献。所以应该建立一个专业的中医 古文献检索系统来满足检索需求的增长。 另外,在技术方面,情报检索1 自从2 0 世纪中期被提出,距今已有半个多世纪的历程,其 间检索理论不断得到扩展、延伸和丰富,已不蒋是仅仅以布尔模型、概率模型等为基础,而是逐 渐引入遗传算法、并行算法、粗糙集理论等构建智能检索的模型;检索手段已经全面更新换代, 手工式的检索方法已基本淘汰,取而代之的是计算机和网络;检索技术也获得飞速发展,不再是 布尔检索一统天下,而是一个集布尔检索、全文检索、超文本检索、智能检索等多种技术百花齐 放的时代:单语言检索已发展到多语言检索;单机检索也拓展到分布式检索;检索对象已从文本 扩大到多媒体信息。 根据上述原因,中医古文献检索系统的研究,将先进的检索技术用于中医古文献的检索p j , 会大大的提高检索效率,使中医研究者从繁重的检索活动中解脱出来而专注于检索结果的研究: 另一方面,丰富的信息检索技术理论也为中医古文献检索系统课题的提出提供了强大的技术保 障。 教育部2 1 i 工程项目“中国高等教育文献保障系统”子课题 河北农业大学硕士学位论文 1 1 2 研究意义 中医占文献检索系统的研究对中医古文献具有保护意义。中医古文献检索系统为了保障检索 结果的全面,将收集整理大量的中医古文献,收集的范围不仅局限于电子文稿,还要包括以其他 形式流传下来的所有中医古文献。收集文献的同时完成了对大部分中医古文献的归档、整理的过 程,从而对中医古文献起到了保护作用【6 j 。 从应用意义【1 米说,可以使研究者不再为查找某一信息而要浪费大量的时间穿梭在书的海洋 中,而是很轻松的在电脑中输入要查找的关键信息,计算机就能够较全面的查到研究者所需要的 资料。这样就使研究者能够有更多的时间只关注查找到的信息,而不必再花时间和精力去考虑信 息得到的过程。中医古文献检索系统的建立也方便了非专业的人员对中医古文献的检索。对于非 专业的人员在手工检索的时代实现对中医古文献的检索几乎是不可能的事情,因为非专业的人员 没有系统的中医古文献的文化背景,可能都不会了解自己所要检索的信息应该在哪类资料中去查 找。而中医古文献检索系统的建立,非专业的检索者可以输入检索词就能得到大量丰富的检索结 果。 另外,作为计算机检索比研究人员手工检索相关信息,查准率和查全率也会有大大的提高。 使检索人员在浩瀚的文献库中很快就能聚焦到所关心的信息。这样,大大的提高了检索人员的工 作效率。此外,智能检索技术的应用,会使检索结果精确而全面,这一点是手工检索无法达到的。 技术方面,中医古文献检索系统的研究在检索数据组织、检索策略研究、检索结果显示、古 文献检索分词等检索技术方面都作了比较深入的研究,所提出来的相关算法,也经过了实验的检 验,被证明是可行的,并且具有一定的先进性,因此在改进检索技术方面也有一定的作用。 中医古文献检索系统的研究也具有一定的学术研究意义。中国古文献的内容涉及到人们日常 生活与科学技术的方方面面,如此浩瀚的古文献要想实现计算机检索,在数据整理,检索策略等 方面应有与中医古文献相似之处,可以从中医古文献检索系统的研究过成发现问题,总结研究成 功或失败的经验,从而能够在古籍文献整理及数字化方面形成一套较完整的、系统的理论,以指 导各类古籍文献检索系统的开发。 所以,研究中医古文献检索系统的开发是具有比较重要和深远意义的。 1 1 3 可行性研究 检索技术飞速发展,布尔检索、全文检索以及加权检索不再作为单一的检索技术被用于检索 系统。w e b 技术的诞生,使超文本检索技术得到推出并得到发展,目前超文本检索技术已不仅仅 限于文本信息,而是扩展到对多媒体信息的检索,也被人们称为“超媒体检索”技术。另外,智 能检索技术及其理论研究也取得了很大的进展。用户智能检索接口、智能代理、自然语言的理解、 基于知识库的检索等研究已从实验室逐步走向应用;跨语言、跨数据库、分布式信息检索的研究 己趋于成熟;一站式检索服务平台开始普及;针对数据库和互联网的数据挖掘已成为包括情报检 索领域在内的多个领域的研究热点p ! 。 此外,计算机检索技术在中文系统中的应用已经有相当长的时间了,检索过程中比较复杂的 2 中医古文献检索系统研究 中文切词技术已经发展到成熟的阶段。另外在古籍数字亿的过程中的文字平台大部分都遵循了 u n i c o d e 的标准【9 j ,已经将古籍文献中出现的大部分汉字字符都能在计算机中存储、表示出来。 在其它方面,例如输入法、编辑器、程序语言、浏览器以及数据库管理系统都获得支持。这些技 术的发展都为占文献检索系统的实现提供了充分必要的条俘。 承担中医古文献检索系统课题研究的河北农大信息科学与技术学院数字化技术研究中心,在 硬件方面具有高r 陛能的计算机及其先进的多媒体信息采集设备已有多年从事检索课题研究的 经验,积累了大量研究资料,数字化研究中心入员全部都是硕士以上学历。该瀑题的合作单位是 山东中医药大学文献所,这就使得无论从计算机技术方面还是中医药文献基础知识方面都有了强 大的支持。为该课题的成功研究莫定了基础。 1 2 国内外研究现状 1 2 1 古文献的利用情况 从古文献检索的实现方面来讲,中国古文献现在已经有一部分作品能够实现检索l j “,但这样 的检索系统大部分是以单机版的形式向广大用户提供的,而且被制作的这部分古文献也只限制在 文体格式一致的大部头的著作上面,例如:四库全书、四部丛刊、二十五史等。尤其是 四库全书以内容丰富倍受制作者的青睐。据不完全统计,只以四库全书为对象的单机版 的检索系统僦有北京大学古籍数字图书馆、上海人民出版社、北京书同文数字化技术有限公司、 武汉大学出版社等多家机构毒作发行。这就使得中国古文献在利用上面出现了大量的数据库重复 建设的问题。并且,这些检索系统也不能将所有古籍文献包含进来。只是以某一部大部头著作为 检索对象。这样检索对象比较单一,大大降低了对古文献检索的查全率。 肽古文献检索所实现的功能上来讲,各个系统用得比较多的是特征检索( 题名、作者、关键 词词语检索) 以及由这些特征构成的布尔组配检索,功能车富的系统还可以实现由一个学者到另 一个学者、由书目到全文、由著作者条目到其简历、著述、由相关作者到相关作品的多个知识点 关联检索。这些检索对于古文献包含知识内容的挖掘还是有些不足。例如,古今异议字、词的检 索;同意异体字的检索;为了快速准确获取所需主题资料在进行词语组配检索时,不加以控制, 命中结果大部分可能不是自己所需,这点尤为突出。由于古文献与现代文献本身存在的差距,使 得不能完全套用现代文献检索策略来实现古文献的检索。 对古文献检索系统通过网络向大部分用户开放的目前还不是很多,在这方面工作台湾和香港 做的要多一些,国内主要是北京大学古籍数字图书馆做的比较好。 1 2 2 检索技术的现状 信息检索技术【1 2 , 1 3 1 是保证检索系统实现高效的检索过程、准确的检索结果的手段。目前常用 的检索技术有布尔检索、加权检索、多媒体检索、智能检索、跨语言跨平台检索等。 布尔捡索是信息检索中最基本的检索技术,几乎所有的捡索都是用到布尔逻辑检索技术。单 3 河北农业大学硕士学位论文 纯的布尔检索的实现方法有:顺排档检索( 如展开表检索算法、逻辑树检索算法等) ,倒排档检 索( 逆波兰展开表法等) 。这些算法的基本思想是将用户的检索提问用布尔逻辑检索式表达,然 后利崩不同的方法实现检索式的集合运算。 加权检索主要利用加权思想为检索词赋予权重,检索词命中的每一条记录均加上该词的权 数,然后根据捡索结果的权和排序输出。加权检索技术弥补了布尔检索不能区分检索结果重要与 否的缺陷,它能够根据检索结果对提问的相关度进行输出。 全文检索是用检索词对“原文”进行匹配的检索技术,为了提高检索速度,需要对原文进行 一定加工处理,形成能够满足全文检索要求的索引。由于全文匹配会带来,i = 量的误检,全文检索 算法中应含有能够排除检索垃圾的运算技术和方法。 超文本检索,更准确地说,不是一种检索技术,而是信息的组织方法与手段。它是把有关的 信息或资源通过超链接联系起来,检索时可以借助超链接实现相关信息的阅读。因此,超文本的 结构一般是在检索前组织好的,检索时只能顺其链接浏览。 多媒体检索主要是针对多媒体信息 c 表里孔穴) 、车草蘸对 。张仲最4 i 救和。、臣碍南。、萜彖鼯:强蔼靳邵等诺辞经方 ) z z t y t 大医必遗) y 叉颈够辑( 萌豫棘露 ( 谙家相法) ,瑟姆鼋五张) ( t 两曼i 六壬) 并颈精熟妇她乃得为t j : 氍j 若不衣者如无罾夜游动羲耘硬 2 z ( y ( 太医必读) t 敬绶熟读此寿 ,寻恿够理窜意钻研嫱碍s 言予i 医道1 青臭。) z z 7 涉箍群书) 1 又殛涉强群书,槐者p 若t 不凄t 五经1 夺耘亳仁望2 ) 蛰:( 手读t 三史幂 籀番吉夸2 事k 不凄 诸子碚事鼬币姥默商识2 :不读t 内经鼬币知袁慈悲喜台2 肇ht 币读t 庄l 佬,币能任真体运) 黜吉 蛰掩忌格潦而生至f 五行体z ) 七难最交) 并蕊秣醚若鲢其而学乏黜于医毽无轿穗碍母善母羲矣 z ) c l 这种标引工作做得非常细致,一般都针对词进行标引。在浏览时标引内容不显示,而检索时 可以用标引内容进行检索。这部分文献的目录层次已经由字母标示出来。标引内容为圆括号内的 内容,尖括号内容为原文,这些规则都可以直接利用。这些标引文献原本是为理想的中医古文献 检索系统而整理的,但是在实施过程中发现,要整理这类的标引文献需要花费大量的时间,而由 于是人工整理,难免会有纰漏之处,旦整理的文件有一丝半点的错误都不能完成入库操作,这 样就使以标引数据为基础的系统建设起来会非常的缓慢。所以在研究中医古文献数据时,这这部 分数据只是利用已经整理好的,而不在扩充该类数据。 4 ) 图像数据 最后一种数据资源便是以图片格式存放的文献资料了。例如图( 3 2 ) | 舂 r 1 。_ 萎 耄 鬃 翱 鬻 蠹 基 l 茎 一伴晕。孑 箸厂 囊 j - 千 唯 夺 番 妻 釜 lf 萋 田 至 堂 j 牡 鐾 蠢 蠹 = 女 妾羔 l n 瑚p 女 图3 - 2 原籍图像数据样图 中医古文献垃索系统研究 原籍图像数据保留了古文献的原始风貌,但在入库时为了满足多媒体检索技术的需要要人 工的加入标引信息,这样可能会根据理解不同所加入的标引信息不一样从而影响检索结果。这部 分文献最主要的作用是同原籍文献数据库整理好的文档作比对,方便专业人员研究。 因此,在中医古文献数据库是以专题数据库、原籍文献数据库、标引数据库、原籍图像数据 库四种类型的数据库为基础,又庄各类数据库中按照数据的内容进行了详细的划分。 3 4 古文献的分词 在现代汉语中,词是承载语义的最小单位,单个汉字一般很难单独表达一定的含义”。而在 古汉语中,单个汉字也能表达完整意思。而且在古汉语中的单字词的应用相对多字词还是比较广 泛的。但这不能说明,在中医古文献检索系统中不再需要对数据进行分词。由于该系统的研究范 围为中医古文献在中医领域里,有许多专业词汇是不能被拆分为单字词来检索的。例如:一些 药材的特有名称大黄、当归、琥珀、安息香;一些病症名词中风、痪风、暗风;一些药材炮制专 用词汇阴干、干烘、暴干等等,这些专用词汇都不能被拆分。所以,在对中医古文献分词要考虑 这些专有词汇必需被加入到分词词典中,否则误检率就会增加。例如,在检索“大黄”这一药材 名时,如果“大黄”一词没被存储在分词词典中,就会根据字来检索,会查出“大黄缄”,“大黄 麻”等完全不同概念的药材。所以这就要求,中医古文献检索系统中能够采用科学的分词技术, 来保障查全率与查准率。在研究中发现,厦门大学计算机与信息工程学院语言技术中心开发的 s e g t a g 分词软件能够满足中医古文献的分词要求,其中与现代文分词不同的是,中医古文献检索 系统中的分词词典需要由专业的中医文献专家来审核,确保词典内容的正确性。 3 5 检索策略的研究 文献检索语言主要有检索语言和自然语言两种“。检索语言是根据信息检索需要而刨制出来 的一种表达文献主题和信息提问的人工语言,它是在输入标引阶段对自然语言词汇进行控制;自 然语言作为人们日常用于交流的语言,符合人们进行检索的习惯,它最大的特点是“不受控制”。 信息检索语言和自然语言作为信息检索过程中的语言保证,在性能上各有长短,而且在某种程度 上,信息检索语言的优点正是自然语言的缺点,自然语言的长处正是情报检索语言的短处,这种 优缺点互补、互逆的必然性结果就使两者的互相渗透、互相结合,这也是当代检索语言发展的一 个个重要趋势。 信息检索语言与自然语言之间的关系“在中医古文献检索中表现的很突出。因为在古文献中 除了存在同义词、相关词还存在着大量的古今异议字和通假字。如果在检索过程中,对检索词不 加以控制,检索者可能会由于自身对古今异义谒或通假事、同义词、相关词掌握得不够而造成检 索结果就不全面。如何将用户输入的自然语言与信息检索语言相结合起来,提高查全率及查准率, 也是中医古文献检索系统要解决的一个难点。对于这个问题解决,通过研究在检索策略上加以改 进,增加了语义词表和后控词表,来把用户输入的自然语言与信息检索语言结合起来进行文献检 索,提高了查准率与查全率。 河北农业丈学硬士学位论文 3 4 1 一般检索方式 在中医古文献检索系统也采用了传统的检索方式,比如说:简单检索,二次检索,字段检索, 复杂检索以及组和检索”“。 简单检索,在检索框内输入要检索的检索河,系统查找该检索词在数据库中出现的位置及次 数,并将检索结果显示出来。这种检索方法,简单、通用,适合进行粗略的检索。由于切诃分词 的限制,这种检索方式的查准率和查全率比较低一些。但是,由于简单检索的方便简单,所以称 为人们广泛采用的检索方法。 二次检索,是在一次检索的基础上,也就是在一次检索的检索结果里面再进行二次检索。例 如:第一次的检索词为“中国”,会罗列出大量的含有“中国”这个词的检索结果,但像一些“发 展中国家”这样的句式也会存在与检索结果中。所以有必要再进行要检索的其他信息点,在 这些检索结果里进行二次检索。例如想要检索的信息为“中国的一些基本概况”,那二次检索, 就可以输入“人口”等一类的词,这样就会进一步筛选检索结果,使检索结果越来越精确。 字段检索,字段检索是针对一些专题数据库进行设计的。这类数据库一般都存放了某一明确 的内容,而对这些内容又有大家比较熟悉的一些属性。所以在检索时,可以只针对数据的某一属 性进行检索。例如:在方剂这一专题数据库中,可以选择只在“组成”这一字段内检索“山楂” 这个检索词。因为凡是方剂都有组成这一属性,所以就可以用字段检索的形式检索这类的数据。 字段检索中可以进行检索的字段范围是由系统提供给用户的。 复杂检索,是利用检索关系式。组合检索条件进行检索。这种形式的检索因为比较复杂,一 般只有少数专业的人才会使用。这种检索方式是利用a n d 、o r 、s u b 等逻辑关系和“o ”来组成检 索条件。只要检索条件的逻辑关系正确,检索出来的结果会是比较精确的。例如想要检索一条方 剂,它的组成中有山楂。没有巴豆,还要是汤剂,这时就可以写“汤a n d ( 山楂s u b 巴豆) j ,这 样一条检索关系式。 组合检索,又叫复合检索。就是可以把检索范围限制在不同的检索字段里,在不同的字段里 输入检索词,进行组合检索。这类检索方式与字段检索原理是基本相同的,不同的是将检索范围 扩展到多个字段。这样检索的结果会更加精确,基本能够完全满足用户的要求。例如,在复杂检 索中提到那个例子,就可以在“方名”这个字段里输入“汤”,在组成这个字段里输入“山楂s u b 巴豆”。 在上面提到的几种传统的检索方式中,简单检索能够满足用于的一般性检索,字段检索和组 合检索更加适合中医药一些专题数据库的检索要求。因为,在中医药的一些专题数据的结构化比 较强,数据所具有的属性大家也比较了解,例如,方剂这类专题数据库,大家都能想到肯定有方 名,组成,功效等一些属性,所以能够利用字段检索和组合检索,最快最准的检索到用户所需要 的资料。 3 4 2 语义检索 中医古文献经历了纷杂的古汉语的词义,语义的变迁,含义相同的词汇在不同的文献里可能 中医古文献捡索系统研究 会己完全不相干的词组表示出来。然而一般的用户对这些以不同词汇描述相同事物的现象不能够 完全掌握。所以如果用一个检索词检索所有与此词词义相关的信息,是很难查到全面的信息的。 举例说明,巴豆,在不同的朝代,不同的文献里都不同的叫法,有的文献里称为“刚子”,有的 文献称为“江子”。但这对于一般的人来说是不知道的,或了解的不是很全面的,所以只用巴豆 做检索词,这样就丢掉了包括“刚子”和“江子”的信息内容。 如何解决这个问题昵? 在中医古文献检索系统中设计了语义词表,用于存放有相同语义的词 汇。语义词表的库表结构设计的比较简单,只有一个字段:语义词。因为语义词之间的关系是相 互的,即互为语义词。所以把语义相关的词填到一个字段中,便于查找该字段中任何一个词的语 义词。在这个字段中词与词之间用空格来区分。系统检索时可以根据语义词中的空格的数量来确 定语义词的数量,并将每个语义词分别添加到检索表达式里。具体的语义检索流程可以描述为: 当用户输入检索词后,可以选择是否做语义检索,系统可以根据用户的选择,在语义词表里查找 与此检索词的语义词。然后用该检索词与它的语义词做逻辑或的关系,形成检索表达式,在数据 库中做全文检索。 语义词表是一个开放的词表,可以随着中医古文献专家的新发现而不断的丰富壮大。例如, 专家经过研究发现“白术”与“于术”都是指的统一中药材;“表虚”、“表气不固”、“卫气不固” 所描述的都是同一种症状,便可以将这些词添加到语义词表中。这样随着语义词表的不断丰富, 用户的检索结果也就会交得更加专业和全面。 3 4 3 后控检索 后控词表是目前所知的检索语言和自然语言结合的典范,它是利用规范语言的原理和方法编 制的自然语言检索用控制表,减轻了标引和检索负担,保证了自然语言的优点,后控是指由人工 智能辅助检索系统配备后控词表,对用户的检索要求加以分析、综合、归纳,转化为系统可接受 的语言,然后开始一种动态的智能引导检索服务的过程 后控词表专用于自然语言检索系统,在检索阶段控制的词表,也称只供检索的词表,其性质 类似于入口词表,其作用是对自然语言进行控制,建立等同、等级、相关等各种关系。后控词表 的根本出发点就是用户在检索过程中思考选择检索词的负担,提高检索系统的易用性,并为用户 调整检索策略提供科学的辅助工具增加查全、查准的可能性。在配备后控词表的检索系统中, 用户只要输入已知的检索词,系统利用后控词表自动地把同义词、相关词内容检索式,并用“或” 逻辑拼接联系在一起,从而提高查全率。借助于后控词表,用户需要什么样的专指度就有什么样 的专指度,而起各种水平的族性检索能力仍然存在。在用户和计算机对数据库进行检索的过程中, 后控词表起到桥梁作用。它的作用涉及到检索前延( 选词、确定检索途径、构造检索式) 和检索 后的反馈调节,即构造和调整检索策略。后控词表与纯自然语言检索系统的结合,在很大程度上 弥补了纯自然语言检索系统的性能和效率。后控词表实现了真正意义上的规范语言和自然语言的 兼容。 在中医古文献检索系统中,后控词表的建立以中图法中的( 医药卫生类) 、中医药学主 题词袁为蓝本,有人工将学科专业受控词表中的等同关系、准同义关系及相关关系抽取出来, 河北农业大学硕士学位论文 进行分析和组织,形成多个聚类关系的语义片断,由专家审查后构成后控词表的初表。 后控词表不是指单独一个词表,而是有三个词表,分别是表示词汇隶属关系的上位词表、下 位词表;表示词汇相关关系相关词表。上位词表和下位词袁用来纵向限制检索词的检索范围,相 关词表用来对检索词横向的相关扩展。 图( 3 3 ) 表述了后控检索与语义检索这实现过程。 用户可以和已经输入的检索词组 3 6 表示与浏览方式 围3 - 3 语义、后控捡謇流程围 检索结果的浏览在检索系统中是必不可少的。浏览方法又直接影响了用户对检索结果信息的 接受能力。一种科学的浏览方法可以帮助用户更方便的接受检索结果体现的检索信息,一种不适 合的浏览方法可以产生许多垃圾信息来干扰用户的判断。 浏览模型的种类有很多1 ,常见的有平坦浏览模型、结构向导浏览模型及超文本浏览模型。 平坦模型的思想是假设用户浏览一个具有平坦结构的稳定空间。平坦模型把文档看作二维平面上 中医古文献检索系统研究 的点或一维链表上的元素,用户在这样的文档中到处浏览,获取相关信息。由于平坦模型缺乏层 次性,用户的浏览行为容易迷航在给定的页面或屏幕上,找不到指定上下文的内容。结构向导模 型改进了这个缺点,采用目录式层次结构,把文档组织成目录形式的结构按主题分类组织文档, 是一种j i j - f 坦行模型。而超文本模型是由节点和链构成的非线性的信息组织网络模型。超文本是 一个允许以非顺序的方式在计算机屏幕上浏览文本的高层交互式导航结构,由节点和链组成,节 点之间的关系由链表示,节点和链构成一个有向图,支持用户的非线性浏览和信息存取。 在上面谈到的浏览模型中只是设

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论