(计算机科学与技术专业论文)基于二元语法的科技档案信息检索分类技术研究.pdf_第1页
(计算机科学与技术专业论文)基于二元语法的科技档案信息检索分类技术研究.pdf_第2页
(计算机科学与技术专业论文)基于二元语法的科技档案信息检索分类技术研究.pdf_第3页
(计算机科学与技术专业论文)基于二元语法的科技档案信息检索分类技术研究.pdf_第4页
(计算机科学与技术专业论文)基于二元语法的科技档案信息检索分类技术研究.pdf_第5页
已阅读5页,还剩75页未读 继续免费阅读

(计算机科学与技术专业论文)基于二元语法的科技档案信息检索分类技术研究.pdf.pdf 免费下载

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

臣防科学技术大学研究生院学位论文 摘要 科技档案信息管理既涉及到对数据库的管理也涉及到对海量文本信息的管理,因此如 何综合应用数据库技术和文本处理技术来提高管理系统的性能便成为一个颇有实际意义 的研究课题。本文针对科技档案信息管理的需求,系统地研究了中文信息的检索、标引和 分类等技术以及数据库技术,并将这些技术有机地结合在一起用于一个科技档案信息管理 系统的设计与实现。 本文通过分析各种索引项的适用范围,确定以二元语法作为科技档案信息的索引项。 文中提出了一种新的索引存储模型:全链接模块化b + 树( 记为f l p m b 树) 。f l p m b + 树继承了b + 树空间利用率高的特点。此外f l p m b + 树具有一定的故障恢复能力,能够方 便地对它进行垂直分割、水平分割或混合分割。最后对f l p m b + 树还可以进行整理以充分 利用存储空间并保证磁盘操作的连续性。f l p m b + 树的这些性质可以显著改善系统的性 能。 以二元语法索引项为基础,本文采用统计方法来实现文本的关键词自动标引。根据词 条的形成模式,定义了词条的相对置信度,并以置信度阈值范围来消除统计模式形成的非 真实词条。本文提出了逐步求精的关键词标引策略,通过逐步调整关键词的文本频度闽值 范围,使抽取的关键词不仅具有标识文本的能力,而且还具有聚类分析的能力,从而为文 本分类打下坚实的基础。 本文分析了文本分类的各种模型,设计了基于潜在语义索引模型的文本分类算法。该 算法使用一定数量的训练文本,自动抽取类别和文本的特征,并根据当前的类别设置来建 立分类模型。该算法通过计算文本和类别的语义相似度来提高分类精度。 本文研究了关系数据库的规范化设计技术与反规范化设计技术,提出了冗余字段、控 制字段、冗余表格等数据库设计优化技术,并采用数据规则或操作规则来保证数据的完整 性和一致性。在此基础上针对科技档案信息管理的特殊需求,设计并实现了一个科技档案 信息管理系统。 实践表明:采用二元语法作为索引项,采用自行设计的b l p m 。b 树以及相应算法来实 现索引和检索是有效的,基于二元语法的关键词逐步求精自动标引和文本分类是可行的, 针对科技档案信息管理的特殊需求采用反规范化设计及优化技术是成功的。为了进一步提 高关键词标引的精度,今后我们还需要对基于统计方法的分词技术进行更加深入的研究。 关键词:索引结构、全文检索、自动标引、自动分类、二元语法、潜在语义索弓 鼠防科学技术大学研究生院学位论文 a b s t r a c t t h et e c h n i c a la r c h i v e si n f o r m a t i o nm a n a g e m e n ti si n v o l v e di nd a t a b a s em a n a g e m e n ta n d m a s s i v et e x tm a n a g e m e n t s oh o wt oi n t e g r a t et e c h n i q u eo fd a t a b a s ew i t hc h i n e s ei n f o r m a t i o n p r o c e s s i n ga n dh o wt oi m p r o v et h ep e r f o r m a n c eo ft h es y s t e mb e c o m eav a l u a b l e r e s e a r c h s u b j e c t a i m i n ga tt h er e q u i r e m e n t so ft h et e c h n i c a la r c h i v e si n f o r m a t i o nm a n a g e m e n t ,t h i s p a p e re x p l o r e st h ed a t a b a s et e c h n i q u ea n dt h et e c h n i q u e so fs t o r a g e ,r e t r i e v a l ,f e a t u r ee x t r a c t i o n a n dc a t e g o r i z a t i o no fc h i n e s ei n f o r m a t i o n t h e s et e c h n i q u e sa r ei n t e g r a t e de f f e c t i v e l yi nt h e d e s i g na n di m p l e m e n t a t i o no fa t e c h n i c a la r c h i v e si n f o r m a t i o nm a n a g e m e n ts y s t e m t h i sp a p e ra n a l y z e st h ea p p l i c a t i o ns c o p eo fv a r i o u si n d e x i t e m s ,s e l e c t st h eb i 。g r a ma s i n d e x i t e mo ft h et e c h n i c a la r c h i v e si n f o r m a t i o n ,a n dp u t sf o r w a r dan e wi n d e xs t o r a g em o d e l : t h ef u l ll i n kp o i n t e rm o d u l eb + ( f l p m b + ) t r e e f i r s t l y , f l p m b + t r e ei n h e r i t st h eh i g hs p a c e e f f i c i e n c yo ft h eb + t r e e s e c o n d l y , f l p m b + t r e eh a ss o m ec a p a b i l i t yo ff a u l tt o l e r a n c e ,a n d c a r lb ec o n v e n i e n t l ys e g m e n t e dh o r i z o n t a l l y , v e r t i c a l l yo rb o t ho ft h e m l a s t l y , f l p m - b + t r e e c a nb ei m p a c t e do rr e s t r u c t u r e dt oe n h a n c et h ec o n t i n u i t yi nt h ed i s ko p e r a t i n g t h e s ef e a t u r e s c a l lo b v i o u s l yi m p r o v et h ep e r f o r m a n c eo f t h es y s t e m b a s e do nt h e2 - g r a mi n d e x i t e m ,t h i sp a p e ru s e ss t a t i s t i c a lm o d e lt oe x t r a c tk e y w o r d sf r o ma t e x t a c c o r d i n gt ot h ew o r d - i t e mb u i l d i n gm o d e l ,t h er e l a t i v eb e l i e v a b i l i t yi sd e f i n e da n du s e dt o c l e a ru pt h en o n - r e a lw o r d i t e m s t h i sp a p e rp u t sf o r w a r das t e p b y s t e pr e f i n e m e n ts t r a t e g yf o r k e y w o r d ss e l e c t i n g b ya d j u s t i n gd o c u m e n tf r e q u e n c yt h r e s h o l do ft h ek e y w o r d ss t e pb ys t e p , t h ek e y w o r d se x t r a c t e df r o mat e x tc a nn o to n l yi n d i c a t eb u ta l s od i s t i n g u i s ht h et e x t t h i s f e a t u r ee s t a b l i s h e sas t e a d yf o u n d a t i o nf o r t h ec l u s t e r i n ga n a l y s i s t h i sp a p e ra n a l y z e sv a r i o u st e x tc a t e g o r i z a t i o nm o d e l s ,d e s i g n sac a t e g o r i z a t i o na l g o r i t h m b a s e do nl a t e n ts e m a n t i ci n d e xm o d e l t h ea l g o r i t h mu s e ss m a l lt r a i n i n ge x a m p l e s ,e x t r a c t st h e f e a t u r e so ft h ec l a s s e sa n dt h et e x ta u t o m a t i c a l ly ,a n db u i l d sac l u s t e r i n gm o d e la c c o r d i n gt ot h e c l a s sf r a m e w o r ka tt h em o m e n t t h ea l g o r i t h mh a sah i g hc a t e g o r i z a t i o np r e c i s i o nb yc a l c u l a t i n g t h es e m a n t i cs i m i l a r i t yb e t w e e nat e x ta n dt h ec l a s s e s t h i sp a p e re x p l o r e st h ed a t a b a s ed e s i g nt e c h n i q u e so fn o r m a l i z a t i o na n dd e n o r m a l i z a t i o n , p u t sf o r w a r dt h er e d u n d a n c yf i e l d ,c o n t r o lf i e l d ,r e d u n d a n c yt a b l ea n do t h e rd a t a b a s ed e s i g n o p t i m i z a t i o nm e t h o d s ,c o m b i n i n gw i t ht h ed a t ac o n s t r a i n ta n dt h eo p e r a t i o nc o n s 乜m n tt oa s s u l e t h ed a t ai n t e g r i t ya n dc o n s i s t e n c y u s i n gt h e s em e t h o d s ,a i m i n ga tt h ep a r t i c u l a rr e q u i r e m e n t so f t h es y s t e m ,at e c h n i c a la r c h i v e si n f o r m a t i o nm a n a g e m e n ts y s t e mh a sb e e nd e s i g n e da n d i m p l e m e n t e d t h ee x p e r i m e n tr e s u l t si n d i c a t et h a tu s i n g2 - g r a ma si n d e x i t e ma n du s i n gt h eb l p m - b + 国防科学技术大学研究生院学位论文 t r e ea si n d e x i n gs t o r a g es t r u c t u r ea r ee f f e c t i v e ;e x t r a c t i n gk e y w o r d sf r o mat e x ta n dc l a s s i f y i n ga t e x tb a s e do nt h e2 一g r a ma r ef e a s i b l e ;u s i n gs o m ea b n o r m a l i t yd e s i g nm e t h o d st oo p t i m i z e s y s t e mp e r f o r m a n c ea t es u c c e s s f u l w ew i l lg od e e pi n t ot h es t u d yo nt h ew o r ds e g m e n t a t i o n t e c h n i q u eb a s e do n 壤es t a f f s t i c a lm o d e lt oi m p r o v et h ei n d e x i n gp r e c i s i o n 。 k e y w o r d s :i n d e xs t r u c t u r e , f u l lt e x tr e t r i e v a l , a u t o m a t i ci n d e x i n g ,a u t o m a t i cc a t e g o r i z a t i o n , b i - g r a m , l a t e n ts e m a n t i ci n d e xm o d e l i i i 独创性声明 本人声明妒量变的学位论文是我本人在导师指导下进行的研究工乍及取得 的研究成果尽我所知,除了文中特别加以标注和致谢的地方外,论文中不包含 其他人已经发丧耙撰写过的研究成果,也不包含为获得国防科学技术大学或其它 教育机构的学位或证书而使用过的材料。与我一同工作的同志对本研究所敛的任 何贡献均已在缠( 中作了明确的说明并表示谢意。 学位论文翘雪: 茎王三丞适鎏的型整整塞焦! 皇:拴塞佥娄夔垄堑究 学位论艾# 詈荃名 p 嘻c 司7 目三期:如v 年 华号,o 日 学位论文版权使用授权书 本人羌全j 艇雪防科学技求大学有关保留、使习学位论文的规定,本人授权 国防科学技术i 量可以保留并向国家有关部门或机构送交论文的复印件和电子 文档,允许论r ( 玻至阋和借阐:可以将学位论文的全部或部分内容编入有关数据 库进行检索,i ,二采用影印、缩印或扫描等复制手段保存、汇编学位论文。 ( 保密学位沦文在解密后适用本授权书。) 学位论文题目 学位论文作音签名:蟊( 司? d 作者指锄憾名:壁盘拿 日期:冽年弘月,口日 日期:2 叫年华月f d 日 国防科学技术大学研究生院学位论文 图1 1 图1 2 图2 一l 图2 2 图2 3 图2 4 图2 5 图2 - 6 图2 7 图2 8 图2 9 图2 1 0 图2 11 图2 一1 2 图2 1 3 图2 一1 4 图3 一l 图3 - 2 图3 3 图5 1 图5 2 图5 - 3 图5 - 4 图目录 档案信息收集路线 档案信息利用路线 字索引与二元语法索引 字符集表示, 二元语法表示 删除b 木树冗余指针 均分操作 结点结构示意图, 树结构示意图 f l p i b 树及其头文件 f l p i b 卑树检索 f l p i - b * 模块插入流程 f l p m b 树重构流程 自下而上构造f l p ) , i b 树第四层 自下而上构造f l p m b 树第三层 自下而上构造f l p m b 树第二层 逐步求精标引策略 自动标引步骤 词条过滤算法流程 各范式的关系 三级表格显示效果 检索总体效果图, 文档存储结构 o。,三墙加狮牡盟盟嬲弘嬲鲫鲫趴“北拍船弱眈鹋 、 蓬。转辩学技术夫学磅究生院学犍论文 表2 一l 表2 2 表2 3 表2 4 表2 5 表2 6 表2 7 表2 8 表2 - 9 表j l 表j 一2 表5 3 表5 4 表5 - 5 表一6 表5 7 表冀录 文本i 的数缀表示 文本 翁翻籍 表表示 文本i 的p a t 数组袭示 文本i 的p a t 数缀稔索。,。 文本l 的后继指针表示+ 文本f 的二元组表示 文本i 的二元数组恢复,。 文本i 的后继数组表示, 索弓| 顼选捶对魄。, 三级表格示例 滔转移德芬法的数摆示镶。,。 复份档案处理办法比较, 摆案类副表缝搀。,+ ,。,。, 接收编号表结构, 数据黪缓诗方法密较 用户的检索范围,。 砖m h n弛地坛m丽弧w弱馥姚 国防科学技术大学研究生院学位论文 第一章绪论 1 1 目的与范围 本文研究科技档案信息的管理技术。科技档案信息具有显著的特点,这些特点使其明 显地区别于搜索引擎等其它信息管理系统。从信息管理的角度来考察,科技档案信息具有 下列特点: 科技档案信息语种单一。本单位的科技档案文字材料都是用中文撰写的,文本中只有 一些英文缩写。由于英文词汇或短语都有相应的中文译名,所以英文词汇可以忽略。科技 档案信息的文字材料基本上都是w o r d 或p d f 文档,采用u n i e o d e 编码。因此本文考虑 的科技档案信息都是中文信息,格式比较单纯。 科技档案信息形成的内部性和内容的专业性。科技档案是一个单位的科技人员在科研 活动中形成的技术报告,具有自产自用的特点,信息使用人员往往就是信息形成人员,对 信息内容比较熟悉,因此要求较高的查全率,对查准率的要求却不一定很高。科技档案是 科研活动的产物,有很强的专业性,而且往往仅涉及有限的若干个学科专业。因此,科技 档案信息管理具有内部性和专业性的特点。 科技档案信息的实时性。相对于搜索引擎来说,科技档案信息的更新是小批量的实时 更新,而搜索引擎是大批量的间隔刷新。科技档案信息更新的数据量也不会太大,信息更 新是一种添加或删除方式的更新,而不是全部刷新。因此科技档案信息具有实时性。 从科技档案实体管理的角度来考察,科技档案管理具有下列特点: 科技档案信息的重复性。对于一些重要的档案材料,科技档案都是一式两份( 或者多份) 保存,其中有一份是原件,其它的是副本( 复印件) 。从档案信息管理的角度看,除档案 编号不同外,档案信息是完全一致的。因此科技档案存在实体不同而信息相同的情况。 科技档案信息利用的保密性。科技档案利用采用严格的控制手段,对一些涉及核心技 术或关键技术的档案实行特殊保护制度,只有档案的责任人才可以查阅;绝密机密档案只 有相关的人员才能查阅。因此科技档案的利用范围要严格控制。 科技档案信息的层次性。科技档案信息采用案卷、保管单位和文件三个层次进行管理。 一个案卷包含若干保管单位,一个保管单位包含若干文件。 从技术的角度来考察,科技档案信息管理涉及到中文信息处理技术和数据库技术。科 技档案信息的语种单一、形成的内部性、内容的专业性、信息的实时性等特点意味着可以 采用一些计算密集型的算法来实现系统需求。科技档案的其它特点要求设计出具有层次性 的,能处理重复数据的数据库表格;严格控制档案的利用范围。总之,科技档案信息管理 需要以中文信息处理技术和数据库技术为基础。 第1 页 蓬。璐秘学授零夫学疆究生院学位论文 1 2 历史与现状 中文信息处理就是将自然语占语句转换为某种机器的内酃表示形式。这种内部袋示形 式应怒完整缝翔委訇子豹词法、句法或螽义信息,然爱在这狰痰部表示形式上进行傣惑检 索,信息分类,信息抽取( 融动文摘系统) ,问题求解( 自然语言问答系统) 。向另外一种 垂然语言转换( 辊器熬译系统) 。当藏绝大郝分自然语言理解系统都是在固法这一痿次上 进行分析理解的i ”。中文信息处理技术的研究已经膏近二十年的历史,目前在机器黼译和 搜索弓 擎方蕊的应用成果昱鬻。两务种应用对自然谗言理解的要求谢所不同,或者说使用 的技术有所偏重。 机器翻译与信息触取:对于语句的理解求精求凇,要求能准确理解语句的真正禽义。 谬甸斡含义不仅是字面上的含义,而虽述包括眈喻、借代等灵活运用语言的含义。因 此对于分词技术与歧义娥理,对于时间1 2 、逻辑关系 3 1 的理解要求精益求精。在语句理 熊的基磷上进露觚全文范围或者文档缩梅翡角度宋瑾解信息,形成自动标;l 和蠢动文 摘技术。 菝索弓 擎:对予语旬静壤解求茯求多。搜索引擎懿信惠爨夫,瑶户量大,为了傻蘩 0 祭数据满足特定用户的需求,对相关度技术,对海量信息的搜集、存储、索引、检索 羧零,怼涛足震户潜在鬻求技术蠡冬萋秀究甏粕深入。专懿技术对予其它瘦爝意义不大, 旗至是不可理解的。 金监薅惑謦理:点题震袋分子蕊甏嚣老之潮,嚣要一定鹣准确程发,震鬻譬理氕专g 的数据,提供上千人的倍息查询服务。对于信息安全的要求,使企业信息管理与机器 麴译或煮搜索辱l 擎截然不同。金照售患爨企监的黠富,农售息剥建上不仅具蠢肉部蛙, 照重要的是有职能划分。 受限使用:主要集中在囊然语畜人枫晏聪方面,对自然语言的念令进行识别并执霉亍相 廒的操作。一般蹩建立一个专用的词汇词典、语义词典,并建立句型规则和语义信息, 剿用这些词典和拽则进行语义分析和词义辨别。由于根据所处璐的特定功能或范围来 设计词燕和规则。就把自然语言理解限定在一个极其有限的范丽( 4 j l 。 科技档案信息管理大致棚当于企业信息瓣理,信息安全装求具体地表现为控制傣息检 索范湖。科技档案管理从一个荤位来讲是规范的,德从部门或地区的角度来看又是程差羽 的,器档案部门的收集范围不同,管理方法也不同。目前科技档案镑理尚未彤成协调一致 静管毽办法,这也是我们秀发稃技耧案信怠管理系统翡禳本琢因。幂幸技橙案管理蚕蒲既寄 商品化的档案管理软件,也肖上级下发的管理软件,但是它们都与我们的具体管理办法相 篪节,无法毽雳或者难 薹健灌。具体戆说主要存在下嚣豹死个阂遂: 全文检索普遍基于词表或者规则。词表的维护对于科技档案管理是一项沉重的负担, 工作入员菝赘在维轳涎表主耱精力怒褥不搂失戆。萋予运衰竣怒刘,并不煞媒涯谲添謇动 切分的准确翠,对提高系统的性能也没有明攫的作用。我们分析了豳信贝斯的i b a s e 数据 第2 页 莺防辩学技米天学辑究黧院学位论文 库产品,它提供了基于字的索引与梭索,但是不支持文本的标引与分类。我们试图采用类 毂予鏊于字鹣索弓| 方式,数遐受词表懿毫暴维护残零。 自动标引基于主题词表戏禁用词袭。与全文检索一样,撼于主鼷词表或禁用词袭增加 了弱户戆负掇,也不戆瀑涯栋萼l 豹麟度。 文本分类主要通过对一系列训练样本的分析来预测未知文本的类别属性,一般璎求分 类体系固定举变。科技挡案德息豹专业牲强,要求能够及时调整类别设置,使类别设置符 合科技档案的收藏情况。 科技档絮管理的些特点是我们蓠先提出并采用的,因此在通髑的档寨管理系统中没 有这魑功能。如档案信息内释的重复是为了僳护档寨原件丽采用的方法,平时尽量利用副 本,减少对原件的磨损。特殊保护制度是为了保护知识产权,解除科技人员的顾虑,使科 技成柒在一是时间范闰内不被他人占有或享用。辩羧档案信怠的三级管理谗是我们爨出酶 档案信息管理办法。因此科技档案倍息管理有其特殊需求,采用商品化软件或者下发的软 件筠无法满怼我稻豹管瑾需求。 。3 矫究内容 本文试强完袋科技整寨傣惑兹数攮疼警遴系绞,并实魂科技挡豢售塞豹全文捡索、关 键词自动标引和文本自动分类。科技档案信息管理系统要求:在档案信息著录的同时,对 文本避嚣索g 、撂引稠分类;为趱户提供搂褰著录矮检索、类裂缝索、全文检索,骥耀产 可以浏览选窳的文本。具体地说包括以下研究内容: 1 ) 基于二元语法骢索引存姥结构磺究: ( 2 ) b l p m - b 。树索引算法与检索算法设计: ( 3 ) 自动橱引的逐步求携策赂研究; ( 4 ) 基于= 元语法的自动称引算滋设计: ( 5 ) 基于潜在语义索引模型豹文本分类算法设计: ( 6 ) 关系数据库设计优化技术研究。 。4 技术路线 瓣技橙寨信惠警瑾包括傣怠浚集耩售惠铡雳两个部分。信怠浚燕楚援熬一些文本纳入 信息管理系统,进行相关处理,使之能够被用户利用。信息利用是指提供特定的用户界面。 实凌信息著蒙、售惑捡索或文本淀蘩。 1 。4 + 1 接患收羹黪线 按照目前的科技档案管理办法,接收的科技档案材料包括两部分。一部分是传统的书 第3 燹 濯茨鞑掌技术天掌磅嚣釜茨学位论文 本型档案( 称为科技档案材料或实体) ,另一部分是电子文件( 称为科技档案文件或文本) 。 科技挡案材料经过萋录积分编戬嚣成为正式的挡寨实落。搂案实体浆忍数掇库系绫进行管 理。科技档案文件经过索引、标引、分类后纳入全文存储系统,作为档案燕体的补充,并 建立档案实体与文本的链接。实际的工作流程参考蹋卜1 。 图1 _ 1档案信息收集路线 本文孛索引过程袋蠲二元语法 乍为索引磺,以鸯雩亍设计鲍全链接模块化8 $ 键( f l 蹦一b 毒) 作为存储结构,使用自行设计的算法来实现索弓1 的建立与更新以及信息检索。关键词标引 采用绞计方法来实现,根据制定的关键词逐步求糖策晤,毽糖取的关键词其有标识文本能 力和聚类分析能力。本文中的文本分类基于潜在语义索引模型来实现,在人工分类的基础 上对束分类文本自动分类,以避免囊动分类的盲目性。著且根据当蔚的类别设置来建立分 类模凝。 ,4 。2 壤悫矧零路线 横寰信息的利用罄先要分板用户鬻求。恕用户嚣求分勰成四个部分:著录项检索、全 文检綮、文本浏览和检索约荣条件。文本浏鼹是用户对特定的检索结果发出的请求,直接 从全文存储系统中调用文本返回给用户。检索约柬条传包括兰个方麟:特殊保护约寒( 用 户只能检索蠢己归梢的特殊僳护档案) ;密缀约束( 粥户可黻检索秘密以下的档案) ;工伟 类别约束( 用户只能检索特定工作类别的绝密机密档案) 。光论是蓑录项检索还是众文检 索都黉求对稀户的检索范围避行限定。数据簿系统茅酷全文存储系统分溺完戚检索,对检索 结果进行合多# 处理后返回客户端。具体路线参考图1 2 。 第4 蕊 国。舫科学技术大学研究生院学组论文 图i - 2档案信息利朋路线 1 5 研究成粜 我们研究的对象箍科技档案信意管理,它涉及到中文倍感处理技术和数据库技术。我 们着獯研究了基于二元语法索引项的科技档案信息梭索、标引和分类技术和数据库设计优 化技术。采掰二元语法索弓l 矮的主要酱的是避免词表维护的沉重受援。本文的主要懿献是: 本文提出了一种新的索引存储结构模型:全链接模块化b 树( f l p m b t 树) 。f l p m - b * 树继承了b s 褥鲍赢效空淹稠精率;簇有一定黪敲簿恢复能力;可潋方便逢实麓垂蠹分裁、 水平分割或卷综合二者的混合分割;可以进行整理,以充分利用存储空间并保证磁盘操作 豹连续睦。f l p m - b * 褥静这整性蒺对予提高系统性麓指标爨有重要意义。 本文提出了逐步求精的关键词自动标引策略。懑过调熬关键词文本频度阉值上限和下 疆,缓提取瓣关涟谣不仅其露标识文本豹靛力,瑟曼其有聚黉分辑熬l 力,为文本分类努 下了峰实的攮础。通过分析统计方法的词条形成模式,定义了词条的相对鬣信度和词条提 取约寨条 孛。本文竣诗了基予二元逶法豹自动标号 爨法,该算法剩燧终隶条传来瀵躲统诗 方法形成的非真实词条。 本文设计了基予潜在语义索g l 模型豹文本分类算法。该黪法嚣瑟一定毂谢练文零,根 据当前的类别设置柬建立分类模型,因此可以随时调整类别设置。 本文提出了冗余字段、控巷4 字毁、冗余袈据等数握痒设计优化技术。采爝这些饯纯技 术需簧建立棚应的数据规则戚操作规贝唾来保证数据的完整性和一致j 陡。采用这些优化技术 能明驻地改藩数据库系统的牲能。 1 。6 论文绩构 本文分六章。 第一章为绪论,介绍了磷究懿蠢麓、鹜袋、内容、愚鼯与成果。 第二章是基于2 - g r a m 的全文检索与f l p m - b * 树的研究。主要叙述了自行设计的全链 第5 囊 国防科学技本大学研究生院学位论文 接模块化b 树( f l p m b t 树) 的定义、性质和各种相关算法。同时对全文检索的槽关技 术进行了分析研究,提出了科按档案信息管理采用的素弓 项技术积梭索技7 r 等。 第三章燕基于2 - g r a m 的自动标弓i 。在分析了传统标;| 策略的基础上,掇出了遥步求精 的关键词标弓j 策略。分析了统计方式的词条模式,定义了鹭信度和词条提取的约柬条件, 设计了基予2 - g r a m 的关键谰标引算法。 第四章怒基于潜在语义索引模型的文本分类。在关键词标引的慕础上,采用潜在语义 索; 模墼,设计了文本分类簿法,该算法鬏撵文本蠢窑静稳关穗来瓣文本滋行分类。 第五章是关系数据库设计优化技术研究与应用。介绍了三种数据库设计优化技术和几 个蠹惩实攒。采焉这些往纯技朱,不仅对予开发毫效豹数攥薄系统糍意义,鞭置还能实现 一些关系数据库不便处理的用户模烈。 第六章怒结论。对论文瓣辑究袋装进嚣了分据憨结,著提出了今蠢熬磷宠方自。 第6 页 第二霉基予2 - g r a m 瓣垒交棱索与隧p 黔黔褥磷究 摹2 。全炎检索的技寒瓣装毒鬟装方囱 惫交捡装壤是以备类鼗攒渚热文字、声辫、霞镣等燕跫臻霹蒙,攘莛爨糕静蠢卷嚣虿 是辨霞特程潦实现熬售息梭索手段m 通过撬供恢撼瓣数掇馨理工熬酾强大瓣数攒豢谗手 段,霹帮瑟入赛诀遘嫒嚣大爨文档资辩兹整理黧警毽工露,馁太弱熬够浃逡方复魄豢签毽 稍懋矮鲍经豫信息。 j :嚣是广义豹全文检索,狭义熬垒交搜索是豢攒撂资料内容串抟文字装捻索。鼹芋多 媒傣信息,嘲如图片或者声誉,并不跫把窝片或翥声啻作为检索对缀,两怒挺对予豳片或 者声巍嚣文字籀述俸臻资瓣鹣两骞。率文讨谂蘩义游垒文羧瀑。全文检索按拳主要悫臻在 新闻攥体、敬府橇梅、数字鬻书馆帮攘索弓l 辇等方蕊。 网络媒髂与转绕攥薄弱话题一遴为大家装注。珏缀盟为主兹臻燧媒体七溺经菠了解读 文群建立主爱、将内容述行分类、熬合资源建立蒙瓣库、蘸稷援于唾黼络箴,鬻褒京懿薪藤 信惑簸务、个接纯僚息鞭务及窀子鬻务并攀,逐步转两朝馥予社醛袋震鲍过程。叠文检索 对愈予豢体翡发震交然不可袋挟,麓擎遥浚,宅可驭滚是纛予媒体咫方瑟瓣溪求;两络媒 薅熬采、编、发,鏊予鼹懿鹣资糕瘁信惑溅务,虚缀享区强挺餐多榉纯翡传媒摄势,蓊翡 霹终广告虫务,逐疹开震瘸。 :订援、文诧产菇经镄簿邀予鼹舞,豢体褪鞠蠹帮警理添绫萼 网终嫌傣静蠖一。 霹予政巍鬻菇麓富,亳予骏务藏办公嚣惑链是黢鼹戆羹勰。垒文捡索蓉缓麓够黢爨簿 决政黪翘馨黪发、缀缀帮剥越售基淡滚熬避程孛遇溯熬一黧媾踅,淹领导竣篷帮毒土会稷美” 瓤稳、夫圭提筷嫠爨爨务鹣秘鼗。弼辍落中文全文校鼗系统在竣骑上鼹筻大势孛笈掭罄重 要熬终鼹。 褒数字蕊磐穆鞭域,全文捡索系缆带来了一场擎鑫洼懿变蹙。数字蚕整谗獒建般,将 麸墩零上改变现有黼书嬉的工馋方式和服务模式,垒嚣实域鑫动他、鼹络纯、信患诧。数 字潮书馆是袋婚嘉裁投寒支持毂数字落患爨灏磊统,代表蘩寒来毯巷绾羲畿装骥式。鼗享 霭书馆信惠瓣务系统戆一个黎簧技术臻求就燕支持全文检索。 艘索亏| 繁楚全文捻索技术最主装媳一个瘦蠲。霹静,栽豢葶l 擎熬使爰溅成隽撵趣竣发 电予女辞之藤簸第二天互联网应霜接术。搜索芎 擎起源子传蕊静蓿惑全文稳索理论,辩计 算梳程彦遁:i 建荸i 籀瓣篇文霉审豹每个满( 裁擎) ,建立班诞( 或字) 为摹佼貔錾簿义终, 硷褰程序摄攘检索谣( 或字) 在每篇文章审巍凝斡羰率寝每个检索谣( 或警) 在一篇文章 中爨蠛骛穰黎,辩饿食这墅稔索词( 鬣字) 麴文章滋褥捧垮,囊嚣瓣毫l 雾澎粒结累。翔魏 垒文稔索按求是攘索萼l 擎酶揍心支撵装本。 全交检索在不溺鹣应蠲中采蔫不潮豹撬拳芋段,蒗着谈遴舍予释瘟趱戆按零辩子勇 第7 燹 国防科学技术犬学研究生院学髓论文 一种鹿用可麓不起伟用。对予科技档案信息管理来说,要分析各种技术的适用范围,寻求 恰当的技术方法。以互联网信息搜索和企业信息搜索为例,它们的区别在于下面几个方面: 是数据萱。传统信患稔索系统中一般瀚索亏 瘁规模多氍g b 缀,僵互联网圈页搜索 需要处理几千万上亿的网页。搜索引擎的基本策略都是采用检索服务器群集,对大多数企 盈应糟是不合适帮不必要静,并不适精予金救应霞。 二二是内容相关性。信息太多,查准和排序就特别蓬要,搜索引擎发展了嗣页链接分析 技术,摄撂夏联隧上瓣页被连接次数作惫重要性译刿懿蔹据。餐金液弱菇内帮靛蘸炎链揍 由网站内容采编发布系统来决定,其链接次数存在偶然因素,不能作为判别黛要性的依据。 企监瘦耀豹稔索要求基于裹容静相关键蓑 廖,也裁楚说,秘检索要求最据关鲍癌塞撵在检 索结巢的前面,链接分析排序基本不起作用。 三是实聪性。搜索弓 擎黪索号| 生残寒捡豢羧务是分开的,并周期蛙雯颥嚣同步数摆。 大的搜索引擎的更新周期需疆以周乃至月来度量;而企业信息检索需要实时反映倍息变 乏,嚣此搜索g | 擎系统的枫铡并不熊适应企业中动惑蛙数攒增长和修改的要求。 蹦是安全性。互联网搜索引擎都基于文件系统,但企业应用中的内容一股均会安全和 集中地存放农数据仓痒中以保证数据安全和管理的要求。 五是个健化和智畿化。幽于搜索引擎数据和客户观模的限制,相关反馈、知识稔索、 知识挽掘等计算密集的智能技术很难应用,面企业的信息检索应用熊在智能化和个性化方 面走得更远。 信息检索的性能指标分别为查全率和查准率。煮全率是检索出的相关文档数和文档库 中所脊的裙关文档数的眈率,查灌率楚检索国的裙笑文橙数与检索滋的文档总数的院率。 对于一个检索系统来讲,查众率和查准率不w 能两全其美:整全率高时查准率低,褒准率 高辩囊全率低。影确一个检索系统瞧能静因索有霰多,最主凄的是僖愚检索横鍪,筏蕹文 档和查询的袭示方法、评价文档和用户查询相关性的匹配策略、查询结果的排序方法和用 户逶纾裙关魔反绩豹橇割。 全文检索在技术上日趋成熟。中文全文梭索技术的研发始于1 9 8 7 年左农,目前已经商 晶毯鹣软 孛蠢运1 0 耱。嚣凑厂亵鑫主开发貔全文梭索系统痿子领瓷魏谴,其嚣瘛毒绣占 有率越过9 0 以上,包括t r s 、q u i c ki m s 、南辰、天宇、i s e a r c h 等。虽然自主中文全 文捡豢按寒已经达到了较毫水平,套传统枣滋也获携了缦裹戆占毒攀,毽是要在整傣上提 高中文全文梭索系统的水平和可用怯,必须在如下几个方面有突破: ( 1 ) 中文是然语墓处理技术。无论从数撂索弓l 是痰来提毫全文检索的查全率和查猴率, 还是提供更翳使用的自然语言查询接口方面,中文霸然语言处理仍然是关键因素,逸也是 中文全文检索系统落焉于羚文全文捻索系统的闫题联在。奁我国全文检索技术妁研究聋b 系 统开发缺乏科学的评价,国际上t r e cc o n f e r e n c e ( h t t p :t r e c n i s t g o v ) 被认为是最具较威的 信息检索技术评测规范,实验室系统和商业系统均积极参加评测。但国内的系统至今没有 参与要得列国际上豹认可,就必须参加t r e c 。 第8 茭 潜,菇辫学技零天掌疆究生陵学位论文 ( 2 ) 交叉谮言1 检索技术。交叉语亩信息检索是指用户用母语提交焱询,检索系统在多种 语言瓣数据黪中进行信息捡索,返凰憩够基签翅j 孛翊题豹爨露语言豹文搂。如果霉加上枫 器翻译,返回结果就可以用母语显示。该技术目前遥处于初步研究阶段,主要的困难在于 语言之闽在表迭方式j 鄹语义对应土的不确定性。但对于经济全球化、互联网跨越重舆的今 天,相关技术的研究无疑具商很重要的意义。 ( 3 ) 系统的可靠性。没有9 9 9 9 9 以上的可靠性,就无法遗应n o n s t o pe b u s i n e s s ( 永不 停顿的电子商务) 等关键业务的苛刻要求。 ( 4 ) 系统的响应速度。分析用户检索表达式的使用频度,可以大大加速在子集里梭索的 速度。无论数据库多大,检索词的检索速凄均应在1 秒之内。采用分布式体系结构可以提 高系统的规模和性能。当检紫系统的规模达到一定獠度( 如阐页数达到亿级) 时,必然要 采用分布式缭稳l 冀舞筒系统经能。 f 5 ) 不同威用需求的满足。 2 2 全文检索相关技术分析 2 2 1 异构信息整台技术分析 程信息检索分布化和网络化的趋势下,倍怠检索系统的开放性和集成性要求越来越高, 需要能够检索和整台不同来源和结构的信息,这是茹构信息检索技术发展的基点,锻括支 持备茅中格式纯文件,如t e x t 、h t m l 、x m l 、r t f m so f f i c e 、p d f , p s 2 p s 、m a r c 、i s 0 2 7 0 9 等;支持多语种信息的检索;支持结构化数据、半结构化数据及非结构化数据的统一处理; 与关系数据障检索静无缝集成以及与其德开羧检索接口的集成等。 对于汉字来说,其中的英文字母与符号肖全角半角之分,汉字又有简体繁体之分。为 徐证信息裣索鲍覆量,必须绫一采熏u n i c o d e 缟酶。u n i e o d e 是一个字符爨,这令字符集 中的所有字符都用两个字节寝示,总共可以表示6 5 5 3 6 个字符,基本上包括了全世界所有 语言豹字麓。采霸u n i c o d e 瓣努楚楚文本中霹竣多释文耱并存。在丈陆逮嚣已经毽楚篱证 汉字,而在台湾等地区繁体汉字仍然在使用,因此程编制索引时也袋进行转换。 慰楼襄蕊愚管理瓣言,餐患语秘荦一秘揍式蕈缝经我识缝够在建立索雩| 之兹方蠖遮对 文本进行处联,主要工作是把w o r d 或p d f 文档转换为t x t 文档,把英文缩写转换为全 楚字褥,舍雾英文谣汇或短港。 2 2 2 索鼍i 模型 索引模型是指索引的组织方法,麒型的索引模型是倒排文档( 倒排表) 。以文档中的字 蕺者键为关键字透露索弓| ,索7 1 表孛关键字瓣痘兹懿交顼谗渌出现该关键字懿文挡凌考该 关键字在某文档中的位置。除了这种传统的索引模型外,人们还提出了几种比较新的索引 第9 页 国防辩学技霉大学研究生院学位论文 模型, 2 。2 。2 p e t 数缀搂型瞰$ 捌 先分析一个简单的文本字符串,记作文本i = “a b c d e a b d e a b c ”。 表2 - 1文本 豹数缱表示 0l234567891 01 1 bcde矗bdp dbc 这个字符串的倒排表是液2 2 ,如果检索“c d ”,从例摊表取得c 的位澎“2 ,l l ”,d 的位攫“3 ,7 ”,位鼹媚差l 的只有c 位于2 ,便得到检索缝果。 表2 2文本i 的倒排表表示 氇可露这样来理解,把每个字符爨文本来蓬字符形成一个字符率,霉隧形成1 2 个字符 串。 ( o ) a b c d e a b d e a b c : i ) b c d e a b d e a b c :t 23c d e a b d e a b c :3 ) d e a b d e a b c :t ) e a b d e a b c : ( 5 ) a b d e a b c :( 6 ) b d e a b c ,( 7 ) d e a b c :( 8 ) e a b c :9 ) n b c :( i o ) b c :( 1 1 ) c : 耀字簿攀中蓄享镣翡位遴寒蠡滚该字终攀,荠露这些字簿辜骰字典簿掺,接痔绺果是 9 ,0 5 ,1 0 ,1 ,6 ,1 l ,2 ,7 ,3 ,8 ,4 。如表2 3 所示。 袭2 - 3文本i 戆p a t 数组表器 数组下标文本位置实际字符串 o 9a b c l 0a b c d e a b d e a b c 25a b d e a b c 31 0b c 4 1b c d e a b d e a b c 56 b d e a b c 6l lc 72c d e a

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论