




已阅读5页,还剩58页未读, 继续免费阅读
(教育技术学专业论文)多源文档全文检索系统设计与实现.pdf.pdf 免费下载
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
硕士学位论文 m a s t e r st h e s i s 摘要 全文检索是快速有效的信息检索技术,它极大地提高了人们从大量纷繁复杂的 数据中查找特定信息的效率。虽然目前对文本处理技术已经有了很大的发展和应 用,但是仍然存在一些问题有待研究:如何抽取有效的文本;如何抽取标记文档中 的元数据信息;如何提高文本搜索的准确率和召回率。 本文的研究是多源文档全文检索系统设计与实现,主要是对整个文件数据库的 表示、组织、索引和查询,即根据用户的查询要求,从文件数据库中检索出相关的 信息。其中心环节是文本内容解析、索引库的建立、查询信息的获得、检索结果的 处理以及相关信息的匹配,主要研究工作体现在: ( 1 ) 分析和总结多源文档全文检索系统构建的技术和理论。对中文分词技术、 全文索引技术、面向用户需求的检索以及基于内容的元数据描述技术进行了详细的 研究与阐述。 ( 2 ) 设计与分析多源文档全文检索系统结构。针对中文全文内容分析问题、 多源文档转换问题、中文分词问题,提出了有效的解决模型。研究内容包括全文检 索系统结构、功能模块设计和索引结构和数据库设计。研究重点在于分词、索引和 检索模块的分析与设计。 ( 3 ) 多源文档全文检索系统构建的关键技术研究。提出一种基于词频统计和 检索效率更高的特征词聚合与具备较大灵活性的贝叶斯算法结合的分词构想,有利 于透彻地分析用户输入的查询请求,以保证查询结果的质量,返回给用户最想要的 结果,同时检索结果也能够具备单词切词的灵活性。 ( 4 ) 多源文档全文检索系统实现。择优选用了j a v a 语言中比较成熟的s t r u t s 框架技术来规划系统开发的层次,结合u m l 统一建模语言和程序设计流程图的方 法,对系统中各个功能模块进行编程和实现。 论文的特色之处体现在:多源文档的格式转换和文档分析、元数据抽取算法优 化技术、文档索引机制。检索的召回率和准确率得到有效提高。通过实例操作,证 明该系统能实现多源文档全文检索的功能。 关键词:多源文档;索引:元数据;检索 硕士学位论文 m a s t e r st h e s i s a b s t r a c t f u l l - t e x ts e a r c hi sar a p i da n de f f i c i e n ti n f o r m a t i o nr e t r i e v a lt e c h n o l o g y i tg r e a t l y i m p r o v ee f f i c i e n c yt h a tp e o p l es e a r c ho fs p e c i f i ci n f o r m a t i o ni nf r o mal a r g en u m b e ro f c o m p l e xd a t a a l t h o u g ht h et e x tp r o c e s s i n gt e c h n o l o g yh a sag r e a td e v e l o p m e n ta n d a p p l i c a t i o n ,t h e r ea r es o m eq u e s t i o n st ob ee x a m i n e d :h o wt oe x t r a c tt h et e x to fa n e f f e c t i v e ;h o wt oe x t r a c tm e t a d a t ai n f o r m a t i o nf r o m 也ed o c u m e n t ;h o wt oi m p r o v et h e a c c u r a c ya n dt h er e c a l lr a t eo ft e x ts e a r c h t h i ss t u d yi st h ed e s i g na n di m p l e m e n t a t i o no ft h es o u r c eo fm a n yd o c u m e n t s f u l l - t e x ts e a r c hs y s t e m t h em a i n l yp o i n t sa r ea c c o r d i n gt ou s e r sq u e r yr e q u e s tt o e x p r e s st h ed a t a b a s e ,o r g a n i z a t i o n , i n d e x i n ga n dq u e r yo fe n t i r ed o c u m e n t t or e t r i e v e t h er e l e v a n ti n f o r m a t i o nf r o mt h ed o c u m e n td a t a b a s e t h ec e n t r a la s p e c t sa l et e x t a n a l y s i s ,s e tu pt h ei n d e xd a t a b a s e ,i n q u i r i e st oo b t a i ni n f o r m a t i o n ,s e a r c ht h er e s u l t so f t r e a t m e n ta n dm a t c h r e l a t e di n f o r m a t i o n t h em a i nr e s e a r c hw o r ke m b o d i e di n : ( 1 ) a n a l y z ea n ds u m m a r i z et h et e c h n i c a la n dt h e o r e t i c a lo ft h es o u r c eo fm a n y f u l l - t e x ts e a r c hs y s t e md o c u m e n t a t i o nt ob u i l d t or e s e a r c ha n dd e s c r i bi nd e t a i lo f c h i n e s ew o r ds e g m e n t a t i o nt e c h n o l o g y , f u l l - t e x ti n d e x i n gt e c h n o l o g y , t h ed e m a n df o r u s e r - o r i e n t e dr e t r i e v a la n dc o n t e n t - b a s e dm e t a d a t ad e s c r i p t i o nt e c h n o l o g y ( 2 ) d e s i g na n da n a l y s i st h es t r u c t u r eo fm u l t i - s o u r c ed o c u m e n to ff u l l t e x tr e t r i e v a l s y s t e m p u tf o r w a r d a ne f f e c t i v es o l u t i o n sm o d e lw h i c hf r o mt h ef u l lt e x to fc o n t e n ta n a l y s i sf o r t h ec h i n e s ep r o b l e m ,m u l t i s o u r c ed o c u m e n tc o n v e r s i o np r o b l e m s ,c h i n e s ew o r d s e g m e n t a t i o np r o b l e m t h es t u d yi n c l u d e st h es t r u c t u r eo ff u l l t e x tr e t r i e v a ls y s t e m , m o d u l a rd e s i g nf e a t u r e sa n di n d e xs t r u c t u r e sa n dd a t a b a s ed e s i g n r e s e a r c hh a sf o c u s e d o nw o r ds e g m e n t a t i o n , i n d e x i n ga n dr e t r i e v a lm o d u l eo ft h ea n a l y s i sa n dd e s i g n o ) t h ek e yt e c h n o l o g i e s0 nr e s e a r c ho fm u l t i - s o u r c ed o c u m e n to ff u l l - - t e x t s e a r c hs y s t e m c o n d u c i v et oat h o r o u g ha n a l y s i so f q u e r i e se n t e r e db yt h eu s e r , t oe n 蜘e t h eq u a l i t yo fq u e r yr e s u l t s ,b a c kt h em o s td e s i r e dr e s u l t st ot h eu s w h i l es e a r c hr e s u l t s c a na l s oh a v et h ef l e x i b i l i t yo fw o r ds e g m e n t a t i o n ( 4 ) i m p l e m e n t a t i o no fm u l t i - s o u r c ed o c u m e n t o ff u l l t e ) 【ts e a r c hs y s t e m m e r i t - b a s e ds e l e c t i o no ft h ej a v al a n g u a g em o r es o p h i s t i c a t e dt e c h n o l o g yt ot h es t r u t s f r a m e w o r kt od e v e l o pt h el e v e lo fp l a n n i n gs y s t e m ,c o m b i n a t i o no fu n i f i e dm o d e l i n g l a n g u a g ea n du m ld e s i g nm e t h o d o l o g yf l o wc h a r t ,p r o g r a m m i n ga n di m p l e m e n t i n gt h e v a r i o u sf u n c t i o n so ft h es y s t e m t h ec h a r a c t e r i s t i c so ft 1 1 et h e s i se m b o d i e di n :m u l t i s o u r c ed o c u m e n tf o r m a t c o n v e r s i o na n dd o c u m e n ta n a l y s i s ,m e t a d a t ae x t r a c t i o na l g o r i t h mo p t i m i z a t i o nt e c h n i q u e t h er e c a l lr a t ea n dt h ea c c u r a c yo ft h es e a r c hs y s t e mh a v ee f f e c t i v ei m p r o v e k e yw o r d s :m u l t i - s o u r c ed o c u m e n t s ;i n d e x ;m e t a - d a t a ;s e a r c h 硕士学位论文 m a s t e r st h e s i s 华中师范大学学位论文原创性声明和使用授权说明 原创性声明 本人郑重声明:所呈交的学位论文,是本人在导师指导下,独立进行研究工作 所取得的研究成果。除文中已经标明引用的内容外,本论文不包含任何其他个人或 集体已经发表或撰写过的研究成果。对本文的研究做出贡献的个人和集体,均已在 文中以明确方式标明。本声明的法律结果由本人承担。 作者签名:岛粑鸣 日期:山甲年o f 月可日 学位论文版权使用授权书 本学位论文作者完全了解学校有关保留、使用学位论文的规定,即:学校有权 保留并向国家有关部门或机构送交论文的复印件和电子版,允许论文被查阅和借 阅。本人授权华中师范大学可以将本学位论文的全部或部分内容编入有关数据库进 行检索,可以采用影印、缩印或扫描等复制手段保存和汇编本学位论文。同意华中 师范大学可以用不同方式在不同媒体上发表、传播学位论文的全部或部分内容。 作者签名:专耗努 日期加。7 年c ;占月o1 日 本人已经认真阅读“c a l i s 高校学位论文全文数据库发布章程一,同意将本人的 学位论文提交“c a l i s 高校学位论文全文数据库 中全文发布,并可按“章程中的 规定享受相关权益。回壶途塞埕童卮澄卮! 旦坐生;旦二玺;旦三生筮查! 作者签名:易毕垮 日期:加7 年。吾月。1 日 导师签名:云,1 府鼋 日期:如。罗年口否月移日 耄咖 斋月,莎”杉、孔年 名 叛叫 师期 争日 硕士学位论文 m a s t e r st h e s i s 1 绪论 网络的发展极大地影响了我们的生活方式,为我们提供海量的信息资源,同时 也让我们陷入了浩瀚的信息海洋之中。搜索引擎作为信息获取的工具得到了前所未 有的关注,已经与我们的日常生活息息相关。 1 1 研究意义 人们对信息搜索的概念仅限于几个著名的搜索引擎,如g o o g l e 、百度或雅虎【l 】。 目前些中小型的专业搜索引擎正逐渐被很多人熟悉和运用,如旅游搜索引擎、求 职搜索引擎、本地搜索引擎、黄页搜索引擎1 1 2 】等等。这些特殊的搜索引擎是针对某 一个行业的专业搜索引擎,是普通网页搜索引擎的延伸。这种特殊的搜索引擎称为 “垂直搜索引擎”【2 】。多源文档全文检索系统针对教育领域的具体需求,是基于垂 直搜索引擎进行研究和开发。该系统通过针对科技文档进行索引,为学习者提供一 定价值的信息和相关服务,使用户从浩瀚无边,繁冗复杂的文档中快速找到相关内 容,从而节省查阅时间和提高查阅效率。 据c n n i c 发布的( 2 0 0 6 年中国搜索引擎市场调查报告显示,每次上网都用 到一次或多次搜索功能的用户占到了6 1 8 t 删。调查还显示:用户对检索结果是否 准确全面的检索体验成为影响用户首选搜索引擎的1 2 个原因中的最重要因素,比 位于第二名的影响因素“使用习惯性高出近2 0 个百分点 3 1 。这说明,文档的检索 效果直接影响用户是否选择该检索系统,检索结果是否准确全面是衡量用户是否满 意的一个重要指标。 多源文档全文检索系统与其他普通检索的最大区别是对依据专题性文本信息 进行了基于内容的信息抽取、组织、管理与可视化呈现;并将文档的非结构化数据 抽取成特定的结构化信息数据,经过信息过滤,分类,分词,索引后再以检索的方 式满足用户的需求。因此,多源文档全文检索系统具有专业性、内容精确性和满足 用户个性化需求等特点,其研究与实现对于提高学习者获取信息便捷性和学习效 率,满足个性化学习需要具有重要意义。 1 2 研究现状 信息检索 2 ( i n f o r m a t i o nr e t r i e v a l ) 是对信息项进行表示、存储、组织和存取。信 息检索( i n f o r m a t i o nr e t r i e v a l ) 这一术语最早是由c a l v i nn o r t h r u pm o o c r s ( 1 919 19 9 4 ) 在其1 9 4 8 年的硕士毕业论文中提出【4 l ,于1 9 5 0 年在z a t o rt e c h n i c a lb u l l e t i n 中公开 硕士学位论文 m a s t e r st h e s i s 发表1 2 1 。1 9 5 4 年美国海军兵器中心( n a v a lo r d n a n c et e s ts t a t i o n ,n o t s ) 图书馆在 i b m 7 0 1 型号计算机上首先成功建立了世界上第一个计算机文献检索系统【3 j 。 自1 9 9 4 年基于w e b 的信息检索出现以来,信息检索便得到了极大的发展。信 息检索解决了海量互联网资源的快速定位和检索,在人们的日常生活中和工作中发 挥了越来越大的作用1 2 1 。二十世纪六十年代,s a l t o n 给出了关于信息检索的经典定 义信息检索是关于信息结构、信息分析、信息组织、信息存储以及检索的一个 领域。 进入二十世纪后期,随着计算机技术与互联网络的发展,信息检索系统也从批 处理方式的检索发展到现在大规模的互联网信息检索和数字图书馆等领域1 6 j 。特别 是在1 9 9 1 年万维网兴起后,在互联网带来的信息爆炸的冲击下,用户查找信息如 同大海捞针一样,各种信息检索系统如互联网上搜索引擎成为帮助人们达到自己目 标的必要帮手f 2 】。随着w e b 内容的飞速发展,信息膨胀的速度远远超过了搜索引擎 检索范围的扩展速度,搜索引擎对w e b 建立索引的能力受到越来越严峻的考验1 3 j 。 事实上,以今天i n t e m e t 的规模和发展速度,没有一个搜索引擎能够全面覆盖w e b 的文档。根据1 9 9 7 年的统计数据表明,当时索引数据库规模最大的a l a t v i s t a 搜索 引擎页只能对整个w e b 文本数据的8 - - 4 0 i ”j 建立索引。 搜索引擎最终是为用户提供信息检索服务。由于基于不同的搜索技术的搜索引 擎系统对于用户查询其结果往往差异很大,由此产生了比较搜索结果的要求。以往 纯粹基于用户主观使用感受的评价既不客观也不可靠,因此必须提出一套客观的评 测体系。根据以往信息检索系统的评价经验,对搜索引擎的衡量主要有5 项指标: 相关性、数据量、查全率、相应速度、更新速度。传统搜索引擎存在不足的地方主 要有以下几点: ( 1 ) 搜索时间问题 在多源文档检索这一领域目前研究不是很多。m i c r o s o f t 文档检索是通过线性匹 配驻留于内存中的文本而实现的。这种方式被称为顺序查找,或在线查找。它无需 对文件集合中的信息进行预处理,或者是只需很少的预处理。如果查找关键字存在 于文本内容中,标题没有包含关键字,则很难查找出文本或者查找速度慢。这种在 线分析方法仅适合于文档较少的情况,或者文件集合的内容经常发生变化,或是在 没有足够空间来支持索引的情况。它的结构简单,易于实现,并且信息检索的速度 比较慢。例如,构造一个6 m b 左右的w o r d 文档,并将一个关键词“基于语义特征 检索一放置在文档的最后,然后使用w o r d 提供的查找功能,来查找这个关键词, w o r d 大概需要4 秒钟的时间。可是当我们把这个关键词放到头几页,在按下。查找 2 硕士学位论文 m a s t e r st h e s l 8 下一处 按钮的同时,只需要不到1 秒钟的时间,就已经找到关键词了。 这种时间上的差别,是线性查找的显著特点。可以想象,如果将这种方法应用 于一个大型的信息检索系统中,信息的存储容量在1 0 0 m b 以上时,查找速度是无 法忍受的。这是搜索引擎普遍存在的问题,需要我们进一步努力解决。 ( 2 ) 准确率问题 信息检索系统能在很短时间内给出很多的检索结果,但是在给出的结果中,有 相当多的结果跟我们的检索要求是不相关的,甚至给出了错误的结果。从更高的层 次度量是“准确率”的问题,如输入搜索词“计算机”,搜索引擎不会把含有“电 脑 信息内容的结果返回给用户。 ( 3 ) 相关性问题 现以谷歌和百度为代表的信息检索对返回结果排序,采用超链分析方法,这种 方法在带给用户信息同时,也给让用户花时间从结果集中进行挑选信息。例如在谷 歌检索系统中输入关键词“教育技术学专业介绍”,返回的结果有2 9 8 ,0 0 0 个。在第 一页中显示十个结果,但是这十个分别为:专业介绍( 天利考试信息网) ;高校专 业介绍;教育技术学专业介绍;大学教育技术学专业介绍;全国高校招生专业介绍; 本科教育技术学专业介绍;专业介绍( 教育技术学专业) 等等。这就等于信息检索系 统在解决了一个问题后,同时又给用户带去了新的另外一个问题。可能用户只关心 教育技术学的发展的,但是第一页只有一条这样的结果,于是用户就必须一页一页 地往下翻。据统计,用户有一半到三分之二的时间是花在不断地翻页和选择上。因 此,在相关性排序上,信息检索系统还任重而道远。用户对决策所需客观信息到最 后信息检索式的形成,现有检索系统对此帮助还不够,大部分是用户独立完成的。 许多情况下,信息检索系统返回结果并非用户所需要的。其根本原因在于系统没有 理解用户的需求。用户需要重新调整关键词,并重新进行搜索。信息检索系统在人 机交互方面和内容语义理解尚有大量研究工作。 1 3 研究内容 本论文依托国家8 6 3 项目计划“知识融合与浓缩关键技术研究 项目,研究多 源文档全文搜索引擎构建技术,实现针对各种类型教育资源的全文索引检索功能。 多源文档全文信息检索是从一定规模的文档库( d o c u m e n tc o l l e c t i o n ) 中找出满 足用户提出的查询请求( q u e r yi n f o r m a t i o n q u e r y ) 相关的文档子集的技术,包括信息 的存储、组织、表现、查询、存取等各个方面。其目标是检索出与用户查询需求的 相关文档,并提高准确率、相关性,减少检索时间。 硕士学位论文 m a s t e r st h e s i $ 多源文档全文检索系统主要实现对多种文档资源数据的文本解析、元数据提 取、索引和检索等功能。根据用户的查询要求,系统从构建的索引数据库中检索出 相关的文本信息。其中心环节是文件内容解析、索引库的建立、查询信息的获得、 检索结果的处理以及相关信息的匹配。多源文档全文检索系统不仅要将全文信息准 确、全面、快速的提供给用户,并对输出信息进行相关度排序;还能根据用户意图、 兴趣和特点自适应调整匹配机制,获得用户满意的检索输出。论文主要研究内容包 括: ( 1 ) 分析和总结多源文档全文检索系统构建的技术和理论。包括基于文本内 容的中文分词、全文索引、面向用户需求的检索以及基于内容的元数据描述等技术。 ( 2 ) 多源文档全文检索系统结构设计与分析。研究内容包括全文检索系统结 构、功能模块设计、索引结构和数据库设计。分词、索引和检索模块的分析与设计 是论文研究重点。 ( 3 ) 多源文档全文检索系统构建的关键技术研究。包括基于内容的文本解析 技术和元数据信息提取。 ( 4 ) 多源文档全文检索系统实现。拟采用s t r u t s 框架技术来规划系统开发,并 采用j a v a 语言实现系统开发。 1 4 论文组织 论文主要研究内容的组织结构如图1 1 所示: 图1 - 1 论文组织结构 其中,第二章总结分析了多源文档全文检索的理论与相关技术,包括中文分词 4 : 硕士学位论文 m a s t e r st h e s i s 技术、倒排索引技术、检索技术、元数据标准及信息模型理论等。第三章设计了多 源文档全文检索系统的体系结构,研究了具体功能模块设计,并设计了索引数据库。 第四章重点研究了多源文档全文检索系统的关键技术,包括多源文档解析技术及元 数据提取技术。第五章开发并实现了多源文档全文检索系统。最后,论文对研究内 容和成果进行总结,并展望进一步的研究方向。 硕士学位论文 m a s t e r st h e s i s 相关理论与技术基础 2 1 分词技术 2 1 1 中文分词简介 搜索引擎在处理英文文档时,几乎不需要特殊的附加工作,因为英文文档本身 就是以词为单位的组织,词和词之间是靠空格或者标点符号显性地表示词的边界。 英文文档的处理几乎不必考虑分词的算法问题【7 1 。 中文搜索引擎在处理文档分析内容时,对中文进行有效的索引和查询时遇到了 很大挑战。中文与英文在语法结构上以及形式表述上有很大差别。中文是连续的汉 字组成的句子,中文中的词语没有明显的边界。这样对于中文文档来说,如何分词 成了一个很大的难题。特别是,如何确定最小索引项成为一个难题,需要借助特定 的算法或者词典来完成对中文文档内容的分析【9 】。 中文文档中是由句子,短语,词汇,单个的汉字【3 6 】等基础单元构成。中文环 境的句子通常可以利用标点符号来分隔。其它基础结构单元都无法直接利用空格等 分隔符进行划分,这是中文搜索和多源文档全文检索面临的巨大挑战。中文分词是 整个中文信息处理的基础,比如搜索引擎,机器翻译,语音合成,文档自动分类【l , 文档自动摘要,文档自动校对等,都依赖于分词技术。 2 0 世纪8 0 年代起,国内开始了一系列针对分词的研究工作,主要包括基于词 典和规则的中文分词技术和基于统计的中文分词技术l l5 1 。基于词典和规则的中文分 词技术主要采用前向后向最大匹配、双向匹配策略,可以达到一般应用的需求。基 于统计的分词技术是近年出现的分词方法,在保留词典的基础上,增加了未登录词 的识别功能,被称为智能分词技术。 中文分词技术的研究成果引入到搜索引擎,提高了搜索的准确度和处理效率。 目前主流的中文搜索引擎大都支持中文分词,但由于中文分词固有的难度,分词结 果准确率还有很大的提高余地。不具有中文分词能力的搜索引擎返回的搜索结果包 含很多无关内容,其准确度往往达不到人们的要求。 2 1 2 中文分词基本原理方法 现在的分词一般的中文分词主要有3 种主要形式:基于字典匹配的分词方法【2 6 l 、 基于语义的分词方法【2 】、基于统计的分词方法【1 9 1 。其中机械分词在中文信息处理的 早期得到了很好的发展,目前主流技术是自动智能分词技术。 6 = : 硕士学位论文 m a s t e r st h e s i s ( 1 ) 基于字典匹配的分词方法 字典分词方法是一种基础模型。很多实用系统都是以字典分词为基础发展而来 的。基本模式为特征扫描或标志切分,在输入的字符串中首先识别和切分出带有明 显特征的确切词汇,以这些词汇作为间隔点,把原输入字符串分割成较小的串再以 此类推进行字典分词,减少单纯匹配的错误。 基于字典匹配的分词方法按照特定的匹配策略将输入的字符串与机器字典词 条进行匹配。如果在字典中找到当前字符串,则匹配成功输出识别的词汇。如果没 有找到当前字符串,则继续匹配直到匹配成功。按照匹配操作的扫描先后次序不同, 字典匹配分词方法可以分为正向匹配和逆向匹配,以及结合了两种方式的双向匹配 算法;按照不同长度优先匹配的情况,可以分为最大匹配和最小匹配;按照是否与 词性标注过程相结合,由可以分为单纯分词方法和分词与词性标注相结合的方法。 常用的几种字典分词方法包括1 1 9 j : a ,正向最大匹配算法( 由左到右的方向) ; b 逆向最大匹配算法( 由右到左的方向) ; c 最少切分( 使每一个句中切出的词数最小) ; d 双向匹配算法( 由左到右和由右到左两个方向同时进行,使匹配得到最准 确结果) 。 真正实用的分词系统,都是把分词作为基础手段,结合各种语言的其他特征信 息来提高切分的效果和准确度。有的实用系统中将分词和词性标注结合起来,利用 句法和语法分析对分词决策提供帮助,在词性标注过程中迭代处理,利用词性和语 法信息对分词结果进行检验和调整。 实际应用中上述各种方法经常组合使用,以达到最好的效果。由于中文分词最 大的问题是歧义处理,结合中文语言自身的特点,本文采用逆向匹配的切分算法, 处理的精度高于正向匹配算法,产生的切分歧义现象也较少。 ( 2 ) 基于语义理解的分词 基于语义理解的分词是模拟人脑思考方式对语言和句子的理解,达到识别词汇 单元的效果。基本模式是把分词、句法、语义分析并行进行,利用句法和语义信息 来处理分词的歧义。 一般结构中通常包括分词子系统,句法语义子系统,调度系统1 2 2 1 。在调度系统 的协调下,分词子系统可以获得有关词、句子等的句法和语义信息,模拟人脑对句 子的理解过程。基于语义理解的分词方法需要使用大量的语言知识和信息。 目前国内外对汉语语言知识的理解和处理能力还没有达到语义层面【2 6 】,具体的 7 硕士学位论文 m a s t e r st h e s i s 语言信息很难组织成机器可直接读取、计算的形式,因此目前基于语义理解的分词 系统还处在试验阶段。 ( 3 ) 基于词频统计的分词 除此以外还有一种直观有效的分词方法是基于词频的统计分词方法。这种方法 基于人们对中文词语的直观感受。通常词是稳定的字的组合,因此在中文文章的上 下文中,相邻的字搭配出现的频率越多,就越有可能形成一个固定的词。根据n 元 语法知识可以知道,字与字相邻同时出现的频率或概率能够较好地反映成词的可信 度。 实际的系统中,通过对精心准备的中文语料中相邻共现的各个字的组合的频度 进行统计,计算不同字词的共现信息。根据两个字的统计信息,计算两个汉字a , b 的相邻共现概率。统计出来的信息体现了中文环境下汉字之间结合紧密程度。当 紧密程度高于某一个阈值时,便可认为此字组可能构成了一个词。 基于词频统计的分词方法只需对语料中的词组频度进行统计,不需要分词典, 因而又叫做无词典分词法或统计分词方法。这种方法经常抽出一些共现频度高、但 并不是词的常用字典,需要专门处理,提高精确度。实际应用的统计分词系统都使 用一个基本的常用词词典,把字典分词和统计分词结合使用。基于统计的方法能很 好地解决词典未收录新词的处理问题,即将中文分词中的串频统计和串匹配结合起 来,既发挥匹配分词切分速度快,效率高的特点,又利用了无词典分词结合上下文 识别生词、自动消除歧义的优点。 2 1 3 多文档分析中文分词 多文档检索系统需要处理各种风格的文章和数据,所有文档都需要经过预处理 和分词的过程,不同语言文字的预处理和分析过程各有差别,但是预处理的目的和 结果基本一致。预处理后的文档是一系列基本语素单元的集合,通常会根据文本的 统计特征,去掉部分连接符【2 5 l 。 在系统中索引和查询都是以基本语素项为单位,而这些基本语素项都是通过分 析得到的最后结果。分析的过程决定了索引单元和最终的匹配过程。通常英文文档 的分析过程包括了单词提取、标点符号去除、大小写转换、单词词干还原、连接词 汇或超高频词汇去除等操作。中文文档的分析过程除了上述英文分析内容以外,还 包括一个最重要的中文分词过程。 中文分词过程在文本索引的建立过程和用户提交查询检索过程都存在。利用相 同的分析方法,把相同的短语或者句子分割成相同的结果,才能保证检索过程顺利 进行。对于基于内容的多文档检索系统来说,除了基本的文本分析器,还需要分词 8 硕士学位论文 m a s t e r st h e s i s 模块。分词模块根据汉语的统计规则,把一篇长段落分成符合语法习惯的基本汉语 语素单元【2 引。本系统处理的是中文的词汇,避免单字索引造成检索结果中包含太多 歧义搭配。 中文分词预处理功能包含了一系列的过程,不同的操作次序往往会得到不同的 结果。通常采用固定的模式,以一定的流程来处理。基本的处理流程就是词汇分割、 词汇过滤、结果输出、索引或者查询操作。如图2 1 所示: 图2 - 1 中文分词处理流程 预处理的流程中对文本信息预处理的主要功能描述如下: ( 1 ) 单词提取完成中文文档内的基本语素单元的识别,得到的结果是单词结 构,是后续的索引和进一步处理的基础。 ( 2 ) 标点符号去除是把标点符号作为基本语素的分隔符处理,在完成语素的 识别之后,从文档索引中去除。主要考虑到检索标点符号对用户没有实际意义,而 且几乎所有文档中都有标点符号,这会造成索引的灾难性膨胀。 ( 3 ) 大小写转换是在单词识别的基础上,进一步对基本语素单元格式化。单 词转换成统一的大写或者小写字符后,偏于提高查询检索的速度和查全率。 ( 4 ) 单词词干去除是针对英文等西方文字的各种时态变形,提取原始的单词 作为索引和检索的语素项。 ( 5 ) 连接词汇或超高频词汇去除是为了实现快速检索,文档中的连接助词和 超高频词汇对信息检索帮助比较小,去除这些词汇有助于提高索引的效率和检索查 询的效率。 以上的几点是针对通用文档而言,具体到互联网的网页信息,往往需要进行更 多的处理。互联网上的网页往往格式各不相同,包含的文本内容可能不完整,语言 类型和编码格式多种多样需要相应的处理,主要的内容如下: ( 1 ) 语言类型和编码类型的自动识别和转换,针对不同的语言类型需要不同 的语素提取方式,统一转换成中间语言格式,便于多语言和编码支持。 ( 2 ) 部分网页存在各种s p a r e 手段1 2 9 1 ( 拒绝被受到搜索的网站) ,往往存在关 键词堆砌等作弊网页,需要在预处理过程中进行判别和删除,避免影响检索排序。 9 硕士学位论文 m a s t e r st h e s i s 2 2 全文索引技术 全文检索是依赖于全文索引的,要先建立好索引,才能执行查询。全文索引与 普通索引有很大的不同,全文索引开始要分好关键词,并计算出记录相对关键词的 等级,这样使得检索速度大大提高。全文索引和普通索引的主要区别如下【3 l l : 表2 - 1 普通索引与全文索引对比 普通索引全文索引 存储时受到定义它们所在的数 存储在文件系统中,但通过数据库管理 据库的控制 每个表允许有若干个普通索引每个表只允许有一个全文索引 当对作为其基础的数据进行插将数据添加到全文索引称为填充,全文 入、更新或删除时,它们自动更索引可通过调度或特定请求来请求,也 新可以在添加新数据时自动发生 在同一个数据库内分组为一个或多个全 不分组 文目录 通过上表可以看出普通索引在存储时受到数据库控制,而全文索引只存储在文 件系统中,通过数据库管理,这样体现了全文索引的删除和增添数据都比较方便。 在数据库操作中全文索引比普通索引更具灵活性和科学性。 2 2 1 构建文本库 在建立全文索引前,需要做些准备工作。首先,必须构建一个文本数据库,用 来保存所有用户可能检索的信息。在这些信息的基础上,确定检索系统中的文本模 型。文本模型是被系统所认可的一种信息格式,这种格式应当具有可识别、冗余程 度低等特点。当然,在系统的运作过程中,文本数据库的信息可能会不断地发生变 化,但是一旦文本模型确定下来后,就不应当对其再进行大的变动。 多源文档全文检索系统针对不同类型文档进行全文内容检索,在用户输入文档 类型( 在系统中使用o i l e 、t w o 、t h r e e 、f o u r 、f i v e 分别代表e x c e l 、w 砌、h t m l 、 p d f , r r , t 等文档类型) 、标题、日期、作者、出处、关键字等数据源时,在查询结 果中能显示文档的具体信息,每个文档提供以下几种数据源: 文档类型:文档类型是文档的唯一编号。用户查询时,需要输入文档类型号, 才能找到与之匹配的文档。因此对于这个数据源来说,需要进行索引和存储,不需 要分词。 标题:标题在用户输入时可能很长,有时会是几个标题的关键字,因此需要进 1 0 硕士学位论文 m a s t e r st h e s i s 行分词和索引。在查询结果时,用户也会看到这些信息,所以存储在索引中。 日期:由于用户不需要对文档的发表日期进行查询,因此,该数据源不需要被 索引,但是要在结果中显示出来,故该数据源要被存储,但是不需要被分词。 作者:对于这个数据源只需要索引和存储,不需要进行分词,在用户输入正确 的作者名时才可能找到匹配的文档。 出处:文档的出处跟日期一样,不需要进行索引和分词,只需要存储就可以。 关键字:这里的关键字是指文档中出现频率最高的词,需要被索引和分词,但 是不需要被存储,用户在查询结果出来后直接看全文,不需要再去仔细查看关键字。 2 2 2 建立索引 有了文本模型后,就应该根据数据库内的文本建立索引。索引可以大大提高信 息检索的速度。目前,有多种索引的建立方式,采用哪种方式取决于信息检索系统 的规模,大型信息检索系统均采用倒排的方式建立索引【3 8 1 。将文本库以逻辑形式存入 索引数据库中,如图2 2 所示: 图2 - 2 索引基本结构 文件检索里面已经有很多种方法,让我们很容易根据一个记录的关键码查找到 该记录全部信息的存放位置,从而能拿到该记录的全部其他属性值。但是在实际检 索应用中,我们还经常需要根据记录中的其他一些非关键码的数据项来作查找,也 就是根据属性的值来查找记录。所以我们也要对属性值建立索引,即索引表中的每 一项均由一个具体可能出现的属性值,和出现给该值记录的地址两部分组成。这样, 我们可以通过记录的某一项属性值反过来查找到这个记录的存放地址,或者记录对 应的关键码。我们称这种索引为倒排索引即l ( i n v e r t e di n d e x ) ,拥有倒排索引的文件 被称为倒排索引文件,简称倒排文件( i n v e r t e df i l e ) 。 2 3 检索技术 2 3 1 检索需求 检索技术是多源全文检索系统体现最终价值的环节,良好的响应速度,合理的 结果显示和排序都很重要。在得到检索结果之前,需要对用户输入的关键词进行分 析,按照索引过程相同的方法进行文本切分。最后的检索过程是用户通过输入关键 词的特征向量和索引库中的语素向量的相似度计算和匹配得到的。 硕士学位论文 m a s t e r st h e s i s 布尔检索、词组检索、字段检索【i5 】是比较常用的检索形式,但是布尔逻辑检 索和词组检索是使用最多的功能,目前比较流行的搜索引擎都有这两项功能。很多 搜索引擎中并没有提供其他的扩展功能,比如:位置检索、截词检索和限制检索等。 随着智能化检索的要求,对检索预处理还包括了用户个性化信息分析和检索意 图分析,或者根据用户行为对检索词进行分类。但具体来看,搜索引擎主要功能仍 然是对用户输入的关键词进行分析和切分,将切分结果与索引库中语素进行匹配, 得到用户想要的结果,并以一定次序返回给用户。 2 3 2 检索原理 全文信息检索模型中主要有向量模型4 翔、布尔模型【5 l 】、概率模型5 2 1 和混合模型 1 5 9 1 4 种。实际的搜索引擎信息的查询和实现主要采用的是向量检索模型和布尔查询 相结合的方式1 6 0 j 。搜索引擎的基本操作仍然是布尔运算,这种检索算法实现简单, 并且速度快,适合于海量的信息查找和文档分类。但是布尔运算不提供量化的相似 度信息,不能进行结果排序,必须结合向量模型完成。 布尔查询模型理论是基于集合论和布尔代数的一种简单检索模型【3 引。这种模型 把查询串转换成基本与或非组成的关键词组合。在倒排索引结构中,布尔查询一般 先对布尔组合中的每一个关键词进行查询,得到相应结果列表进一步组合或归并计 算得到目标结果。向量模型在查询串和文档之间分配不同的权值,权值大小反映了 文档库中的文档与用户查询串的相关度。查询得到的结果文档集按照权值计算相关 度有序排列,所以向量模型得到的匹配文档可以全部是精确匹配,也可以是部分地 匹配查询串。 在本文中采用的是布尔模型和向量模型相结合的方式,检索的实现原理是基础 匹配计算并结合向量模型,但同时又在多个检索词或语素之间支持布尔组合查询操 作。 2 4 元数据标准及信息模型 国外关于资源元数据标准的研究起步于2 0 世纪9 0 年代末,标准制定过程中, 相互借鉴、互相兼容,逐步完善。其中典型的标准主要有:i m s 的l r m 、i e e el t s c 的l o m 、a d l 的s c o r m 、o c l e 的d u b l i nc o r e 其中d u b l i nc o r e 标准内容较 少,也比较通用刚,因此得到了其它相关标准的广泛支持。其它教育资源元数据标 准基本上都兼容d u b l i nc o r e 标准,并对其作了扩展。 我国于2 0 0 0 年1 1 月启动教育技术标准化项目,由全国信息技术标准化技术委 员会教育技术分技术委员会( c h i n ae - l e a r n i n gt e c h n o l o g ys t a n d a r d i z a t i o nc o m m i t t e e , 1 2 硕士学位论文 m a s t e r st h e s i s c e l t s c ) 参照国际标准制定了符合我国国情的教育信息化标准,其中涉及元数据 的标准主要有c e i ,t s 3 学习对象元数据规范、c e l t s 4 2 基础教育资源元数据 应用规范两项1 1 6 1 。其中c e l t s 3 主要参照了i e e el o m ,它为了增强学习对象描 述的互操作性,通过定义一个统一结构对学习对象进行描述;c e l t s - 4 2 在d u b l i n c o r e 、i e e el o m 、c e l t s 3 的基础上,结合我国基础教育的实际,定义了一组面 向基础教育的教学资源元数据元素。l o m 标准的数据模型博j 是由不同元素分层次 组成。最上层是一个根节点,根节点包含9 个子元素j 。子元素中可以嵌套子元素, 其中不包含子元素的元素称为叶节点,或简单数据元素,而包含子元素的元素称为 中间节点,或集合数据元素。整个数据模型构成“树状”结构,被称为“文档树 。 l o m 标准的各个节点间关系可用如图2 3 来表示。 图2 - 3l o m 数据模型的层次结构 学习对象元数据l o
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 瑶海区注册公司合同范本
- 消防安全协议书合同范本
- 股东借款合同协议书范本
- 锅炉安装工程协议合同书
- 物流仓储安全管理协议书
- 税务代理项目协议书范本
- 灵活用工协议与劳动合同
- 江西北斗卫星导航协议书
- 股票期权服务协议合同书
- 脱落墙体粉刷维修协议书
- 八年级数学下册 第二学期 期末综合测试卷(湘教版 2025年春)(二)
- 集团内训师管理办法
- 2025年客房服务员(高级)客房服务员职业技能培训题库
- 医院防暴伤医培训
- 2025年战略合作协议和框架协议
- 办公楼电气系统改造方案
- 征地拆迁工作整改措施
- GB/T 45089-20240~3岁婴幼儿居家照护服务规范
- 《车路协同 路侧感知系统 第2部分:测试方法》
- 办公楼物业保安管理服务方案
- 游戏开发与运营合同
评论
0/150
提交评论