(计算机应用技术专业论文)基于自动分类的元搜索引擎的研究与应用.pdf_第1页
(计算机应用技术专业论文)基于自动分类的元搜索引擎的研究与应用.pdf_第2页
(计算机应用技术专业论文)基于自动分类的元搜索引擎的研究与应用.pdf_第3页
(计算机应用技术专业论文)基于自动分类的元搜索引擎的研究与应用.pdf_第4页
(计算机应用技术专业论文)基于自动分类的元搜索引擎的研究与应用.pdf_第5页
已阅读5页,还剩56页未读 继续免费阅读

(计算机应用技术专业论文)基于自动分类的元搜索引擎的研究与应用.pdf.pdf 免费下载

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

华北电力人学硕十学伊论文 摘要 搜索引擎是日6 口w e b 检索的主要工具在任何一个搜索引擎中随意输入一个关 键词,就可能得到成百上千、上万个检索结果,用户真正需要的信息被淹没在妖长 的列表中,本文针对搜索引擎存在的问题,提出了一个元搜索引擎模型,通过元搜 索引擎向用户提供统一的访问服务,提高了检索的有效性,检索的查准率和查全率。 本文提出了一套完整的检索结果整合的策略,运用自动分类方法对搜索引擎的返回 结果迸行快速分类,为用户提供一个友好的信息检索交互界面,通过用户的行为反 应探视用户的兴趣,动态调整聚类结果,帮助用户快速检索到相关信息。 本文是司法部课题“刑罚信息综合分析系统”的部分内容,该课题由司法部资 助( 编号:0 3 s f b 3 0 2 1 ) ,刑罚信息是本文关注的主要领域。 关键词:信息检索,元搜索引擎,自动分类,刑罚信息 a b s t r a c t s e a r c h e n g i n e s a r em a i nt o o l sf o ru s e rt ol o c a t ei n f o r m a t i o no ni n t e r n e t a f t e r i n p u t t i n gak e y w o r d i na n yo ft h e s es e a r c he n g i n e s ,al o n gl i s to fr e s u l t sw i l lc e r t a i n l yb e r e t u r n e dw h i c hm a yi n c l u d es u c hav a s ta m o u n to fr e s u l t sf o ru s e rt oc h e c ko n e b yo n e a n dl o c a t ew h i c ho n ei s r e a l l yn e e d e d w i t hr e s p e c tt ot h i se m b a r r a s s e ds i t u a t i o n ,t h i s p a p e rp r o p o s e dam e t a s e a r c h ,w h i c h o f f e r sau n i f i e d w a yt o a c c e s sm u l t i p l es e a r c h e n g i n e s a n di n c r e a s et h e c o v e r a g e a n d p r e c i s i o n w h i l e u s e r s e a r c h i n g w i t ht h e m e t a s e a r c h ,i ti n s p e c t st h eu s e r sr e a c t i o nt oa n a l y z eu s e r s i n t e r e s t i n go fi n f o r m a t i o n n e e d st h i s p a p e rp r o p o s e d a n i n t e g r a t e d r e s u l t sf u s i o n s t r a t e g y , u s i n g a u t o m a t i c c l a s s i f y i n gm e t h o d a n dr a n k i n g a p p r o a c h t oc o m b i n ea n di n t e g r a t et h er e s u l t sf r o m d i f f e r e n tu n d e r l y i n ge n g i n e si n t oau n i q u ec o l l e c t i o n w i t ht h em e t a - s e a r c hw ec a nh e l p u s e r st ol o c a t eq u i c k l yw h a tt h e yn e e do nt h ei n t e r n e t t h i s p a p e r i s p a r t o fp r o j e c t ,t h e s y n t h e t i c a l l ya n a l y z i n gs y s t e m o fp e n a l t y i n f o r m a t i o n t h ep r o j e c ti ss u p p o r t e db yt h em i n i s t r yo fj u s t i c er e p u b l i co fc h i n a ( n o 0 3 s f b 3 0 2 1 ) ,a n di tt a k ep e n a l t yi n f o r m a t i o n a si t sm a i nd o m a i n k e y w o r d s i n f o r m a t i o nr e t r i e v a l ;m e t a - s e a r c h e n g i n e ;a u t o m a t i cc l a s s i f y i n g ; p e n a l t yi n f o r m a t i o n y a n gc a i - f e n g ( c o m p u t e ra p p l i c a t i o nt e c h n o l o g y ) d i r e c t e db yp r o f w a n gb a o y i 声明 本人郑重声明:此处所提交的硕士学位论文基于自动分类的元搜索引擎的研究与 直用,是本人在华北电力大学攻读硕士学位期间,在导师指导下进行的研究工作和取 得的研究成果。据本人所知,除了文中特别加以标注和致谢之处外,论文中不包含其他 人已经发表或撰写过的研究成果,也不包含为获得华北电力大学或其他教育机构的学位 或证书而使用过的材料。与我一同工作的同志对本研究所做的任何贡献均已在论文中作 了明确的说明并表示了谢意。 学位论文作者签名:样日期:! 生皿 关于学位论文使用授权的说明 本人完全了解华北电力大学有关保留、使用学位论文的规定,即:学校有权保管、 并向有关部门送交学位论文的原件与复印件:学校可以采用影印、缩印或其它复制手 段复制并保存学位论文;学校可允许学位论文被查阅或借阅:学校可以学术交流为 目的,复制赠送和交换学位论文;同意学校可以用不同方式在不同媒体上发表、传播学 位论文的全部或部分内容。 ( 涉密的学位论文在解密后遵守此规定) 作者签名 导师签名: l i期:! ! :! :! z 日 新彳l 期:! :! :1 2 华北电力大学颐七学使论文 第一章引言 2 0 世纪末,随着信息技术的巨大发展,我们的时代由工业化时代进入了信息化 时代,信息不再是抽象的不可捉摸的东西,信息作为当今时代的标志而成了我们工 作、生活时刻不可或缺的资源,信息己和物质、能源并称为生产力三要素。信启给 整个社会带来的巨大冲击力,促进社会的迅速发展,也促使社会的各行各业都在努 力实现信息化。围绕信息处理的信息收集、信息加工、信息管理和信息利用各个阶 段,都成了信息技术研究的热点,其中如何更快速、更高效地获取有效信息形成了 信息技术研究的巨大挑战。 1 1 课题研究背景 本文研究的内容,是司法部课题“刑罚信息综合分析系统”的部分内容,所研 究内容既面向互联网信息检索的普遍问题,又面向特定信息领域、特定用户的特殊 需要,使本文的研究既具有理论意义,同时又具有实际的应用价值。 1 1 1 问题的提出 搜索引擎是目前互联网信息检索的主要工具,给我们在互联网上检索信息提供 了巨大方便。但是,在搜索引擎帮助我们查找相关信息的同时,也把我们带入了一 种窘境:在任何一个搜索引擎中随意输入一个关键词,我们可能得到成百上千、上 万个检索结果,其中绝大部分是和我们的实际需要不相关,我们真正需要的信息被 淹没在长长的列表中。 这种窘境是目前搜索引擎的真实状况,这种状况的实质是信息不足与信息过剩 的矛盾。反映为信息检索的查准率和查全率不高。 为了解决这一问题,元搜索引擎应运而生。元搜索引擎为用户提供了统一的访 问界面,可视为搜索引擎的“码头”,使用户只需提交一次检索请求,即可同时旅 得多个搜索引擎提供的检索服务。 元搜索引擎能够提高查全率是显而易见的,提高信息检索的查准率是元搜索引 擎研究的最主要的问题之一,也是本文研究的核心问题。 1 1 2 课题应用背景 中华人民共和国司法部是国家司法行政机关,刑事司法和刑事执法是我固法治 工作的重要内容,管好、用好刑罚信息对做好法制工作举足轻重,对我国法治建设 以及固家的长治久安都具有重要意义。 1 华北电力人学颐十学位论文 为了更好的利用信息技术促进法治建设的发展,司法部于2 0 0 4 年6 月以部级 科研项目形式下达研究任务,研制“刑罚信息综合分析系统”( 项目编号为 0 3 s f b 3 0 2 1 ) ,面向互联网收集刑罚相关信息对其进行筛选、分类等处理,并在此 基础上为刑事司法和刑事执法领域特定用户群体提供多种形式的信息服务。 “刑罚信息综合分析系统”的系统前端通过元搜索引擎向用户提供信息检索服 务,本文作者负责系统的计算机技术研究工作,并具体承担了元搜索引擎的研究设 计本文对元搜索引擎及系统相关部分的设计技术进行了总结。 元搜索引擎是目前互联网检索工具研究的热点之一,涉及多方面的研究,因此 本文所涉及的研究对元搜索引擎具有普遍意义,对计算机技术相关领域具有一定的 促进意义,同时也具有实用价值。 1 2 元搜索引擎研究研究现状 自1 9 9 5 年华盛顿大学硕士生e r i cs e l b e r g 和o r e ne t z i o n i 推出第一个元搜索引 擎m e t a r c r a w l e r 1 ”以来,这一新型的网络检索工具异军突起,成为了研究的热点。 1 2 1 元搜索引擎工作原理 元搜索引擎( m e t a s e a r c he n g i n e ) ,被称为搜索引擎之上的搜索引擎。这晕“元 ( m e t a ) ”为“超越”之意。元搜索引擎为用户提供统一的访问界面在用户提交 检索请求后,元搜索引擎负责将检索请求逆行转换处理后分发给多个预先选定的独 立搜索引擎,并将各个搜索引擎检索到的查询结果进行汇集、去除重复、筛选、评 价等优化处理,并以统一的格式呈现给用户。其工作原理可归纳为: ( 1 ) 接受用户提交检索请求。用户通过统一的访问界面提交检索晴求; ( 2 ) 检索请求转换。把用户输入的原始检索请求分别转换为各个搜索引擎能 够接受的形式; ( 3 ) 分发检索请求。将转换后的检索请求分发给各个独立搜索引擎; ( 4 ) 收集检索结果。将各个独立搜索引擎返回的检索结果收集起来; ( 5 ) 检索结果整合。对各个独立搜索引擎返回的结果进行整合,形成最终结 果: ( 6 ) 把检索结果返回给用户。将整合后得检索结果以统一的形式返回给用,“。 1 22 元搜索引擎的研究现状 从上述元搜索引擎的工作原理可以看出,检索结果整合是其中最重要的环节, 是元搜索引擎研究的核心。问题研究的目的是要制定一套策略,对各个搜索引擎返 2 华北电力大学硕士学伊论文 回的检索结果进行排序,使那些用户最感兴趣的结果排前面,从而加快用户检索到 相关信息的速度,也就是提高查准率。 在国际方面,针对检索结果整合的研究较早,人们研究出了不少方法也实现 了不少元搜索引擎系统,其主要方法如: j r c a l l a n a 针对搜索引擎返回结果的排序、相关性分值的不同情况,给出的4 种典型的整合方法】:k r i s c h 通过修改下层搜索引擎以获得更多信息,进行整合】。 实际的元搜索引擎系统m e t a c r a w e r l ( 4 1 1 引入了概念可信度来决定文档与捡索清 求的相关程度;p r o f u s i o n 【将规范分值法和加权分值法进行了集成;s a v v y s e a r c h f l q l 也采用规范分值法,但是考虑了重复结果对相关度的贡献: 上述方法所依据的信息都仅限于各个搜索引擎返回的信息,i n q u i r u s f 考意到 各个搜索引擎的排序策略的差异,认为单凭这些信息不足以客观评价检索结果与用 户检索请求的相关性,i n q u i r u s 采用了客户端重新计算相关性的方法,它把搜索引 擎检索结果中的文档首先下载,让后亲皂计算相关性。显然,这是一件很艰难的工 作,要以通信带宽、计算时间等为代价。 1 9 9 9 年,e r i c s i i8 l l 等突破了单纯关注用户当前检索请求的局限性,开始注意到 用户的宏观需求,提出了一个基于用户需求的元搜索引擎结构; 2 0 0 1 年k e r s c h b e r g 9 1 1 0 1 等提出了用智能代理实现元搜索引擎的方法,并且基 于语义树分析检索结果和检索请求之问的相关性,其主要思想是将用户的检索请求 建立在概念层次的语义关联上,用户要亲自标定每一个词的重要程度,而这点一 般用户难以做到。 2 0 0 3 年,m e l e n a i “1 等将聚类方法用于结果整合,s a r a v a d e e l 旺1 等也使用类似的 方法建立了一个元搜索引擎模型。 在国内,元搜索引擎和搜索引擎的研究起步较晚,同时因为中文自身的特点, 使得元搜索引擎的研究和其他许多问题都更困难,作为元搜索引擎系统,目前国内 也只有万纬( 型型坐:笪i 4 1 盟a y 墼a 匹h :q 迎) 提供元搜索引擎检索服务。 2 0 0 1 年,皮鹏 1 4 1 等介绍了用元搜索引擎实现个性化检索的基本方法,z h a n g w e i f e n g 也提出了一个元搜索引擎模型;2 0 0 2 年,刘海航【m 1 等从检索工具角度 介绍了元搜索引擎,刘丽等也开始了基于a g e n t 的元搜索引擎研究,在文献博1 中,阳小华等对搜索引擎的检索结果整合方法进行了总结并提出了一些形式化定 义, 2 0 0 3 年,是我幽元搜索引擎研究全面展开的一年,张卫聿【】9 j 将摘要作为棚关度 分柝的依据纳入了结果整合;陈俊杰等、彭喜化 2 1 1 等同时提出了用a g e n t 实现元 3 华北电力人学硕士学位论文 搜索引擎的方法;陈亮f 2 2 j 等基于人工智能知识提出了一个a i p m s e 元搜索引擎。中 国香港的d y c ej i n gz h a o 。也将聚类方法用于元搜索引擎的结果分析q 1 。 在国内对元搜索引擎的研究中,陈亮等直接关注了用户兴趣对检索结果的影 响,提出了用户兴趣模型的三元组表示方法。 另外,北京大学 2 4 j 以天网搜索引擎为依托,也在积极展开对搜索引擎的研究; 中国科学院计算技术研究所f 2 6 】f 2 7 【2 8 1 也在从知识挖掘方面研究互联网中的w e b 信 息,对元搜索引擎的研究也具有促进作用。 1 2 3 元搜索引擎的核心问题 纵观国际、国内元搜索引擎的研究,国外对元搜索引擎的研究较为深入,典型 的如k e r s c h b e r g 己经把相关性分析,建立在了语义分析层次上【2 9 】,有不少可借鉴之 处但因为语音之间的巨大差异以及中文的特性,使这些技术方法无法直接运用于 中文元搜索引擎。在国内,中文元搜索引擎的研究虽然处于起步阶段,从上述研究 现状可以看出,国内的元搜索引擎研究,从技术方法来看,已基本涵盖了目前国外 昕采用的方法,证和国际研究水平并驾齐驱,但是囿于中文处理的诸多困难,使得 中文搜索引擎的研究既面临了理论上的普遍问题,又面临了中文处理的特殊问题, 这一切是目前没有产生优秀的中文元搜索引擎的根本原因之一,使得我们还没有真 于从元搜索引擎这一极具潜力的工具中受益。 元搜索引擎研究的核心问题是优化检索结果整合策略,整合的方法不外乎,对 检索结果与用户需求之间相关性的各种分析,但是因为目前所面临的信息范围过于 宽泛,使得这些整合策略的效果无法趋于稳定,也很难进行客观评价。虽然有些文 献中试图对互联网中的信息进行分类研究,但其分类同样过于宽泛,如划分为体育、 科技、财经等等,使得某些信息领域自身的特点不易被深入挖掘,也不能很好的利 用其特性优化检索工具。 因此,围绕元搜索引擎研究的核心问题,面向不同信息领域,采用各个击破的 策略进行元搜索引擎的研究,符合科学研究的简化问题复杂度的策略,是值得尝试 的方法。本文正是以此为出发点,结合特定信息领域的特定应用,对元搜索引擎研 究进行了有益的探索。 1 _ 3 本文研究的内容 本文结合司法部“刑罚信息综合分析系统”,研究了面向刑罚信息领域,特定 用户群体、特定信息需求的信息检索,提出了个元搜索引擎模型。 本文围绕该元搜索引擎模型,围绕元搜索引擎研究的核心问题,重点研究了以 4 华北电力大学颐七学使论文 下四个方面的问题: ( 1 ) 中文分词是一切中文处理无法回避的基础m 题,面向刑罚信息的中文分 词,如何运用于优化元搜索引擎的性能? ( 2 ) 文档分类和聚类技术如何运用于检索结果整合? ( 3 ) 如何运用用户兴趣模型优化信息捡索? ( 4 ) 如何运用各种信息建立元搜索引擎的检索结果整合策略? 1 4 本文的组织 本文结台“刑罚信息综合分析系统”,研究了面向刑罚信息领域,特定用户群 体、特定信息需求的信息检索。本文提出了一个元搜索引擎模型,并运用中文分词、 分类、聚类以及用户兴趣挖掘等技术手段,实现个性化的信息检索。本文从理论和 应用两个层面讨论了用元搜索引擎实现个性化信息检索的技术。 本文第二章首先介绍了中文分词处理面临的主要困难以及主要技术方法。进而 主要介绍了中文分词问题在“刑罚信息综合分析系统”中的关键作用。研究了面向 刑罚信息、的中文分词。刑罚信息综合分析系统面向刑罚信息的特定领域,判断信扈、 和刑罚信息的相关性是本系统的关键问题,贯穿于系统的各个环节。其中,建立刑 罚信息词典是系统研究的基础,也是系统研究核心问题之一。在第二章中,详细介 绍了刑罚信息辞典的建立过程,以及在系统中的应用。 本文第三章介绍文档自动分类和文档向量空间模型。和第二章思路相似,首先 介绍了自动分类中自动归类( 常称之为分类) 和聚类两个基本概念,自动分类的基 本思想、常用算法、相似度定义和计算,以及常用的文档向量空间模型。然后重点 介绍了刑罚信息分析系统中文档向量模型的调整,并针对刑罚信息和法律信息难于 区分的特型,对t f i d f 函数进行了的改进,并在系统处理中使用了长词优先的原则: 本文第四章首先介绍了刑罚信息综合分折系统的概况,然后结合本文主题详细 介绍了系统中元搜索引擎的实现。为了实现刑罚信息检索的个性化服务,系统建立 了有着刑罚信息需求的特定用户的群体特征描述,以及每个用户的特征摇述。系统 引入了注册用户管理机制,在管理机制中和一般的系统做法不同,系统没有盲目追 求对用户兴趣动态变化的及时调整,相反,系统根据自身特点,更强调用户特征的 相断稳定性,所以系统采用了对用户特征的“臆式跟踪,显式变更”更新策略,避 免了_ e j 户特征不良飘移,保障了用户特征的相对稳定性。 本文第四章另一部分介绍了元搜索引擎中的核心内容,即检索结果的整合策 略。为了满足元搜索引擎的实时性要求,系统摒弃了对检索结果原文进一步分析, 华北电力大学硕十学位论文 而认为,标题和摘要是原文全文的精粹,具有对原文的高度概括性,并具有相当的 准确性,足可资利用的宝贵资源。以此为基础系统从多方面对检索结果进行分析, 给出了检索结果的统一排序策略。 本文第五章简单介绍了刑罚信息综合分析系统的整体情况。刑罚信息综合分析 系统是集信息采集、加工、发布和信息管理等多种功能的完备系统,系统开发涉及 社会科学研究和计算机技术研究的多个方面。其中在计算机技术的多个方面,都涉 及到当前的技术研究热点,文中列出了其中的主要技术要点,也从另个侧面说明 了本文内容的重要性。 本文第六章对全文进行了总结,并展望了刑罚信息综合分析系统研究中进一步 的工作。 1 5 刑罚信息综合分析系统 “刑罚信息综合分析系统”是面向特定信息领域和特定用户对象的信息收集、 管理和发布系统。其研究目的描述为: 面向整个互联网和司法行政系统收集刑罚相关信息,并运用开i j 罚领域相关知识 和计算机信息处理技术对其进行筛选、分类、分析等处理,进而在此基础上为特定 用户群体提供多种形式的信息服务。 1 5 1 “刑罚信息综合分析系统”的信息领域范围 “刑罚信息综合分析系统”所研究的特定内容为刑罚领域相关信息,简称为“刑 罚信息”,其范围包括以下几个方面: ( 1 ) 刑罚执j 于信息; ( 2 ) 狱政管理信息; ( 3 ) 教育改造信息; ( 4 ) 罪犯心理矫治信息; ( 5 ) 警察管理信息。 i 5 2 “刑罚信息综合分析系统”的信息服务对象 “刑罚信息综合分析系统”的主要服务对象为刑事司法和刑事执法领域的研究 者和实务工作者,这些特定服务对象是系统开发设定的主要服务对象,并且对其施 行注册用户管理制度,系统将以多种形式为其提供优化的刑罚信息服务。同时对普 通用j r i ( 叵联网上的一般用户或者注册用户的非注册身份) 提供一般意义上的信息 检索服务。 6 华北电力大学硕:e 学位论文 1 5 3 “刑罚信息综合分析系统”的信息服务形式 系统对注册用户提供三种形式的信息服务: ( 1 ) 个性化搜索服务 在用户执行检索时,根据用户的需要,提供个性化的信息检索服务,帮助用户 尽快定位所需信息。 ( 2 ) 目录服务 在本系统所建立的刑罚信息分类模式基础上,为用户提供按主题的层次目录式 信息检索服务。 ( 3 ) 信息推送服务 如果用户特别关注某些领域的信息,并期望及时跟踪该领域的信息动态,可以 订阅相关主题的信息,系统将自动将信息推送给用户,实现用户在未知信息存在的 情况下,及时获取最新信息。 系统对普通用户,提供一般意义上的信息检索服务。系统为所有用户提供统一 的冗搜索引擎搜索界面,所有用户将通过这一统一的界面,同时访问多个独立搜索 引擎,系统将为其提供优化的信息检索功能。 7 华北电力夫学顶士学晓论文 第二章刑罚信息系统中的中文分词处理 中文分词研究经过很多人的共同努力,已经取得了不少成果,但分词问题至今 仍然是中文信息处理的一个瓶颈。中文分词涉及中文信息处理的众多应用领域,从 最底层的键盘、语音和字符识别等各类汉字输入方法,到最高层的各种汉语理解系 统,都不能完全摆脱分词处理的困扰【3 0 l 。 刑罚信息综合分析系统开发的第一阶段界定的信息处理范围全部为中文信 息,中文分词处理也是系统无法回避的问题。本文未对中文分词的具体算法进行深 入的研究,但针对于系统的特定需要,采用了一些有效的分词策略。 2 1 中文分词概述 2 1 1 中文分词处理面临的主要困难 在中文信息处理中,词作为“最小的能独立运用的语言单位”是大家公认的: 但是,中文不像英文那样,词有着明显的界限,词与词之间存在着明确的分隔,在 中文文本中字与字之间b 相连、词与词之间相连,没有明确的分隔标记,致使在中文 信息处理领域,甚至对于“什么是词”这样的基本概念都出现了争议,这使我们很 难从中文文本中方便地辨识出信息处理所需的“词”。因此,在中文信息处理领域 中,要实现中文信息处理的各项任务,首先必须解决分词问题,由此,分词问题的重 要性就显得异常突出。 中文自身的诸多特征,决定了中文分词是一个异常复杂和困难的闯题,其面:临 的困难主要体现在五个方面: ( 一) 、“词”的概念在汉语中缺乏清晰的界定。大多数以汉语为母语的人对于 “什么是词”充其量只有一种朦胧的感觉,词的概念对他们来说缺乏一种心理实在 性,即使是在我国语言学界,对于词的概念也有些飘忽不定。这种情况使得很难建 立一个权威的辞典,用以满足中文信息处理的应用。 ( 二) 、分词过程和理解过程相互胶着。人在阅读过程中,分词和理解是两个 相互胶着的过程,一般是边理解边分词,甚至是先理解后分词。但这一点也只有我 们人类的大脑彳能实现,甚至有些时候我们人类都会犯错误。当我们试图使弭j 计算 机进行中文信息处理时,这种胶着现象就形成了分词和理解的怪圈,一方面,当我 们希望计算机去理解中文时,我们需要计算机首先对中文信息进行自动分词,然而 8 华北电力人学颐七学伊论文 另一方面,当我们要进行分词处理时,我们又希望通过理解实现正确分词。这就形 成了中文分词处理中的知识短缺、知识运用时机选择等方面的问题。目前大多数分 词系统都只能在对输入文本尚无理解的条件下进行分词,汉语的诸多知识规则还很 难用于支持分词处理中的算法设计。 ( 三) 、歧义切分字段。在中文文本中字与字之间相连、词与同之间相连,没 有明确的分隔标记,使得在分词处理过程中,一个汉字可能和其前、后的字同时构 成有意义的组合,从而形成交集型歧义切分。在这种情况下,有时我们可以通过对 上下文的语境分析确定哪种切分更合理,有时我们可能根本无法区分,甚至有些情 况下我们人也无分区分。另一种情况是一个长词中的部分也可能是一个词,从而形 成包孕型歧义切分。在这种情况下,也使我们感到无所适从,我们不知道选择整体 还是部分使得切分更合理。 ( 四) 、未登录词的辩识。目前,许多分词算法都是基于词表的算法是基于 词表的完备性而设计的。但是随着社会发展,各种文化的相互渗透、交融,一方面 新词在不断涌现,另一方面,对于专有名词,如人名、地名、机构名、译名等等, 这些词虽然无法称其为新词,但不可能尽数收录,所以我们几乎没有办法保证词表 的完备性。这些未登录词给自动分词带来了困难,而且实际所造成的分词错误远远 超过歧义切分引起的错误。 ( 五) 、切分正确率与切分效率的矛盾。在中文自动分词的研究与发展历程中, 基于各种想法和理论,人们送行了很多的尝试,近年来也产生了基于神经网络模型、 遗传模型、统计模型等一些复杂算法。无论这些算法多么复杂、多么有效,也无论 这些算法帮助我们在中文分词处理的道路上取得了多少进步,有一点是客观事实: 我们取得的每一点进步几乎都是以更多的系统资源作为代价的。切分的正确率往往 是用牺牲切分效率换来的,切分正确率与切分效率是一对矛盾。在实际应用中,面 对具体问题,我们不得不在切分正确率和切分效率之间寻求平衡。 在上述汉语分词的五方面困难中,第一方面是分词标准问题,是人和计算机共 同面临的困难;第二方面是计算机自动分词中的最大的挑战,我们不得刁i 在知识短 缺的条件下尽力去追求较好的分词结果;第三和第瞪条方面是影响分词精度的两个 主要因素,因而也是当前自动分词研究的焦点;第五方面反映了对分词算法的评价 问题,我们如何选择算法才能算是“满足需要”,我们只能在满足整体性能的基础 上,追求更高的切分正确率和切分效率。 另外,建立切实可行的分词标准和统一的语料库,最大限度的实现资源共享与 技术复用,减少不必要的重复研究与丌发,也是目前中义分渊处理研究领域一个备 受关注蚋问题。 9 华北电力大学硕士学位论文 2 12 中文分词处理的主要技术( 3 2 由于中文分词存在着上述多方面的困难,要想使之得到圆满解决,就必须从中 文的词法、语法、语义、语用甚至篇章理鲭等多个层面上进行深入研究,而且要考 虑不同应用的实际需要。 中文分词处理的主要技术有: ( 一) 、机械匹配法 机械匹配法是自动分词最基础的算法,其基本思想非常简单: 首先建立一个尽可能完备的词表,在分词处理过程中,将待分词文本视为个 线性汉字串,然后按照某种规则切取子串,并将子串与词表中的词条进行匹配。 在机械匹配分词法中,根据切取子串原则的不同,机械匹配法可细分为正向匹 配法、逆向匹配法、长词优先法、短词优先法、最大匹配法、最小匹配法、增字法、 减字法,等等。 ( 二) 、特征词库法【3 3 】 特征词库法基于这样的事实:汉语中存在一些形态标志,比如各种词缀、虚词 和重叠词等,这些形态标志可为汉语的切分提供重要的依据,在自动切分时应尽可 能加以利用。 特征词库法实际上这是一种“分而治之”的分词方法,其基本思想是: 和机械匹配法类似,事先要建立一个特征词库,其中包含各种具有切分特征的 词,特征词库中的词的作用类似于标点符号,一个标点符号总是将一段连续文本分 成两部分,利用特征词我们不仅得到了一个分词,而且该特征词也把这个待分的字 串分割成了前后两部分,从而把个复杂问题变成了两个相对简单的问题进而可 以“分而治之”,分别采用机械匹配法进行切分。 ( 三) 、约束矩阵法 约束矩阵法主要是针对中文分词处理中的歧义切分问题而提出来的。其基本思 想是: 首先建立一个语法约束矩阵和一个语义约束矩阵,其中的元素分别表明具有某 词性的词与具有另一词性的词的相邻是否符合语法,以及属于某语义类的词与属于 另一语义类的词的相邻是否符合逻辑;同时还需要建立一个词表,其中包含所有可 能 _ 现的词,它们的各种可能的词性和语义类。然后按照机械匹配法类似的过程 不断切分,不断约束矩阵证的规则进行判断。 出于汉语中存在的约束关系异常复杂,有些约束关系很难描述。所以约束矩阵 1 0 华北电力大学硕十学位论文 仅能描述一些固定的约束关系,所以约束矩阵法在中文分词处理中所发挥的作用也 相当有限。 ( 四) 、语法分析法 语法分析法同样是为了消除歧义分词,把语法分析和分词结合起来,借助语法 分析来提高切分正确率。其基本思想是: 首先要建立一套汉语语法规则,用于描述某些成份的结构及其子成份之间必须 满足的约束条件:同时还需要建立一个尽可能完备的词表。然后按照机械匹配法类 似的过程,不断切分,不断用语法规则进行判断,以期提高分词精度。 ( 五) 、理解切分法 理解切分法试图模仿人类的阅读理解过程,在分词过程中,融入“理解”机能, 用“理解”减少歧义分词,提高分词的正确率,其基本思想是: 首先建立一个词表,其中包含所有可能出现的词和它们的各种语义信息,然后 在分词过程中利用词表中语义信息进行语义分析,形成理解结果和检查约束条件, 从而帮助判断分词的正确性。 2l3 分词系统实例 正因为中文分词处理是切中文信息处理的基础,所以成为了国内研究的热 点也同时因为我国对信息产品的巨大市场需求,也使国外一些研究机构或公司非 常热衷于中文分词的研究。 在国内,由北京大学计算语言学研究所研制的分词系统,同时具有分词和词性 标注的功能。由于将分词和词类标注结合起来,系统可利用词类信息对分词决策提 供帮助,并且在标注过程中又反过来对分词结果进行检验。系统的处理包括自动切 分和仞始词性标记、切分歧义字段识别、组词和标注预处理、词性标记排歧、切分 和涮性标注后处理等过程。算法综合了多种数据结构和搜索算法,实现了高速匹配 和查找,同时采用了当代计算语言学的统计方法,运用隐m a r k o v 过程进行词类标 注和排歧。系统强调了通用性,将最稳定、最常用的4 万6 千余条现代汉语基本词 汇及其有关属性组织成为基本词典,可识别出大部分的常用词。 在图内,由清华大学研制的s e g t a g 分词系统,提供了带回溯的正向、反向、 双向最大匹配法和全切分评价切分算法,可由用户来选择合适的切分算法。复旦 大学研制的复旦分词系统由四个模块构成:预处理模块( 利用隐式标记将文本分割成 较短的汉字串) :歧义识别模块( 正向最小匹配和逆向最大匹配进行双向扫描) ;歧义 字段处理模块( 利用构词规则和词频统计信息来消除歧义) ;未登录词识别模块( 解决 未登录词造成的分词错误) 。 1 1 华北电力大学硕士学位论文 另外,哈尔滨工业大学的统计分词系统是一种典型的运用统计方法的纯切词的 分词系统,它试图将串频统计和词匹配结合起来。系统由预处理模块、串频统计模 块、切分模块三个部分构成,能够利用上下文识别大部分生词,解决部分切分歧 义。杭州大学改进的m m 分词系统,采用了改进的m m 分词算法( 运用“归右原则” 切分歧义字段1 ,从而将机械分词的理论切分精度提高到了9 9 7 3 。 在国外研究中文分词的机构中,最典型的是美国微软公司。微软研究院的自然 语言组在从2 0 世纪9 0 年代初就开始研制一个通用型的多国语言处理平台n l p w i n 。 并从1 9 9 7 年开始,增加了中文处理的研究。n l p w i n 的语法分析部分使用的是一种 双向的c h a r tp a r s i n g ,使用了语法规则并以概率模型作导向,并且将语法和分折器 独立开。该系统中文分析是将词的切分同句法分析融合起来,在其切词匹配阶段保 留所有可能的切分结果( 包括歧义切分) ,然后在句法分析阶段使用汉语的句法规则 判断切分的合理性,如果对句子的某种切分能够成功地建立起完全的句法树,则表 示该切分结果是正确的。对于有上下文歧义和其它歧义的切分字段,系统将生成两 棵以上的分析树来分析。系统对多种切分结果进行了完全的句法分析、剥词典每个 属性进行了完全的查找,效率较高。其研究成果的典型应用体现在微软公司的办公 自动化套件m i c r o s o f to f f i c e 、微软拼音输入法等软件产品中。 2 2 刑罚信息词典的建立 刑罚信息综合分析系统开发的第一阶段界定的信息处理范围全部为中文信 息,中文分词处理也是系统无法回避的问题。本文未对中文分词的具体算法进行深 入的研究,但针对于系统的特定需要,采用了一些有效的分词策略。 刑罚信息综合分析系统开发中的难题之一是,在刑罚信息研究领域,既没 有专门的刑罚信息词典,也没有刑罚信息、的主题分类标准。所以建立“刑罚信息词 典,和建立“刑罚信息主题分类( 参考) 标准”也是本系统研究对社会科学研究的 重要贡献。 2 2 1 “刑罚信息综合分析系统”的信息领域范围 “刑罚信息综合分析系统”所研究的特定内容为刑罚领域相关信息,简称为“刑 罚信息”,其范围确定为: ( 1 ) 刑罚执行信息。主要包括三个方面:一是国家有关刑罚执行的立法类信 息,包括法律、法规、规章等多个层砸;二是国家权威部门及各地监狱管理机关发 柿的有关刑罚执行方面的各种统计数据,如押犯人数、押犯的构成情况,执行中的 变更措施等;三是有关刑罚执行的法学研究成果。 1 2 华北宅力大学顼十学位论文 ( 2 ) 狱政管理信息。主要涉及罪犯的分类管理,权益保障及狱内的处遇管理, 监管改造制度创新及评估等。 ( 3 ) 教育改造信息。主要涉及监狱对罪犯教育的方式、方法、途径的科学化 以及教育改造质量的评估等。 ( 4 ) 罪犯心理矫治信息。主要涉及监狱及志愿工作者为服刑人员所提供的各 种心理学方面的服务情况,心理矫治的成效等。 ( 5 ) 警察管理信息。主要涉及监狱人民警察队伍建设情况,包括监狱人民警 察的录用、培训、使用、管理等方面的信息。 22 2 刑罚信息词典的建立 刑罚信息词典的建立和完善是系统开发成功的关键,在建立刑罚词典的过程 中,课题组的大致思路和工作过程如下: 第一步:收集刑罚相关资料。 按照上述刑罚信息的范围收集了大量资料,包括以下几个方面: ( 一) 、收集了中国监狱学刊近三年的电子版数据; ( 二) 、收集了十个监狱的狱政管理、警察管理、教育管理等方面的电子文档 和数据库数据; ( 三) 、通过法律出版社协助,收集了2 0 0 0 2 0 0 4 年间出版的3 1 1 部相关书稿 的电子版数据; ( 四) 、收集了中华人民共和国司法文件库,最高人民法院、最高人民检察院 司法解释库,人民法院判例库集中电子出版物数据: ( 血) 、收集了全国所有监狱的名称( 原名称,以及监狱命名属地化后的新名 称) 、地址等信息: ( 六) 、收集了司法行政系统、刑罚研究等相关领域的一些真名实姓; ( 七) 、收集了一些刑罚相关网站的w e b 文档; ( 八) 、购买了北大天网i o o g w e b 文档; ( 九) 、收集国内一些法律相关网站的w e b 文档。 华北电力大学硕士学位论文 第二步:建立一般词衷 借鉴一些无词典分词算法【3 4 1 和基于统计的算法【35 1 ,对部分中文文档进行分词处 理,同时进行词频统计,形成一般词表,并将其中的频率高的词条通过人工进行筛 选,筛选出了1 0 0 0 0 个备选高频词条和3 0 0 0 0 个刑罚信息相关词条。 第三步:建立刑罚信息备选特征词表、常用词表和通用词表 利用第二步建立的词表,进行机械匹配分词,同时进行词频统计,并对照上述 结果进行人工筛选,筛选出了4 0 0 0 个常用词条、8 0 0 0 个刑罚信息备选特征词条、 15 0 0 0 个刑罚信息相关词条,其他部分作为通用词表。 第四步:建立刑罚信息特征词表 在我国法律体系中,刑罚是整个体系的一部分,如何从整体中区分出部分是系 统研究中的一个难题,课题组采用了并行处理和人工比较的方法,筛选出具有刑罚 信息辨识能力的词条作为刑罚信息特征词条,从而构成系统可用的刑罚信息特征词 表。 课题组采用并行的办法对一部分法律相关数据进行分词、统计处理,然后和刑 罚信息各选特征词条对照比较,扶中筛选出了5 0 0 0 个刑罚信息特征词条。( 目前的 5 0 0 0 条有些宽泛,还有待进一步积累数据进行优化) 第五步:统计刑罚信息特征词条的共现频率 鉴于刑罚信息和一般法律信息不易区分,系统通过特征词条的共现频率识别信 息的相关性。在刑罚信息特征词表中,统计了每一个特征词条和另外1 0 个共现频 率较高词条之间的共现频率度量。 第六步:建立刑罚信息主题分类 因为在刑罚研究领域没有分类标准,所以课题组使用了聚类分析的方法,形成 一些主题,然后通过刑罚领域专家的多次人工评价,确定了部分主题暂作为系统的 分类参考标准。 第七步:按主题分类建立特征词条与主题的相关性统计数据 华北电力大学硕十学位论文 根掘已形成的主题分类,统计特征词条于每一个主体之j 白j 的相关性,从而将特 征问条划分为按主题分类的特征词条群,并统计其余主题相关性。 第八步:建立面向主题的概念层次词典( 未来工作) 为了提高系统对刑罚信息分类和检索的准确率以及系统对开4 罚信息的覆盖率, 课题组准备建立面向主题分类的概念层次词典,将同义词、近义词、上下文关系、 以及英文组织在一起,进一步优化系统性能。 通过以上步骤,本系统建立了一个面向主题的刑罚信息词典,该词典可以运用 于系统丌发的各个部分。 需要说明的是,系统采用上述分词策珞是为了建立刑罚信息词典,而系统实际 应用中分词的精度和效率都有待进一步优化课题组不准备对分词的算法作深入的 研究,避免重复开发,而准备将此部分委托权威研究机构或者商业公司代开发性能 优异分词算法。 2 2 ,3 刑罚信息词典的运用 刑罚信息词典,是刑罚信息综合分析系统开发的基础,其应用贯穿系统的 多个环节中。 刑罚信息综合分析系统被描述为:面向整个互联网和司法行政系统收集刑 罚相关信息,并运用刑罚领域相关知识和计算机信息处理技术对其进行筛选、分类、 分析等处理,进而在此基础上为特定用户群体提供多种形式的信息服务。 这罩直接通过系统定义分析词典的应用。 ( 一) 、刑罚信息词典运用于中文分词 中文分词处理是所有中文信息处理必须面对的问题,刑罚信息综合分析系统 面向整个互联网和司法行政系统收集刑罚相关信息,决定了不仅需要通用的词表, 而且需要面向刑罚信息特定需要的特殊词表。刑罚信息词典包含了按词频以及相关 度的词表,以及些刑法信息专用词条,用于系统的中文分词。 另外,刑罚信息词典中包含了一个包含刑罚信息特征的刑罚信息特征词表。利 用刑罚信息特征词表中的特征词条,可以在中文分词处理阶段实现“刑罚相关信息” 的早期相关性判断。 ( 一:) 、刷罚信息词典运用于刑罚信息的筛选和分类。刑罚信息综合分析系统 耍运甩开i j 罚领域相关知识和计算机信息处理技术对其进行筛选、分类、分析等处理。 15 华北电力大学硕士学位论文 这罩刑罚信息词典是刑罚领域知识的主要体现形式之一,词典中按主题分类组织刑 罚信息词条,并给出了词条与主题的相关度统计数据。这些数据用于判断刑罚詹息 的相关性以及对其进行分类。 ( 三) 、刑罚信息词典运用于注册用户管理。刑罚信息综合分析系统要为特 定用户群体提供多种形式的信息服务,首先就要对这个特定用户群体进行管理,系 统引入了注册用户管理机制,并且对每一个注册用户都用一组刑罚相关的词条描述 其信息需求特征,通过刑罚信息词典可以判断用户和一些主题的相关性、判断用户 信息需求、实现注册用户的分类管理、实现信息推送服务等。 ( 四) 、刑罚信息词典是系统实现个性化信息检索的基础。元搜索引擎功能是 刑罚信息综合分析系统为用户提供信息服务的主要形式之一,帮助用户尽陕定 位刑罚信息,实现个性化信息检索是系统最主要目标之一。利用刑罚信息词典和用 户特征可以优化检索过程和优化检索结果。 2 3 刑罚信息词典辅助中文分词 通过上述刑罚词典的建立过程,本文描述了面向各种应用环节的词典侧面。反 映出刑罚信息词典也必然是一个面向不同应用的多结构、多功能信息集合体卜。其 中,利用刑法信息词典进行中文分词处理( 包含专用人名地名分词) ,使其最基 本的用途。 中文分词算法设计虽然不是系统研究中的重点,但是本文采用的分词策略使得 系统在处理刑罚信息时,取得了良好的效果,并且借助刑法词典中的特征词表,使 系统可在分词阶段及早判断出文本和刑罚信息的相关性。 分词算法: 利用刑罚信息特征词表,分割待分词文本:在分割过程中,对特征 词条以及已分割的文本长度进行计数。 ( 2 )计算特征词条中文字个数与分割长度的比值,这个比值称之为刑罚 信息敏感度,记为0 5 。当日低于某个阀值时,可以确定文本和刑罚 信息无关,可以停止分词。( 通过实验观察,普通常用词的平均长度 约为2 3 8 个汉字,刑罚信息相关词平均长度2 5 5 个汉字,由此可以 用词条数之比作为敏感度度量) ( 3 )利用其他词表对被分割的文本进行机械匹配分词。 在分词过程中,我们采用了长词优先有限的分词策略,同时对司法行政系统以 及刑罚信息领域中重要的专有名词进行过滤,使分词正确率达到了7 9 3 ;该正确 1 6 华北电力人学硕士学晓论文 已基本满足了系统在刑罚信息相关性判断是的应用。 另外,本文利用刑罚信息相关文档对算法进行训练,初步确定当敏感度口的阀 值取0 0 2 5 时,即可有效的识别文档和刑罚信息的相

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论