(模式识别与智能系统专业论文)基于主题的互联网信息搜索方法研究.pdf_第1页
(模式识别与智能系统专业论文)基于主题的互联网信息搜索方法研究.pdf_第2页
(模式识别与智能系统专业论文)基于主题的互联网信息搜索方法研究.pdf_第3页
(模式识别与智能系统专业论文)基于主题的互联网信息搜索方法研究.pdf_第4页
(模式识别与智能系统专业论文)基于主题的互联网信息搜索方法研究.pdf_第5页
已阅读5页,还剩71页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

摘要 摘要 随着互联网的迅猛发展,如何快速、有效、准确地搜索信息成为迫切需要解决的问题。 为了使用户准确获取他想要的信息,信息抽取成为必要。 本文针对基于主题的信息抽取提出了一系列新颖的方法来解决抽取过程中所遇到的技 术问题。 首先,本文提出了一种基丁概率匹配和词性匹配的中文分词方法在提高分词效率的同 时,很好的解决了中文分词的歧义性问题,为后续的网页聚焦羽l 网页信息抽取i ? 佧提供了必 要的技术支持。 其次,针对传统的基丁土题的网页搜索算法执行效率不高、精确度低的缺点,设计了一 种基于机器学习的链接分层搜索算法。该算法通过机器学习,得到页面链接模式并对待扩展 结点分层。此筇法能够有效地获得期望页面,从而避免遍历人昔无关页面,提高了上题相关 页面的获取效率平准确性。 最后,在获得产品信息相关页面的基础上,针对产品信息页面的特性,提出了一种基丁 信息块模式定位的信息抽取方法。该方法基于对网页信息块,属性元素,信息元素的定位, 使用标准的x m l 技术米解决网页信息抽取问题。使用标准的x s l t ,利用它强人而且灵活 的特性编写简单、健壮雨睫j _ j 的抽取规! l l ! | ,展终生成结构化,标准化的x m l 标准数据文档。 关键词:中文分词,搜索引擎,主题搜索,信息抽取 a b s t r a c t a b s t r a c t w i t ht h ee x p l o s i o no fw o r l dw i d ew e b ,h o wt os e a r c hi n f o r m a t i o ne f f i c i e n t l ya n da c c u r a t e l y h a sb e c o m ea nu r g e n tp r o b l e m t oh e l pp e o p l ea c c u r a t e l yg e tt h ep i e c eo fi n f o r m m i o nw h a th e w a n t sf r o mt h ew e b ,i n f o r m a t i o ne x t r a c t i o nf r o mw e bp a g e si sn e c e s s a r y w ep r o p o s e das e r i e so f a l g o r i t h mt os o l v et h et e c h n i q u ep r o b l e m sf o ri n f o r m a t i o ne x t r a c t i o n w h i c hb a s e do nt o p i cs e a r c h f i r s t l y ,w ef o u n daw a yf o rc h i n e s es e n t e n c e ss e g m e n tb a s e d0 nt h es e g m e n tp r o b a b i l i t ya n d p a r to fs p e e c h ,w h i c hn o to n l ye n h a n c e st h es e g m e n te f f i c i e n c yb u ta l s os o l v e st h ep r o b l e mo f d i f f e r e n tm e a n i n g s t h es y s t e mo fc h i n e s es e n t e n c e ss e g m e n tm a k ea g r e a tc o n t r i b u t i o nt of o c u s c r a w l e ra n dw e bi n f o r m a t i o ne x t r a c t i o n s e c o n d l y ,t r a d i t i o n a la l g o r i t h m ,w h i c h i sb a s e do nt o p i cs e a r c h ,l a c k so fe f f i c i e n c ya n d a c c u r a c yt or e s o l v et h i sp r o b l e m ,w ep r o p o s e d ah y p e r l i n kh i e r a r c h i c a lm o d e l ,a n du s e d m a c h i n e l e a r n i n gm e t h o dt o l e a r n i t c o m p a r e d w i t ht r a d i t i o n a la l g o r i t h m s ,o u ra p p r o a c h s i g n i f i c a n t l yi m p r o v e sc r a w l i n ge f f i c i e n c y f i n a l l y , a f t e rg e t t i n gt h ew e bp a g eo fp r o d u c t s ,w ep r o p o s e da na l g o r i t h mf o rw e b i n f o r m a t i o ne x t r a c t i o nb a s e do no r i e n t a t i n gl o c a t i o n sf o ri n f o r m a t i o nb l o c k s t h i sm e t h o dc a n h e l pu s t of i n d t h eb e g i n n i n go fa ni n f o r m a t i o nb l o c ka n dg e tt h ep r o p e r t ye l e m e n t sa n dt h e i n f o r m a t i o ne l e m e n t s w ea p p l ys t a n d a r dt e c h n o l o g i e so fx m lt ow e bi n f o n n m i o ne x t r a c t i o n p r o b l e m w i t hs t a n d a r dx s l t ,w ec a ne x p l o i ts t r o n ga n df l e x i b l ef e a t u r e so ft h el a n g u a g e1 0 c o n s t r u c ts i m p l e ,r o b u s ta n dg e n e r a le x t r a c t i o nr u l e sa n dc r e a t en o r m a t i v ex m ld o c u m e n t s k e yw o r d s :c h i n e s es e g m e n t ,s e a r c he n g i n e ,t o p i cs e a r c h ,i n f o r m a t i o ne x t r a c t i o n i 概述 1 1 引言 1 1 1 背景介绍 1 概述 白从w w w 诞生以来,己经发展成为拥有近亿用户和数亿页面的巨大分布式信息空间,而 且其信息窬量仍以指数形式e 速增艮w w w 是以超文本形式0 现给用户的,包含了从技术资料、 商业信息到新闻报道等各种类别和形式的信息,为川户提供了一个极具价值的信息源。但是。 由丁i i n t e r n e t 是一个具有开放性、动态性和异构性的全球分布式网络,其本身所同有的3 个 特点已经明显的阻碍了人们充分地使埘i n t e r n e t 上的资源。 1 i n t e r n e t 上可利用的资源是无组织的、多种结构形式的。 2 数据和服务的类刑以及数鼙每大都人擎增加,冈而信息的可利h 性和可靠性也在不 断降低。 3 由丁存在信息源的动态胜咀及潜在的有用信息的更新和保存问题信息常常是模糊 的,有时蕤至是错设的。 由丁上述原冈,在 n * 。e r n e t 上进行信息检索时,经常会出现“信息过载”。网上的信息 是海鼙和无组织的,易发生资源迷向,_ 【 j 户不知道如何更有效的利j h 资源筲问题,这也就是 所谓的“数据海量,知识贫乏”问题。为解决这种问题现在己经出现了很多的搜索引擎来 帮助j l 户查找有用信息,尽管如此,但奄找的结果也是搬庞人的,囡此如何从这些文档中直 接抽取出所需信息,而不必一测览,是用户迫切需要的。 信息抽取的目标是将文本中的信息抽取出来亓表示为结构化、白描述的数据结构。从而 将雅以操纵的文本数据转化为容易处理霸吩析的结构化数据。 1 1 2 信息搜索发展历史 国外人约在8 0 年代初就开展信息搜索的研究,亓取得了一些成贝,体现为一些信息搜索 系统,f 面简单介绍8 0 年代贝彳】代表性的儿个信息搜索系统”。 f r u m p 系统是比较甲期的】e 系统。f r i t p 系统把有线新闻刚络作为数据源,使崩一些新闻 故事的简单脚本来对有线新闻网络进 监控。f r u m p 系统采_ l j 关键字检索,概念句子分析, 脚奉匹配方法寻找相芙的新闻故事。f r l 3 i p 系统是一个面向语义的系统,采懈r 一个特定领 域的事件描述脚本知识胯。 a t r a n s 主要从荚j 植物和动物的j 规结构描述中抽取些简单信息填八个具有同定 概述 记录格式数据库中。a t r a n s 是一个商品化产品,主要_ 1 j 丁处理国家银行中钱转帐的信息。采 用类似丁f r u m p 系统的概念句子分析技术。a t r a n s 系统描述了利用一些简单的语言处理技术 能够完成限制在小规模,特定领域的信息抽取任务,具有定的实用性,s c l s o r 系统采用文 本分析技术,对所有关于公司的信息进行信息过滤然后从文本中抽取关于公司名字等条目 存入数据库中,供查询使用。 m e s s a g e u n d e rs t a n d i n g c o n f e r e n c e ( 删c ) 是一个a r p a 资助的系列j l 科,有许多人学及研 究所参加。1 9 8 7 年的m u c 4 采用的文本主题和类型发生变化,采用关丁拉t 美洲国家恐怖事件 通用主题的报纸和有线新闻文本作为数据源,系统包括预定义好的信息模式和辅助抽取规 则,基本任务是从在线文本中抽取相关信息填入预定义的模式中的属性槽中。 9 0 年代由丁w e b 的流行,研究人员开始把目光转向w e b 页面的抽取一l :作,并取得了很大的 进展,山现了众多的基丁w e b 的信息抽取系统。w e b 上存在二种类犁的页面,即无结构页面、 、 结构化的页面以及结构化的页面。二种不同类型的页面的信息抽取方法各有特点,i ;t 前尚 未出现可以使_ i = j 同一种信息抽取方法处理二类页面的信息抽取系统。无结构页面抽取最为斟 难,而且涉及研究问题非常多;结构化页面抽取t 作最为简单。另外w e b 上此类页面较少:半 结构化页面抽取f :作的难度处于无结构页面与结构化页面抽取一【作之间,此外、f 结构化页面 是w e b 是最为普遍的形式。本文的研究都是针对、 结构化的h t m l 页面进行的。 1 2 网页信息抽取 阿页信息抽取( w e bi n f o r m a t i o ne x t r a c t i o n 简称w i e ) 就是通过对原文档信息内容和 结构的分忻,抽取出有意义的事实,生成结构化的有价值的信息。信息抽取可以帮助人 f j 快 速找到和浏览w e b 文本中的有州信息。目前在互联网上被使州最r 泛的是、| 结构化的 h t m l ( h y p e rt e x tm a r k u pl a n g u a g e ) 网页,h t m l 网页拥有扑常丰富的表现形式,语法环境也 相当的宽松,它”r 脚r 描述超文本化的新闻、邮什o 文档,超媒体文档,操作菜单,数据库 责询结果,嵌入图形的结构化文档等,所以多年米商被做为最成功的网页语言得剑书常j 泛的府川。由丁h t m l 着重表现网贞形式,却不擅k 描述网页数据的内部联系,这个缺憾为它 的没落埋ff 伏笔。随着用户对互联网信息查询需求的不断提高,h t m l 对丁- 描述数据关系的 弱点也暴露得越来越明显,用户和开发者都很难从杂乱的h t m l 编写的嬲页代码中找到白己想 要的数据信息。尽管新一代结构化的可扩展的标记语言x m l 技术已经发展的很成熟,但是由 t h t m l 统领互联网的时间过j : 乏久,缀多网站包括浏览器的厂商所开发的儿乎所有相关技术 都是围绕h t m l 网页而服务的,内而选扦替代技术的成本1 | 常的高,挚个替换过程也会延续相 当长的时间,在短时期内还不可能改变这个现状,_ 7 结构化的h t m l 暖j 页还将作为主流网页继 续生存很k 一段时间。 h t m l 阏页的、# 结构化特性同时也告诉我“j ,人蟮的甘结构化或、r 结构化的w e b 文本数据 中,既包含t s f f 多无川霸i 咒余的信息,也包含了很多可以埘结构化信息形式表示的数据。针 对这个特点,我 l j 设计了一系列基r x m l 语言的方法米处理、r 结构化的网页,使得从h t m l 网 2 概述 页中抽取有用的信息数据变得更为容易和准确。 1 3 本文的信息搜索系统框架 按照网页处理的流程,本文将网页信息搜索系统分成两个犬的处理模块。 图1 ,1 信息搜索系统框架 第一个处理模块是网页聚焦模块,我l j 利m 基丁机器学习的链接分层获取算法得到某个 特定领域的相关日标网页群,这个过程也称为网页爬行过程。通过学习,得到页面链接模式 并对待扩展页面( 结点) 分层。使之更有效的获得期望页面并避免遍历人量无关页谣。更重要 的是能发撼出那些蕴藏在相关度低的父页面中的用户期望页面。目的是尽量获取的相关页 两,过滤掉作相天页面和过程页面,以减少干扰,提高抽取效率。 第一二个处理模块是网页信息抽取模块。本文研究了一种基1x m l 语言的信息块模式定位 抽取方法,分别对网页聚焦模块获得的目标网页进行规范化处理,信息块定付,属性定位, 信息元素定位并最终从规则库中确定特定子树模式的抽取规则,将待抽取网页的信息内容表 达成洲l 结构化的数据模式。 这两个处理模块的结合使得我们可以从获取相天嘲页平抽墩相关网页信息两个环节上 把握住整个信息抽取过科,实现了高度的递埘怙科准确性姓剑了很好的抽取皴果。 1 4 本文的主要工作 本文上要进行丁以f ) l 项作: 1 提出r 一个基丁概率匹配和l 词性匹配的中文分词方法。中文分词技术是网页信 息抽取技术中必然使的技术,也是很多处理方法的基础妓术,在阿页聚焦模 块中要使用中文分词技术来解析链按文奉,在网页信息抽取模块中也要使州分 词技术来进行属性笑键词的解析, 2提出了一种基】机器学习的分层 ! i 】索算法来获取相关网页( 网页聚焦) 。通过机 器学习,得到页面链接模式并对待扩展负面( 练点) 分层。馒之更有效的获锝期 望页面并避免遍胧大茸无关页面。更露爱的是能发掘出那些蕴藏住相荚度低的 父页面中的_ j 户期望页面。 3 提出r 一种基丁x m l 话言的信息块模定位抽取方法,针对产品信息介! “类页 3 l 概述 面,分别对目标类网页进行规范化处理,信息块定位,属性定位,信息元素定 位并最终从规则库中确定特定子树模式的抽取规则,将待抽取网页的信息内容 表达成x m l 结构化的数据模式。 1 5 本文的组织 第一章:论文概述,主要介绍了本文的研究背景和研究需要性,并介绍了本文主要的1 :作。 第二二章:简要介绍了目前中文分词技术所遇到的问题以及相关的研究进展,并提出了基丁概 率匹配和词性匹配的中文分词算法。 第三章:简要介绍了搜索引擎获取网页的相芙知识并针对网页爬行算法,提出了一种基于 机器学习的链接分层搜索算法来发掘期望页面。 第四章:根据现行网页的特点,分析了各种网页抽取技术的优劣。介绍了本文所需使用的相 关技术标准,最后提山了一种基丁x m l 语言的信息块模式定位抽取方法。 第五章:对本文所做1 作的一个总结莉i 对未来l :作的一些展望和建议。 2 中文分词方法的研究 2 中文分词方法的研究 2 1 分词技术概述 在信息检索技术发展的早期,人们就已经意识到分词技术是发展互联网信息获取技术的 重要奠基石之一。随着技术日新月异的发展,互联网信息检索,抽取早已经从人类手工向半 自动乃至全自动方向发展。计算机对网页信息的理解方式越来越朝向人类的思维方式与理解 模式。人类对语言文字的理解,止是基于对词汇词义独特性的理解,理解语言语句的过程, 其实就是对语句中不同词汇不同意群的切分过程。可以说最优秀w e b 检索技术就应该像人 类理解网页内容那样来对浩如烟海的且联网资源进行分类,获取。所以无论是网页允类,相 关网页内容的获取还是人们对网络信息的其他特殊需求,无一例外都要用到分词技术。 当今分词技术最为先进的话言是英语,这也同计算机主流技术的发明者是英语语言使用 者有相当人的芙系。随着各国都人力发展本国的且联网建殴,对下除英诰语言之外的其他语 言的分词技术也得剑了发展的契机。 我国的互联网技术发展于8 0 年代,在二十多年的发展过拌中,中文展为地球上使用人 数最多的语言,她的分词技术也得到了k 足的进步。由j 一诰言习惯和语法筹异的关系,中文 的分词技术不能照搬英语语言的分词技术。英语文字是字母文字,每个独立的荦词( 意群) 都有自然的分割符号,而中文是象形文字,使坩过榉中独立的意群没有白然的分割符号,完 全需要依靠人们对语义的理解来完成词句的切分,冈此中文的分词技术较英语乃至其他字母 语言的分词技术更为独特也更难处理。 2 2 中文分词的特点 2 3 按照汉语语言的特点,词是最小的、能独立活动的、有意义的话吉成分。英语文本是小 字符集r 的已充分分隔开的词串,而汉语文本是人字符集上的连续字串,前且在词与词 2 间并没有明显的分割标记。故而存在一个对汉语巾的词加以识别的问题,即中文检索 ;i 擎首先必须对原文进 j 切分词。 与英文不同,字是汉语的基本独立单侍,但是贝有+ 定诰义的最小单位却是词。诃由单 个或多个字构成,据统计在常h j 汉语中,9 0 以卜使蹦的是一字词和二字词,也有使 _ l l 四字词丰| f 五字词。另外还有一些多字词( 如成语、专有名词等) 。 数茸多。汉诰中常t i j 的词有儿万条,现代汉语词典中收录的词就达6 万个之多。而 且,随着 会的发展,不断地有新词,。生。中国的汉亨足示意文字,总数有,l 万个,在 南国家标准总局颁布的信息交换削汉字编码字符集基本集( b i 】g b 2 3 1 2 8 0 ) 中 共收录了一级和_ 二级常片j 汉字共6 7 6 3 个,而在u n i c o d e 编码中更是收录多达2 0 9 0 2 个 2 中文分词方法的研究 汉字。 4 使用灵活、变化多样。容易产生歧义。例如同样的两个连续汉字,在有的句子中构成 个词,而在另外的句子环境中,却可能不构成词。这给计算机的词法分析工作带来了极 大的困难。 5 书写习惯。在英文系统中,词与词之间在书写上用空格隔开,计算机处理时可以非常容 易地从文档中识别出一个一个的词。而在汉语系统中,i s 弓以句子为单位,句间有标点 隔开,在句内,字和词则是连续排列的,它“j 2 闻没有任何分隔。这样,如果要对中文 文档进行基丁词的处理,必须先要进行词的切分处理,以正确地识别出每一个词。 6 其它特点。诸如汉字同音字、同音异形字等等。 2 3 中文分词的一般方法 2 3 1 机械分词法 其基本思想是:事先建立词库,其中包含所有可能出现的词。对给定的待分词的汉字串 s ,按照某种确定的原则( 止向或逆向) 取s 的子串,若该子串与词库中的某词条相匹配,则 该子串是词,继续分割剩余的部分,直到剩余部分为空;否则,该子串不是词,则取s 的f 串进行匹配。 根据每次匹配时优先考虑艮词还是短词,机械分词法又分为最人匹配法和最小匹配法。 其中最人匹配法比较常刖,它是假设自动分词词典中的最长词条所含汉字个数为i ,则取被 处理材料当前字符串序列中的前i 个字作为匹配字段,奇找分词词典,若词典中有这样一个 i 字诃,则匹配成功,匹配字段作为一个词被切分出来;如果词典中找不到这样的一个i 字 词,则匹配失败,匹配字段去掉摄厉一个字,剩f 的字作为新的匹配字段,再进行匹配,如 此进行r 杰,直鲥匹配成j j j 为r 。 机械分词法实现起来比较简单,但由j 1 其切分依赖1 其词序,不涉及语法干语义,很容 易产生歧义。 机械分词不能解决类歧义问题,一是交集犁歧义,_ 二是组合型歧义。这是影响机械分 词系统精度的土要原冈。 机械分词的另一个缺i 辆是无注切分词典中不存在的新词。例如a 、b 都是词典中的词, a b 为一复台词,佃a b 不在词典中出现,对a b 就可能切分为a 和ib 。这种不能进行臼学 习的缺陷使得它的应_ i j 前景受剑极人限制。可以说,除了机械匹爵己类分词方法外,目前已经 推出的其它分词方法或系统,都没有完善地解决上述问题c 6 2 中文分词方法的研究 2 3 2 基于词频的统计法 统计方法一般不依赖丁 词典,而是将原文中任意前后紧邻的两个字作为一个词进行出现 频率的统计,出现的次数越高,成为一个词的可能性也就越大。在频率超过某个预先设定得 阈值时,就将其作为一个词进行索引。这种方法能够有效地提取出末登录词。但是由于没有 词典,所以必须对待切分语句的所有切分状态迸行遍历这在大多数情况下是没有必要的, 所以该算法在分词效率上明显存在缺陷。 2 3 3 语法分词法 其基本思想是:事先建立一套汉语语法规则,其中的规则不1 :日给出某成份的结构f 即它 由哪些子成份构成) ,而且还给出它的子成份之间必须满足的约束条竹。月外,还要事先建 立一个词库,其中包含所有可能出现的词和它仃j 的各种可能的词类。对给定的待分词的汉语 句子s 按照某种确定的原则取s 的子串,若该子串与词库中的菜词条相匹配,则从词库中 取出该词的所有词类,然后根据语法规则进行语法分析( 包括语法分析树的构造和约束条竹 的检杏,要使用该词的所有词类以及前面已分析部分的结果) 。若分析j 【:确,划该子串是词, 记卜,语法分析的结果作为后继切分的基础,继续分割剩余的部分,直到剩余部分为空:否则, 该j 二串不是词,则取s 的子串进行匹配。语法分词法能在一定样度上提高切分正确率,例如: 他在计算机房基建投资,若用机械匹配法,可能会切分为“他,在计算机房基建投资”或 “他,在计算,机房,基建,投资”,根据汉语语法规则,前者显然不合理,若用语法分词法,则 可止确切分。 但是汉语的语法娥则菲常的复杂,约柬条仆根难给全,并 语法分词法所需要的词库也 h 难得到,所以语法分词法一般只作为辅助的分词方法。 2 3 4 语义分词法 其基本思想是:住语法分析的基础上,建立一个词序,其中包含所有可能出现的词和它 们的各种话义信息。对给定的待分词的汉语句子s ,按照某种确定的原则取s 的子串,若该 子串与词库中的莱凋条相匹配,则从词序中取出该词的所有语义信息,然厉调剧语义分析程 序进行语义分析。若分析正确,则该子串是词,记r 诰义分析结粟仵为而继切分的基础,继 续分割剩余部分,直剑剩余部分为空;雷则,该子串不是词,则取s 的子串进行匹配。语法 分词法与1 l 述阿种分词法相比,能够更好地提高切分“一确率。t 旦它也币能完全解决歧义问题。 例如:乒乓球拍史完r ,按语义分词法可以切分为“乒吒球拍卖,完,了乒吒球拍卖,完, 了”,两种切分结果都是可以理解的。此时,就需要进步利沿川知识和语境知识才能确 定采f j 哪种切分结果。 7 2 中文分词方法的研究 2 3 5 人工智能法 人工智能是对信息进行智能化处理的一种模式,主要有两种处理方式: 基于心理学的符号处理方法,模拟人脑的功能,像专家系统即是希望模拟人脑的功能, 构造推理网络,经过符号转换,从而可以进行解释性处理。 1 专家系统分词法: 将自动分词过程看作知识推理过程,力求从结构于功能上分离分词过程和实现分词所依 赖的汉语语法知识、句法知识以及部分语义知识,需要考虑知识表示、知识库的逻辑结构与 知识库的维护。这种方式的不足在丁其串行处理机制,学习能力低,对丁外界最新的信息反 映的滞后性。 基丁生理学的模拟方法,神经网络旨在模拟人脑的神经系统机构的运作机制来实现一定 的功能。以上两种思路也是近年来人 智能领域研究的热点问题,庶埘到分词方法上,于是 产生了专家系统分词法和神经网络分词法。 2 神经网络分词法: 模拟人脑的运作机制,以非线性并行处理为主流的一种非逻辑的信息处理方式。它将分 词知识所分散隐式的方法存入神经网络内部,通过自学习和训练修改内部权值,以达到正确 的分词结果。该方法摄人的特点是知识获取快,这也是神经网络方法的一大特色并行、分 布性利联接性的网络结构为人l :神经网络的知识获墩提供了良好的环境,井通过样本学习和 训练来白我更新。但神经网络的知识分布在整个系统内部对用户而言是黑箱操作,而且它 对于所采取的结论不能作出合理的解释。实践环节中涉及知识库的组织和神经网络推理机制 的建立。 2 4 中文分词的国内研究现状 针对以上介绍的多种分词方法,目前的分词算法基本上可分为两夫类:机械性分词和理 解性分词法。后者是模仿人类对语言理解的分词方法,但在语法分析、语义分析乃至篇章理 解还没有得到解决之前,其分词实蹦系统士要采t l j 机械分词法,但实际上纯机械性分词也无 人在川,一般都使川介丁_ 二者之间的某种分词法,称之为综合式分词法。 1 机械式分词法 邹海山口1 等在现有分词技术的基础上,提出了一种基于词典的止向鹾人匹配和逆向最大 匹配相结台的中文凳词方案,可以高效、准确地实现中文文档的主题词条的抽取祁词频统计。 廊志伟等1 1 l 基丁一个实际的文浩转换系统,介| “了它的一些处理方法,采蹦了种故进 的最大匹配法,可以切分出所有的交集歧义,提出了一种基丁统计摸型的算沈米处理其中的 多交集歧义字段,并刖穷举法剐一些简单的规则相绢台的方法从实j 书角度解认多音字的异读 问题以及中文姓名的自动识别问题,达剑实现文话转换的目的。 8 2 中文分词方法的研究 陈桂林1 4 1 等首先介绍了一种高效的中文电子词表数据结构,它支持首字h a s h 和标准的 二分查找,且不限词条长度,然后提出了一种改进的快速分词算法。在快速查找两字词的基 础上,利用近邻匹配方法来查找多字词,明显提高了分词效率。理论分析表明,该分词算法 的时间复杂度为1 6 6 在速度方面,优于目前所见的同类算法。 欧振猛、余顺争”采用基丁i 自动建立词库的最佳匹配方法来进行中文分词,同时采用基 于改造型马尔可夫n 元语言模型的统计处理方法来处理分词中出现的歧义问题,从而提高精 度。三字长交集掣分词歧义是分词歧义的主要类型之,在真实文本中的出现频率相当高。 孙茂松等1 6 1 提出了一种针对这种分词歧义的消解算法,回避了训练代价比较高昂的词性 信息而仅仅利用了词的概率信息及某些具有特定性质的常用字集合。从个6 0 万字的汉语 语料库中抽取出全部不同的二字k 交集型分词歧义共5 3 6 7 个作为测试样本。实验结果表明, 该算法的消解正确率达到了9 2 0 7 ,基本可以满足实i = | 犁中文信息处理系统的需要。 郭祥吴、钟义信、杨丽 1 提山了一种快速汉语自动分词算法。其主要思想是利_ j 汉语中 两字词,7 5 的统计规律,提出了两字词根和两字词簇的概念。算法把三音1 7 以上的词用 两字词簇来压缩处理,也就是把k 诃的扫描范围限定在词汇草很小的词簇内,从而不仅提高 了分词速度,而且彻底解决了传统最人匹配分词算法中撮人匹配词k 的设定问题。另外,本 文还提出了崩两字词簇快速检测交叉歧义的算法。本文的分词算法简洁、速度快、易于实现。 张翠英”1 介绑一种在最人匹配法基础上,根据大量的真实语料中出现的歧义现象,把可 能产生歧义切分的词进j i 特性分类,对每类确定一组规则进行处理。但爿i 足之处是它不包含 由于专用名词引起的歧义问题,由丁专_ l i j 名词( 尤其是人名、地名) 无法枚举,有限的词库规 模无法满足这类问题的分词需要,它有待t 白然语言理解各方面对这类问题的新的处理成果 的应用。 李建华、于晓龙1 描述了一种有效的中文人名识别方法。它的基本原理是住人规模语料 统计的基础上,利用知识游住文本上进行规则的施加与松弛,剪引入概率分析器来提高识别 的准确率霹i 制同率。实验结果表明,在兼脓识别的准确率与“同率的情况f ,系统取得了良 封的效果。 孙建军、陈肇雄等i i o l 以语言文字的表达特征为基础,结台汉话词诒在话言表达中的具 体运 j 。从语言处理的可计算性角度出发,提出了种基l 多功能逻辑运算分析技术的汉语 分词方洼。这种汉语分词方法是在汉语电子词典系统支持f 实现的,其特点土要表现在构成 汉诰词语字序列的计算机内部表示卜采崩了多功能逻辑延锋分折技术,从而使汉语分词过辑 中以往采用的简单模式比较匹自t 手段转换为多模式逻辑远算r 的功能操 1 ,实现了数据表示 o 数据操作的一体化处理,这不仅庄一定毪度上提高了汉语 】动分词效;孥,同时也对分词歧 义问题的解决提供了有力支持,在:具体的席悄中表现出较直f 的实h 性丰通川性。基r 词汇标 注的特祉项提取7 了= ;! 圭足中文f - l 息处理的有效方法,但词汇的折取是基九龟典的,词典的涵蔫 柑度决定_ 词汇切分的准确率。冈而不断地学习新词汇、动态地维护刊典,使警个中文信息 处理系统且有自适麻性和动态性就成了一个关键问题。以搜索引擎系统为例,提出了一种基 2 中文分词方法的研究 于词典动态变化的搜索引擎系统更新理论模型和实现模犁。相关实验表明,该模型对缩短搜 索引擎信息库的更新时间、提高查洵准确率等方面十分有效。 2 理解式切词法 韩客松等主要从知识的自动获取出发,介绍了研究中的汉语语言的无词典分词模型 系统。通过算法的自然语言描述,阐述了模型的思想,分析了它与传统方法相比的优点。该 模型尚在实验室中不断地完善,包括对模犁的进一步细化、匹配算法的改进、特殊情况的考 虑以及系统性能的实验验证等。 邓伟等介绍一种针对特定领域的智能搜索引擎。它采_ f j 一种新犁的概念背景网络来 组织领域背景知识,然后在背景网上对领域概念进行概念扩展和相关性比较。与其他搜索引 擎相比,该智能搜索引擎能对自然语肓进行某种程度的语义理解,利用领域知识米提高搜索 的查准率和查全率。 3 综台式分词法 杨建林、张国梁m l 利用词频统计的结果,优先处理两字词,不考虑最大词k ,将传统 的最短匹配法改进成在全局或者局部范围内均不依赖最人词长的最短匹配法,同时把匹配过 程作了调整,使匹配次数成倍减少,从而显蓑地提高分词速度。利用上述改进的最短匹配法, 找出可能存在歧义的词链,调用歧义词链的处理算法,给出词链的切分结果,从而提高切分 的精度。 2 5 中文分词面临的主要问题 2 5 1 歧义性 交集型歧义:假设a b c 分别代表由一个或多个字符组成的字串,如果在a b c 字段中, a 、a b 、b c 、c 义分别都是词表中的诃,那么a b c 和a b c 都是合理的切分结果。例如: “这糖果真女f 吃”与“这糖果真踱,吃”都是符合切分规则的结果。 组台型歧义:在字段a b 中,若a 、b 、a b 均是诃表中的词,则称a b 为组合耻歧义 字段。如“茶,杯”和“茶杯”,“明,犬”和“明天”,“痂恨”和“痛恨”等。 2 5 2 新词的产生 互联网的信息含草l 二经发展剑无所不包的群皮,刚页中无时无刻不在产生新的词汇。所 滑新词汇就是以前从来出现或者极少出现在已有的网页中的词汇,田而电子词典中就不可熊 有关丁这类颓词的词语信息。一个新词很可能是一个从术提剑过的地名,人名,新兴技术, 颍必审物。针对文本中出现的新同,即词典中的未登酣。吲,根难,l 蓼丁词典的分词方法来切 分。如果该新词只在文本中出现一次,则即使用不基1 i 词欺的概率分词方法也很雉将该新词 o 2 中文分词方法的研究 识别出来。 在基于人类语义理解的分词方法没有完善实现之前,人类开发的分词技术只能无限的接 近于人类本身思维的分词过程。冈而这两大问题已经成为限制当今分词系统切分准确性的瓶 颈,在没有建立完善的基于语义理解的分词机制之前,很难从根本上解决这一问题。现行的 所有分词算法,都是在权衡准确性和效率性的取舍问题中,根据系统所要求的分词精度要求。 折中的选择一种性价比最好的分词方法。 2 6 基于概率匹配和词性匹配的中文分词系统 针对以上各种分词方法的不足与缺陷,考虑到本文工作中所需要的分词技术的精度要求 和复杂度性价比,本文从基于词典的概率匹配以及基于词性语法可行性概率匹配两方面来设 计分词算法。 本算法的主要特点在丁集合了机械性分i 日方法的高效性与语义型分词方法的准确性r 一身,在分词过私| ! 中采用歧义性识别机制,对于歧义性与1 r 歧义性语句使用不同的分词过程。 对丁- 未发现歧义性的语句使用基于词典的机械性分词算法以提高效率,一口发现歧义性的语 句,通过对所有分词后子串的成词概率和词性概率进行评估反复迭代使其结果收敛并选择 综合概率最人,局部最优的分词结果作为晟终切分标准以保障分词的准确性。冈此本算法既 拥有基r 词典分词的快捷性和高效性同时也具备很好的消除歧义性效果。 2 6 1 构建分词系统的主要工作 本文所设计的中文分词系统,主要由以i - j l 个部分组成: 1 待分词语句的顶处理 2 词典模型的确立 3 词性排列序列库模删的建立 4 歧义性榆测模块建立 5 尢歧义性语句的分词方法 6基丁概率匹配和词性匹配的分词算法对歧义性语句进行切分 2 6 2 文本预处理 拿到待分词中文文本屙,首九先对该文本进行预处理。预处理的目的在于和真止的分词 过程之前,n i t j切可以利用的信息,如词字特性,语言习惯,标点符号等等房发式将大段 文本分割成尽管小的臼然意群,尽管在文章中多没置“分词标志”,将长汉字串尽晕分成短 汉字串,以缩短荷机器分割的意群k 度,以便提高厉续切分l 作的效率性和、借确性。 预处珲过稃t 要分为四次艏发式j 1 描,利刚汉诰的某些特点束进行切分。 1 1 ! 主兰坌望互垄塑竺茎 1 将文本中所有数字,标点,菲汉字字母都作为切分标志,将文本尽量转换为更短的子句, 从面给后续的分词工作提供便利。 2 利用汉语的某些特性,找出那些很少和其他单字成词的单字,如“的”,c 了”,“很”等 等,这些词一般都是单独成词。预先对该类字所在处的前后进行基于词典快速匹配,如 果没有匹配成功,则说明该字在此处为单独成词,将其也作为切分标志。 3 基丁- 汉语的特点,有些单字只能作为词酋出现,如“碧”,“蓖”,“陛”,“搞”,。t 饥”等 等,称为前置词,将其记入文件。在第二次扫描中从该文件中逐个读出前置字,并在待 处理的文章中进行匹配。匹配成功后,在文中的前篁字的前面插入切分搋参。匹配失败 后,取出f 一个前置字,再进行匹配。 4 同样基丁汉语的某些特点,即有些单字只能佧为词尾出现,如- 甫”,阜”等等,成为 j 斤置字,也将它们记入文件。在第四次扫描中,从该文件中逐个读出后置字,并在待处 理的文章中进行匹配。匹配成功后,在文中的后置字的后面插入一个切分标s 。匹配失 败后,取出f 个后置字,再进行匹配。 经过预处理之后的文本已经被切分为分词前的最小的子串,以备进一步分词处理。 2 6 3 确立词典模式 本文使_ = 1 人民日报1 9 9 4 年人l :切分语料库作为基础词典,该词典将1 9 9 4 年人氏日报全 文进行人1 分词,并标定词性,统计了笄个词诰的词频。 词典模式如表2 t : 词话长度词语词顿词性 一字词的1 0 5 8 2z ( 助词) 一字词 和 9 7 5 7l ( 连词) 二字词 0人们1 6 7 0 r d ( 人称代诃) 二字词 ”一 人民4 3 5 9m ( 名词) 二字调忍耐 1 2 3 1 d m ( 动词名谪) i 宁澍 忍耐力9 2 6m ( 名词) 四字词怨气吞声 3 6 8 c ( 成语) 表2 1 词典模式表 该i 司典的每个词语元素经过人j :切分,按照成词k 度依次排列。诵频为该刊在挚个语料 芊中出现过的词数,词性按j c c 语法习惯避 j ,j 、定分类( 注:复合词性也单独j 奠为一个独立的 词性类) 。 2 2 中文分词方法的研究 2 6 4 词性排列序列库模型 将语料库中所有分词后的词性排列序列记录在词性序列表中( 表2 2 ) ,即对每个单旬按 照正确的切分顺序,将切分结果用词性的排列顺序表示出来,记录所有出现过的词性组合。 该一1 :作其实旨在利用词性序列组合来收集正确的语法结构信息。在将来的歧义性语句处理过 程中利用语法结构摒奔不台中文语法的歧义切分方法,从而确定正确的分词结果。 出瑷斡褥陵组塞;蠢 , 麟一 0 _ | 叠? _ 。z l i 幽羔d 誓确j + “j 一3 鹂函 一 | i 。 r d d r d z m5 4 7 4 r d d m - - l d m 3 2 1 8 表2 2 词性序列表 该词性序列库按照词性序列以从左至右的优先级进行排列,词性组合记录语料库中所有 出现过的词性组合,弗标定其出现频率以反应该词性组合所对应的语法习惯的通用程度。 2 6 5 歧义性检测模块 得剑待切分单句之后,使用歧义性检测模块对该单句进行歧义性检测。歧义性检测模块 使用m m 法和r m m 对单句进行两次切分扫描过程,从而确定其是否具有切分唯一性。 最人止向匹配法( m a x i m u mm a t c h i n gm e t h o d ) 通常简称为m m 法。其基本思想为:设 d 为词典,m a x 表示d 中的最人词妖,s t r 为待切分的字串。m m 法是每次从s t r 中取k :度 为m a x 的子串与d 中的词进行匹配。若成功,则该子串为词,指针后移m a x 个汉字后继 续匹配,否则子串逐次减一进行匹配。 m m 锋法流稃如图2 1 。 2 中文分词方法的研究 图2 i 最大正向匹配弦 逆向最大匹配法( r e v e r s em a x i m u mm a t c h i n gm e t h o d ) 通常简称为r m m 法。r m m 法 的基本原理与m m 法相同,不同的是分词的扫描方向,宅是从右至左取子串进行匹配。 统计结果表明,单纯使用正向最大匹配的错误率为1 1 6 9 ,单纯使用逆向最大匹配的错 误率为1 2 4 5 ,r m m 法在切分的准确率上比i v l l v l 法有很大提高。但是即使是这样,这两种 方法都不能独立作为一种切分方法。只要存在切分的歧义性,无论是正向最大匹配法还是逆 向最大匹配法都不能给出唯的切分标准。 本文正是剥用了两种方法切分的不唯一性,从而达到歧义性检测的目的。使用基于词 典的正向最大匹配法和逆向最大匹配方法对其进行歧义性检测切分,并得到单句切分的两种 可能的切分情况,如果两种切分结果相同,则说明该语句不存在歧义性并将该切分结果作为 最终分词结果;若存在两种不同的切分情况。则表明该语句存在歧义性。 例如:和服装在袋子里 m m 算法切分缔果为; 和服 ,装 在 , 袋子 里 【:。一,、,。,一、,、。、,。,一 r m m 法切分结策为: f 菱二巫二三薹二j 二二= 二 两种切分方法分别得到两种不同的切分结果,可知该旬存在歧义性。 2 6 6 无歧义性语句的分词方法 通过使止向逆向最人匹配法的歧义性检测,对丁束发现歧义的浩句,直接使_ l j 基丁词 典的机械性分词方法,即把止向逆向最人匹配法作为最终切分结果。这一举措大大节约了分 词时间,避免了以往基丁统计的分词方法在无歧义语句中不必要的概率统计过程,突出了机 械性分词法在对无歧义语句分词过程中的优势。 2 6 7 基于概率匹配和词性匹配的分词方法 对丁- 存在歧义性的语句切分使用基于概率匹配和词性匹配的分词方法。 例如现在有单句w i w 2 w 3 w 4 ,由四个单字绢成,计由歧义检测算法测得句中存在歧义 性组合。现使h = | 基 概率匹配和词性匹配的分词方法对其进行切分,过程如r : 1 建立切分概率表 将其所有切分方式按切分概率表列出( 表2 3 ) 切分丸法切分概率 卜一亿处理 w l ,w 2 ,w 3 w 4w 1 w 2 1 w 3 w 4 ) p 1 w lw 2 w 3 w 4 p ( w 1 w 2 w 3 w 4 ) p 2 2 中文分词方法的研究 ? 一 鳓j 蠢瞄j 自誊潞醚、;l i 篷蠢”。擐j 毫- 誊? ;:+ :一。i 蔫饕| 鞫 u w 2 w 3 w 4 。j ? 。, 瑚髓w 2 9 , 3 w 4 - 囊翻翩翰搏蓊 ; 秘爱蓼t 、霹一。露融 w i 、,w 3 w 4 “ p ( w i w 2 w 3 w g ) p 5 。 。曩 w i w 2 w 3 w 4 联w i w 2 w 3 唧4 ) 。p 6 j _ 、j _ 溪瓣i ) w j2 w 3 w 4 。| 磺诞i 童瓣萄囊薅 p 骧囊v 。? ;。薹

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论