




已阅读5页,还剩52页未读, 继续免费阅读
(计算机应用技术专业论文)化工专业词典结构设计及中文分词系统的开发.pdf.pdf 免费下载
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
化工专业词典结构设计及中文分词系统的开发 摘要 中文分词是中文信息处理的重要的基础工作,是语义理解的最初 环节,中文分词的准确与否直接影响后期语义分析的质量。对于搜索 引擎而言,中文分词技术直接影响搜索结果,它是搜索引擎的核心技 术之一。 本文在研究现有中文分词技术的基础上,为了使中文分词技术适 用于化工专业搜索引擎,设计并实现了一个专门针对专业化工词汇的 中文分词系统,为化工专业领域的人士快速准确地获取信息提供帮 助。 本文设计和实现了系统界面和分词器,主要介绍了分词器的实 现,包括分词词典机制和分词算法。分词词典机制主要涉及词典的物 理结构和逻辑结构,采用基于字符串匹配的分词方法,结合化工专业 词汇的构词特点,提出一种基于t r i e 索引树的改进结构,以达剑提 高分词结果准确率的目的。首字散列表由汉字内码哈希得到首宁的位 置,沿着指针可查询其他字;分词算法是根据索引树的结构设计的搜 索查询算法,沿着指针链搜索匹配字符。由词典建立和文件扫描方向 的彳 同,可以进行正向匹配和逆向匹配验证分词结果。通过对系统进 行的分词速度测试和分词精度测试的测试结果进行分析,证明木系统 达到了预期目标,满足化工专业搜索引擎的分词需要,可以为化工领 域提供更好的服务。 北京化工人学硕i ? 学位论文 关键字:化工专业词汇、中文分词、t r i e 索引树、正向匹配、逆向 匹配 n a b s t r a c t c h e m i c a ld i c t i o n a r yo fs t r u c t u r a ld e s i g na n dd e v e l o p m e n t o fc h i n e s ew o r ds e g m e n t a t i o ns y s t e m a b s t r a c t c h i n e s ew o r ds e g m e n t a t i o ni nc h i n e s ei n f o r m a t i o np r o c e s s i n gi sa n i m p o r t a n t b a s i cw o r k ,w h i c hi st h ef i r s tp a r to ft h es e m a n t i c u n d e r s t a n d i n g c h i n e s ew o r ds e g m e n t a t i o na c c u r a c yd i r e c t l yi n f l u e n c e s t h eq u a l i t yo fp o s t - s e m a n t i ca n a l y s i s f o rs e a r c he n g i n e s ,c h i n e s ew o r d s e g m e n t a t i o nt e c h n o l o g yd i r e c t l yi n f l u e n c e st h er e s u l t so fs e a r c h i n g , w h i c hi st h ec o r et e c h n o l o g yo fs e a r c he n g i n e s t h i sa r t i c l eb a s e do nt h er e s e a r c ho fc u r r e n tt e c h n o l o g yo fc h i n e s e w o r ds e g m e n t a t i o n ,i no r d e rt om a k es u r et h et e c h n o l o g yo fc h i n e s ew o r d s e g m e n t a t i o na p p l yt oc h e m i c a lp r o f e s s i o n a ls e a r c he n g i n e ,d e s i g n e da n d i m p l e m e n t e d ac h i n e s ew o r ds e g m e n t a t i o ns y s t e m ,s p e c i f i c a l l yf o r p r o f e s s i o n a lc h e m i c a lv o c a b u l a r y , f o rt h ep e o p l eo f c h e m i c a lp r o f e s s i o n a l f i e l dq u i c k l ya n da c c u r a t e l ya c c e s si n f o r m a t i o n t h i sa r t i c l ei n t r o d u c e st h ed e s i g na n di m p l e m e n t a t i o no ft h e i n t e r f a c ea n ds e g m e n t o ro fc h i n e s ew o r ds e g m e n t a t i o ns y s t e mi nd e t a i l s , w i t ht h eh i g h l i g h t so nt h es e g m e n t o r , i n c l u d i n gs e g m e n t a t i o nd i c t i o n a r y m e c h a n i s ma n da l g o r i t h m s e g m e n t a t i o nd i c t i o n a r yd e s c r i b e st h e p h y s i c a ls t r u c t u r ea n dl o g i c a ls t r u c t u r eo f t h ed i c t i o n a r yw h i c hi sb a s e d o ns t r i n gm a t c h i n gm e t h o d t h i sa r t i c l ep r o p o s e sas t r u c t u r eb a s e do nt h e i l l 北京化1 :人学硕士学位论文 i n d e xt r e eo f t r i e ,c o m b i n i n gw i t ht h em o r p h o l o g i c a lc h a r a c t e r i s t i c so f c h e m i c a lp r o f e s s i o n a lt e r m s ,s oa st oa c c o m p l i s ht h ep u r p o s eo f g r e a t e r a c c u r a c yo fs e g m e n t a t i o nr e s u l t s t h ep o s i t i o no ff i r s tw o r dh a s ht a b l ei s t h eh a s hc h a r a c t e rw i t h i na ni n t e r n a lc o d eo fw o r di nc o m p u t e r , a n dt h e o t h e rc h a r a c t e r sc a nb ef o u n d a l o n gt h ep o i n t e r ;s e g m e n t a t i o na l g o r i t h m i sb a s e do nt h es t r u c t u r a ld e s i g no ft h ei n d e xt r e et oq u e r ys t r i n gw i t h m a t c h i n gc h a r a c t e r sa l o n gap o i n t e rc h a i n f o rt h ed i f f e r e n td i r e c t i o n so f d i c t i o n a r ye s t a b l i s ha n dd o c u m e n ts c a n n i n g ,c h i n e s ew o r ds e g m e n t a t i o n s y s t e mc a nb ep o s i t i v em a t c ha n dr e v e r s em a t c ha n dt h e nc o m p a r et h e d if f e r e n c eo ft h er e s u l t s b ya n a l y z i n gt h er e s u l t so ft h es p e e da n dt h e a c c u r a c yo fs e g m e n t i n gt e s tp r o v e dt h i ss y s t e mt oa c h i e v et h ee x p e c t e d g o a l ,t om e e tc h e m i c a lp r o f e s s i o n a ls e a r c he n g i n es e g m e n t a t i o nn e e d sf o r c h e m i c a li n d u s t r yc a np r o v i d eb e t t e rs e r v i c e k e yw o r d s :c h e m i c a lt e r m s ,c h i n e s ew o r ds e g m e n t a t i o n ,t r i e i n d e xt r e e ,p o s i t i v em a t c h ,r e v e r s em a t c h i v 北京化工大学学位论文原创性声明 本人郑重声明:所呈交的学位论文,是本人在导师的指导下,独立 进行研究工作所取得的成果。除文中已经注明引用的内容外,本论文不含 任何其他个人或集体己经发表或撰写过的作品成果。对本文的研究做出重 要贡献的个人和集体,均已在文中以明确方式标明。本人完全意识到本声 明的法律结果由本人承担。 作者签名:陋日期:二塑乜车i 姐 关于论文使用授权的说明 学位论文作者完全了解北京化工大学有关保留和使用学位论文的规 定,即:研究生在校攻读学位期间论文工作的知识产权单位属北京化工大 学。学校有权保留并向国家有关部门或机构送交论文的复印件和磁盘,允 许学位论文被查阅和借阅;学校可以公布学位论文的全部或部分内容,可 以允许采用影印、缩印或其它复制手段保存、汇编学位论文。 保密论文注释:本学位论文属于保密范围,在上年解密后适用本授 作者签名:奎堡趣日期:塑f q 聋乏目兰塑 导师签名:勉当 日期:麴l2 皋目堕旦 第一章绪论 1 1 引言 第一章绪论 自古以来,文字的产生推动了历史的前进,文字是信息的载体,信息的产生 和传播是人类最基本的活动之一。随着人类社会的发展,计算机的产生和因特网 的迅猛发展使得网络上的信息爆炸性地增长,为人们提供了更加丰富的信息资 源。然而网上信息却是以各种形式庞杂无序地散布在无数的服务器上,而且质量 参差不齐,更新变化飞快,人们想要得到有价值的信息存在很大的困难,单靠人 工整理网上信息已经不太现实。因此,需要一种工具,以因特网上的信息为主要 处理对象,根据不同的需求检索出人们要求的有用的信息,使得信息资源得到有 效的运用,这时,网络搜索引擎应运而生。目前,搜索引擎已经被广泛应用于 因特网的信息检索,不仅有英文的检索还有巾文的检索。搜索引擎的主要特点是 海量信息的处理和更新速度快,主要对采集到的信息进行整理,提取和处理,便 于用户查询。而对于中文的检索就需要提供中文分词的技术,这就对搜索引擎有 了另外的要求:对于中文的处理速度快和分词准确率高1 2 】。在计算机科学巾如何 有效地存储和搜索查询信息是一个重要的问题,因为搜索金找是最耗时的部分, 而且研究一个好的方法代替不好的方法又会导致速度的增加【3 】。中文分词就是将 连续的汉字字符序列按照一系列的规范切分为词的序列,由此可见,中文分词技 术对于中文搜索引擎来说是非常重要的,中文分词的准确与否,直接影响剑搜索 结果 4 】。对于使用汉字的我国来说,中文分词技术是搜索引擎的核心技术之一。 词在自然语言中足独立的、有意义的单位,汉语这类亚洲语言与英语、西班牙语 不问,没有空格这样的分隔符作为词语的边界,汉语语句以汉字为单位,一个一 个连写的,词与词之问没有明显的界限。可以设想一下,如果将英文文章中的空 格郜去掉,然后再k k i t - 算机自动把原文中的空格恢复,分出个个单词来,中文 分词就类似这个过程,可想而知,中文分词的难度有多少1 5 】。如果简单地以单个 字作为信息处理的基本单元的话,不仅会缺少必要的语义表达,而且还会出现大 量的冗余信息【6 1 。中文f l 动分词是目的中文信息处理中公认的难题,因为汉语词 的自动切分是自然语言理解、机器翻译、信息检索、语言文字研究、汉语文本自 动索引等研究领域中最基本的一个环节,也是中文信息自动处理的“瓶颈 。现 有的中文分词切分方法一直执着于对传统文本进行有效地切分和理解,但是由于 汉语文本自身存在的局限性,即不可分性,致使中文自动分词和机器理解变得极 为困难【7 】。 北京化工大学硕l j 学位论文 1 。2 课题的研究背景 中文信息处理的就是如何将汉语字符串分割为合理的词语序列。中文分词属 于自然语言处理范畴,是句法分析和语义理解过程等深层中文信息处理的基础, 是最初的环节,也是机器翻译、信息检索和信息抽取等智能化信息处理的关键所 在。如果分词的结果不同,可能导致传递的信息不同,甚至差之毫厘,谬以千旱。 因此,在分词过程中,如何恰当地分析处理汉字序列,准确地提炼出语句的核心 词来供语义分析模块使用,这是后期语义分析的质量和速度的重要前提【8 】【9 1 。 1 2 1 中文分词技术的应用领域 中文分词的应用不仅仅局限于中文搜索引擎,它也是中文信息处理的一项重 要的基础性工作,它应用于很多领域有: l 、自然语言理解 自动翻译、信息摘录,自动文摘和分文分类等都是自然语言理解的极具应用 价值的实例。在这些应用领域中,对输入文本进行句法语义分析是不可或缺的处 理任务,而句法语义分析的前提就是自动分词f l 。 2 、文本信息检索 检索是计算机应用的一大领域,文本信息检索是根据用户的查询要求从存有 多达数百万份文本的文本数据库中搜索出相关的文档。文本中的词语是信息的有 效载体,一次以词或短语作为文本的标引项或检索项更为合理,因此为了在保证 查全率的同时,提高查准率和检索速度,同样离不丌中文分词技术】。 3 、语音识别 语音识别的目的是根据人们在表达上习惯和语流的停顿以及强弱变化,在每 个词之间插入长度不等的空语音符号。结合分词系统作为基础模块可以根据上下 文来判别多音字的正确拼音【1 2 】。 4 、文本校对 文本校对应用于报刊及出版社等需要文本校错的行业,其中分词是文本校对 中的一个基础模块,文本校对系统运用分词模块对文本进行分词,运用词语之间 搭配的合理性来识别可能出现的错误【1 3 1 。 5 、搜索引擎 中文分词技术是搜索引擎的核心技术之一,对于搜索引擎来说,中文分词的 准确度直接影响搜索结果的相关度排序【1 1 1 。 此外,还有如中文文献自动标引以及简体繁体自动转换等等很多领域中都 2 第一章绪论 运用中文分词技术【3 1 。 1 2 2 中文分词技术的发展现状 中文分词技术在中文信息自动化处理中具有举足轻重的地位,自巾文信息处 理领域提出中文自动分词以来,取得了一些成果,有很多实用性的分词系统相继 出现,其中几个很具有代表性的自动分词系统在当时产生了较大的影响。以下列 举几个现有的中文自动分词系统:f j 2 】【1 3 】 ( 1 ) :i l 京航空航天大学的c d w s 和c a s s 分词系统,c d w s 是我国第一个实 际使用的分词系统。采用的分词方法为m m 方法,辅助以词尾字构词检错技术, 使用知识库进行纠错,其分词速度为5 1 0 字秒。c a s s 使用的自动分词方法是 正向增字最大匹配法a s m 。 ( 2 ) 清华大学的s e g 和s e g t a g 分词系统,首次提出全切分的概念。前者提 供带回溯的正向、反向、双向最大匹配法和全切分法,可由用户来选择切分方法。 该系统切分速度约为3 0 字秒。 ( 3 ) 山西大学的a b w s 分词系统。 ( 4 ) 北京师范大学现代教育研究所的书嘶一 j 文自动分到专家系统。 ( 5 ) 复旦大学的复旦分词系统。该系统山四个模块构成:预处理、歧义识别、 歧义字段处理、末登录词识别。对于中文姓氏的自动识别能够达到7 0 的准确率。 ( 6 ) 哈尔滨工业大学的统计分词系统。该系统将串频统计和诃匹配结合起来, 由预处理、串频统计和切分三个模块构成,分词速度为2 3 6 字秒。 ( 7 ) 杭州大学改进的m m 分词系统。采川改进的m m 分词算法,运用“归右” 原则切分歧义字段。 ( 8 ) 北京大学计算语言学研究所的分词系统,具有分词和淘性标注的功能。 系统达到3 0 0 0 词秒以上。 ( 9 ) 微软研究所的汉语句法分析器中的自动分词。系统呵以正确处理8 5 的 歧义切分字段,速度约为6 0 0 , - - 9 0 0 字秒。 ( 1 0 ) 中科院计算技术研究所汉语词法分析系统i c t c l a s 。具有中文分词、词 性标注、未登录词识别功能,是目自订实际应用较好的分词系统之。分词和词性 标注处理速度为31 5 k b s 。 1 2 3 中文分词技术的关键问题 中文信息处理与西方自然语言处理的不同在于,首先汉语是一种词根语,缺 北京化t 人学硕十学位论文 乏形态的变化,并且没有性、数、格的变化标志。其次词本身既不能显示与其他 词的语法关系,它的形式也不受其他词的约束。并且汉语中词序很严格,词序不 同,词的意义也随之不同,而且词与词之问除了标点符号之外没有分隔符,正是 因为中文信息处理的特殊性和复杂性,中文分词技术不像把外文软件汉化那么简 甬f 7 】 r0 首先,词的定义不统一,确切概念难以标准化,应用领域不同,汉语分词还 没有形成公认的分词标准,词的形式定义或者抽象定义问题和词的具体判定问题 还没有完全解决【1 4 】【15 1 。 其次,汉语中的词由单个字或多个字构成,其中二字词最多,其次是单字词, 另外还包括些多字词,比如成语或者一些专有名词。汉语中的常用词就有几万 条,而且仍然不断有新词出现,汉语词汇数量之庞大可想而知,而词典的容量毕 竟有限,因此待分析的文本中必然会存在词典中没有收录的词汇,例如人名、地 名、机构名等等一些专有名词以及新词,我们把这些词典没有收录的词汇称为未 登录词。未登录词是中文分词技术中的一个重要问题,因此需要建立和完善标准 化分词词典【1 6 ”7 1 。 再次,中文分词中还没有形成公认的分词标准适合计算机自动处理,并且中 文构溯方法的多样性和句法的意重合性等特点使得。 文分测_ 1 分闪雉,凶此同一 文本被不同的人切分可能有不同的分词结果。而对于特定的句子可能会存在多种 切分方法,其中分为组合型歧义和交集型歧义。歧义切分是影响分词切分精度的 重要因素,是中文分词在实际应用中的最大障碍,也是中文分词技术的关键问题 【1 5 1 【1 8 】。 最后,计算机需要依赖词的信息来理解文章,而分词需要以理解为基础,理 解必须首先分词,因此产生的逻辑问题决定了不可能百分之百正确地分词【1 5 】。 1 2 4 中文分词技术的未来发展趋势 在自然语言处理技术中,中文处理技术比西文处理技术要落后很大一段距 离,许多西文的处理方法中文不能宣接采用,就是因为中文必须有分词这道工序。 目前,中文分词技术已有一些比较有代表性的分词系统,虽然分词的准确率有了 突破性的进展,但是对于中文分词来说还存在一些关键问题,需要进一步深入的 研究和探索。而从系统设计方面应考虑研发通用的多功能中文分词系统,譬如支 持多种不同应用的多词典结构、自适应不同应用的切分结果、带结构化和属性信 息的分词结果等等【1 9 】。目前研究中文分词的大多是科研院校,真正专业研究中文 分词的商业公司很少,这就导致科研院校研究的技术大部分不能很快产品化,而 4 第一章绪论 一个专业公司的力量毕竟有限,因此中文分词技术要更好地服务于更多领域产 品,还需要一段很长的路,不多相信在未来,通过对中文分词技术的深入研究, 必将促进中文信息处理系统的广泛应用【9 】。 1 3 本文的研究目的和研究内容 1 。3 。1 研究目的 本课题的研究目的是针对化工专业词汇的特点设计化工专业词典结构,并实 现一个适用于化工专业搜索引擎的中文分词系统,本系统针对化工专业词汇应具 有较高的分词速度和较准确的分词精度。作为一个独立的中文分词系统,应具有 界面友好、使用方便、易于维护等特点。 1 3 2 研究内容 本课题将完成以下几方面的内容: ( 1 ) 研究t - 义分词4 :h 灭技术,从而深入蟹坦解l f l 文分训技术,研究r l l 文分词涧 典的结构和分词算法: ( 2 ) 研究化工专业讧j 2 e 的特点,根据洲汇的特点设计中文分词词典结构; ( 3 ) 完成基川i l 。l :l 衍g l 言资料库的建设,包括对词汇的搜集和加工,根据词典结构 建立词典,完成词典的扩充; ( 4 ) 根据所设计的词典结构,选择相应的算法; ( 5 ) 完成分词系统结构设计和系统界而设计; ( 6 ) 实现分词系统; ( 7 ) 完成系统的性能测试及结粜分析。 1 4 本章小结 本章首先对中文分词技术进行了简单介绍,并对中文分词技术的应用领域、 发展现状进行了探讨,然后简单介绍了已有的几个中文分词系统,接着分析了中 文分词技术遇到的关键问题以及预测了中文分词未来的发展趋势,最后介绍了本 课题的研究目的和研究内容。从本课题的研究目的和研究内容可以看出,本课题 意在设计与实现一个专用的针对化工词汇的中文分词系统,本论文试图在挖掘现 有研究成果的基础上,对词典结构进行改进,设计有针对性地化工专业词典结构, 5 北京化工人学硕f :学位论文 并根据设计的词典结构实现相应的分词算法,使得本中文分词系统能够在专业性 和高效性等方面有所突破。 6 第二章中文分词系统的研究背景 第二章中文分词系统的研究背景 2 1 搜索引擎的未来发展趋势 搜索引擎自诞生以来发展非常快,随着网络技术在中国的应用和推广,中文 搜索引擎的数量越来越多,网络上的中文信息资源也急剧增大。现在的搜索引擎 都力争将自己的搜索范围扩大到整个网络。由于数据库规模越来越庞大,为了提 高检索的速度往往以牺牲信息质量为代价。但用户最在意的恰恰是信息的准确 率,因此搜索引擎的发展方向是提供更加精确的检索结果,这就要求数据库的小 型化和专业化来针对特定的用户提供特定的信息【2 0 1 。 2 2 综合性搜索引擎与专业搜索引擎的区别 搜索引擎为我们提供了丰富的信息资源环境,但是这些综合性的搜索引擎涉 及的范围太广,检索智能程度不高,特别是对某一专业领域的信息,综合性搜索 引擎的挖掘深度不够【2 1 1 。每个领域或专业都有它所特有的词汇,而月就算是同 一个词语在不l 司的领域或专业也有4 同的含义,从而导致综合性搜索引擎的信息 查准率比较低,因此丌发服务于专业领域人二e ,搜索质量更准确,相关性更高的 专业搜索引擎以弥补综合性搜索引擎的l i 足,是搜索引擎如今的发展趋势。专业 搜索引擎的工作原理与综合性搜索引擎的工作原理基本相同,所不同的是专j l k 搜 索引擎的数据库是关于某一领域,某一专业的。 所谓专业搜索引擎是以建立某一领域或者某一专业的网络信息资源库为目 标,智能地在凶特网上搜索到符合某一领域或者某一专业所需要的信息。专业搜 索引擎与综合性搜索引擎的区别在于以下几个方面: ( 1 ) 服务的目的不同。综合性搜索引擎对于任何用户提供任何信息的查询, 而专业搜索引擎是面向某一专业领域的州户,为他们提供专业的信息查潮。 ( 2 ) 搜索的方式不同。综合性搜索引擎对于网络进行逐页爬行,试图遍历整 个网络,而专业搜索引擎是采用某种策略预测相关网页位置,动态地调整爬行方 向,使爬虫尽可能地向与主题相关的网页爬行。 ( 3 ) 对于硬件和网络的要求不同。综合一陀搜索引擎需求很大,而由于专业搜 索引擎没有遍历整个网络从而节约了大量的网络资源,并且专业搜索引擎的索引 数据库不像综合性搜索引擎的索引数据库那么庞大,因此对于硬件的要求也比较 低f 2 2 1 。 7 北京化t 火学硕l 学位论文 2 3 化工专业搜索引擎中文分词系统的项目背景 本课题取自2 1 1 项目的子项目的一个模块。该子项目是“网络搜索技术的研 究及化工专业搜索引擎的建立”,主要研究内容是研究并建立一个化工专业搜索 引擎系统。目前这含化工专业搜索引擎系统是一个可以实际使用的系统,本课题 是对于其中的中文分词模块进行研究,针对化工专业词汇的特点,设计化工专业 分词词典的结构,并根据所设计的分词词典结构设计相应的分词算法,以达到提 高化工词汇查询的准确率的目的,最后开发一个适用于化工专业搜索引擎的、独 立的中文分词系统,以验证化工专业分词词典结构的高效性。 2 4 中文分词的基本方法 中文分词方法的基本原理是对输入的字符串进行分词处理,输出汉字词、英 文单词和数字串等切分合理的字符序列【2 3 1 。现有的巾文分词技术主要有三人类 方法:基于字符串匹配的分词方法,基于理解的分词方法,基于统计的分词方法。 2 4 1 基于字符串匹配的分词方法 基于字符串匹配的分渊方法又叫做机械分词方法,是以一个分词词典为依 据,按照一定的策略将文档中的汉字串与分词词典中的词条逐一匹配,完成词的 切分。由于汉语的特点,这种简单的匹配会产生歧义,两不问的匹配方向会产生 不同的问题。文本的扫描顺序有萨向、逆向和双向扫描。匹配的原则主要有最大 匹配、最小匹配、逐词匹配和最佳匹配。常见的匹配方法有:f 2 3 】 l 、f 向最大匹配。其基本思想是:设分词词典中最长词条所含汉字的个数 为l e n ,则取被处理的文本当f i 字符序列中的前l e n 个字符作为匹配字段,与分 词词典进行匹配,若匹配成功则这l e n 个字符被切分出来;若在分词词典中查询 不到这样一个l e n 字词,则把匹配字段的最后一个字符去掉,作为新的匹配字段 继续进行匹配,直到匹配成功为止。经统计这种方法的错误率为1 1 6 9 。 2 、逆向最大匹配。其基本思想足:该方法的分词过程与i f 向最大匹配相同, 不同的是从文本术尾向文本丌端处理,每次匹配不成功时去掉匹配字段最前端的 一个字符。经统计这种方法的错误率为1 2 4 5 。 3 、最小匹配法。它是增字的匹配方法,也分为正向匹配和逆向匹配两种, 其基本原理与最大匹配法相似。 4 、最短路径。其基本思想是:根据词典,找出字符串中所有可能的词,构 8 第二章中文分词系统的研究背景 造词语初分的有向无环图,每个词对应图中的一条有向边,并赋予相应的权值, 然后在这个有向无环图从起点到终点的所有路径中,求出长度值最短的一条路 径,这条路径上包含的词就是该字符串的切分结果。 5 、逐词遍历法。其基本思想是:将词库中的词由长到短递减的顺序,逐个 在待处理的文本中搜索,直到切分出所有的词为止。 6 、设立切分标志法。切分标志分为自然标志和非自然标志。自然切分标志 就是文本字符串中出现的非汉字符号,如标点符号等;非自然切分标志是指利用 词缀和不构成词的词。这种方法首先要收集众多的切分标志,分词时先找出切分 标志,把字符串切分成一些较短的字段,再用j 下向最大匹配,逆向最大匹配或者 其他方法进行细加工。这种方法并不是真正意义上的分词方法,只是中文自动分 词的一种预处理方法而已,它需要额外耗费时间扫描切分标志,并且有额外的存 储空间存放那些非自然切分标志。 7 、最佳匹配法。它也分为正向和逆向蕊种,其基本思想是:在词典中按照 词频的大小排列词条,以此达到缩短检索时间,达到最佳效果的目的,从而降低 分词的时间复杂度,提高分词速度。这种方法实质上也不是纯粹意义上的分词方 法,只是一种对分词词典的组织方式。 通过刘以上方法的介绍,可知坫j :字符:弘匹配方法的优点足易。j 二实现,可以 达到较高的准确度。缺点是容易产生歧义,不同词典产生的歧义也不同。 2 4 2 基于理解的分词方法 基于理解的分词方法又叫专家系统分词方法或者叫基于语法和规则的分词 方法,是利用汉语的语法和语义知识以及心理学知识试图让计算机模仿人对句子 的理解进行分词。它通常由三部分构成:分词子系统、句法语义子系统和总控部 分。在总控部分的协调下,分词予系统获得有笑词、句子等句法和语义信息对歧 义字段进行分析。这种分词方法需要大量的语言知谚 和信息,需要建立分词数据 库、知识库和推理机。基于理解的分词方法主要有专家系统分词法和神经网络分 词法等。 l 、专家系统分词法。从专家系统的角度把分词的知识从实现分词过程的推 理机中分离出来,使得知识库的维护与推理机的实现互不干扰,从而使知识库易 于维护和管理。该方法具有发现交集歧义和多义组合歧义的能力以及一定的自学 习能力。 2 、神经网络分词法。该方法是模拟人脑并行,分布处理和建立数值计算模 型工作的。其将分词知 叭l l 所分散隐式的方法存入神经网络内部,通过自学习和训 9 北京化t 大学硕l :学位论文 练修改内部权值,得到i f 确的分词结果,最后给出神经网络自动分词结果。 3 、神经网络专家系统集成式分词法。该方法首先启动神经网络进行分词, 当神经网络对未登录的词不能够给出准确切分时,激活专家系统进行分析判断, 依据知识库进行推理,得出初步分析,并启动学习机制对神经网络进行训练。该 方法可以较充分发挥神经网络与专家系统二者优势,进一步提高了分词的效率。 虽然基于理解的分词方法的切分准确率很高,但是这种方法需要使用大量的 语言知识和基础信息资源,由于汉语语言界现有的词法、句法和组合规则仍然十 分笼统复杂,将各种语言知识和信息系统地、有效地转化成计算机直接采用的形 式还很困难,因此这种方法还处于试验阶段【l l 】1 2 2 】【2 3 】【2 4 】。 2 4 3 基于统计的分词方法 基于统计的分词方法又叫无词典分词方法,根据文档中的汉字串在语料库中 出现的统计频率完成分词。因为在上下文中,相邻的宁共同出现的次数越多,就 越可能是一个词,所以字与字相邻出现的频率能够很好地反映为词的可信度。当 频率高于某一闽值,便认定这个组合构成一个词。 基于统汁的分洲办法所应川的i 要统计模型有:n 元文法模型、隐m a r k o v 模型和最大熵模型等。 因为基于统计的分词方法只需对语料中的字组频度进行统计,不需要切分词 典,能够较高效地识别未登录词和自动消除歧义。但是此方法时空开销大,需要 大量原始文档,且训练时间长,计算量大,如果提取结果是意义不完整的字符串, 会导致准确率不高,而且对于长词的识别能力差,不能根本消除歧义。因此在实 际应用中一般是将基于字符串匹配的分词方法与基于统计的分词方法结合起来, 既发挥匹配分词切分速度快、效率高的特点,又利用了无词典分词结合上下文识 别未登录浏和自动消除歧义的优点【2 5 】【2 6 】【2 7 1 。 2 5 中文分词的词典机制 常用的分训词典机制有:基于整词二分的词典机制、基于t r i e 索引树的词 典机制和基于逐字二分的词典机制。 2 8 1 2 5 1 基于整词二分的分词词典机制 基于整词二分的词典机制是一种广泛使用的分词词典机制,它的结构分为三 1 0 第- 二章中文分词系统的研究背景 级,前两级为索引,第三级为词典正文。 首字散列表:词首字散列函数根据汉字的国标区位码给出,通过一次哈希运 算即可直接定位汉字在首字散列表中的序号。 词索引表:由于词的长度不定,所以选择不定长存储,另外必须实现对词的 随机访问,这两条决定了必须建立词索引表。 词典正文:是以词为单位的有序表。通过词索引表和词典正文的配合,实现 指定词在词典正文中的整词二分快速查找。 2 5 2 基于t r l e 索引树的分词词典机制 基于t r i e 索引树的词典机制由两部分构成:首字散列表和t r i e 索引树结 点。t r i e 索引树是一种以树的多重链表形式表示的键树。面向英文的t r i e 索 引树一般以2 6 个字母作为关键字,树结点包含个数相同的指针,而中文分词的 分词词典就是以汉字字符为索引树的结点。 首字散列表:同基于整词二分的分词词典机制,首字散列表的一个单元是所 对应汉字的t r i e 索引树的根结点。 t r i e 索引树结点:足个按天键字排序的不定k 的数组,每个单己包含关 键字、子树大小、子树指针。 与整词二分法形成鲜明对比的足,基于t r i e 索引树的分词词典机制每次只 比较一个汉字,不需要预先知道待查询词的长度。由于t r i e 索引树已经包含了 词条信息,所以词典就不必罗列词条,直接在结点中存锗词的附属信息。 2 ,5 。3 基于逐字二分的分词词典机制 基于逐字二分的分词词典机制与基于整词二分的分词词典机制在数据结构 上是完全一致的,不同在于查询过程,不再将整个词作为关键字进行匹配,而是 类似t r i e 索引树的匹配形式,每次仅匹配一个字符。 2 6 中文自动分词系统的评价标准 中文自动分词系统的主要任务就是分词,要求系统在分训的正确率和速度方 面满足一定的要求,分词的主要评价标准有以下两个方面: 1 3 1 1 、分词的正确率。中文分词系统对分词的正确率有一定的要求,因为这直 接影响接下来的处理。 j 匕:衷化丁:火学硕i :学位论文 2 、分词的速度。分词速度是另 个重要的指标,由于中文自动分词系统是 为应用提供实时的处理结果,因此对于系统的分词速度至少要使系统的总开销合 理,越快越好,但仍然要兼顾分词的正确率。 3 、功能完备性。中文分词系统除了分词功能外,还应具备词库的增删、修 改、查询等功能。 4 、易扩充性和可维护性。这项指标是提供数据存储和功能扩充要求等方面 的扩展和完善。 5 、可移植性。这项指标是指方法能从一个计算机系统或环境转移到另一个 系统或环境的难易程度。 2 7 开发语言和工具选择 本课题开发语言选择s u n 公司丌发的编程语言j a v a ,它具有简单面向对象、 解释执行、安全、可移植、高性能、多线程以及动态性等特点。 开发平台选择e c l i p s e ,它是一个开放源代码的、基于j a v a 的可扩展丌发平 厶 口。 数掘库选择s q l s e r v e r 2 0 0 5 ,有商町片_ j 性、安全性强和叫仲缩h - 等特点。 2 。8 本章小结 本章比较了综合性搜索引擎与专业搜索引擎的区别,简单介绍了本课题的项 目背景,主要对化工专业搜索引擎的中文分溯模块的进一步研究,希望针对化:【 词汇能够有更高的准确率。本章还介绍了中文分词的基本方法,基于字符串匹配 的分词方法、基于理解的分词方法和基于统计的分词方法,并分别介绍了每类分 词方法的基本原理,常见方法,以及每类分词方法的优缺点。接着介绍了中文分 词的三种常用的分词词典机制,并分别介绍了每种分词词典机南i j 的数据结构以及 组织方式。然后简单介绍了中文分词系统的一般评价标准最后简单介绍了本课题 所使用的丌发工具。 1 2 第三章中义分间系统的没计 第三章中文分词系统的设计 3 1 分词系统的设计 中文分词系统要适用于化工专业搜索引擎,必须对于化工领域信息准确切 分,这样才能使得用户检索网络信息时,能够准确获取化工专业信息。因此中文 分词系统的功能要求如下: ( 1 ) 深入研究化工领域的词汇特点,据此建立完善的、较全面的词库,保障 分词系统的准确性; ( 2 ) 根据词典的结构,设计出效率较高的分词算法,为化工领域专业人士获 得准确信息,从而保证分词系统的专用性和适用性。 3 1 1 分词系统框架结构 根据分词系统的功能要求,本分训系统分为两个部分:分词器和分词系统界 面,系统框架结构图如图3 1 所示: 图3 1 巾文分词系统框架图 f i g 3 - 1c h i n e s es e g m e n t a t i o ns y s t e mf r a m e w o r kd i a g r a m 现在的中文分词技术主要有三类基本方法:基于字符串匹配的分词方法、基 于理解的分词方法和基于统计的分词方法。基于字符串匹配的分词方法又叫做机 械分词方法,是以一个分词词典为依据,按照一定的策略将文档中的汉字串与分 北京化t 大学硕1 :学位论史 词词典中的词条逐一匹配,完成词的切分。该方法的优点是易于实现,分词效率 较高,缺点是容易产生歧义,不同的匹配方法产生的歧义也不同。基于理解的分 词方法又叫专家系统分词方法或者叫基于语法和规则的分词方法,是利用汉语的 语法和语义知识以及心理学知识试图让计算机模仿人对句子的理解进行分词。该 方法的优点是切分率较高,缺点足需要使用大量的语言知识和基础信息资源,系 统地、有效地转化成计算机直接采用的形式还很困难。基于统计的分词方法又叫 无词典分词方法,根据文档中的汉字串在语料库中出现的统计频率完成分词。该 方法的优点是不需要切分词典,能够有效地识别未登录词和自动消除歧义,缺点 是时空开销大,训练时间长,计算量大,对于长词的识别能力差,不能根本消除 歧义。比较了三种基本分词方法的优缺点后,本中文分词系统采用基于字符串匹 配的分词方法。 为了达到中文分词系统的专业性和适用性的目标,这就对分词器的设计提出 了较高的要求。分词器包括两个部分:词典机制和分词机制,分词器的框架如图 3 2 所示: 3 1 2 分词系统的设计 图3 - 2 分词器框架图 f i g 3 - 2s e g m e n t o rf r a m e w o r kd i a g r a m 本中文分词系统采用基于字符串匹配的分词方法,这种方法实现简单,易于 维护更新,并且设计了两种分词算法:正向最长匹配分词算法和逆向最长匹配分 词算法,来检验分词结果,其中重点检验化工词汇在这两种分词算法切分后,得 1 4 第二三章中义分浏系统的设计 到的能否得到同一个词,并且是正确的词。对系统进行分词的速度和精度测试, 以验证分词系统的实用性。 3 2 词典机制的设计 词典机制是中文分词系统中的基础部分,本中文分词系统采用字符串匹配的 分词方法,因此会频繁地查询词典,如何有效地进行快速查询直接影响系统的整 体性能。根据文献 2 8 2 9 3 0 3 1 n - j 知,典型的三种分词词典机制有:基于整词 二分的词典机制、基于t r i e 索引树的词典机制、基于逐字二分的词典机制。 基于整词二分的词典机制是一种广泛使用的分词词典机制,它的结构分为三 级,前两级为索引,第三级为词典正文。这种分词词典结构简单,占用内存较少, 易于实现。 基于t r l e 索引数的词典机制是一种以树的多重链表形式表示的键树【3 2 1 ,它 的结构分为两个部分:首字散列表和t r i e 索引树结点。与整词二分不同的是, 基于t r i e 索引树的分词词典机制每次比较一个字,不需要反复匹配词条,对字 符串一次扫描就可完成分词。这种分词词典效率较高,但占用内存较多。 丛于逐字二分的测典机制的数据结构与整词二分完全一致,但足查询的过程 不再将整个词进行比较,而是每次比较单个汉字。 文献【3 0 】中的实验结果可知,三种分词训典机制的空间效率差不多,但基于 t r i e 索引树的分词词典的分词效率较高。 为了验证分词结果,本中文分词系统设计了两种词典结构:正向最长匹配和 逆向最长匹配词典。 根据文献 3 3 【3 4 】 3 5 】可知,化工专业词汇特别是化学名词中有机物的命名遵 循着化学命名规则,化学物质的名字一般由元素名称,基列名称及数字构成。出 于物质结构的规律性,物质的名称又有很强的舰律可循,同类化合物通常有结构 类似的名称,如无机物中较常见的氧化物:一氧化碳,一氧化氮,二氧化碳,二 氧化硫;氯化物:氯化锌,氯化钙,氯化钾,或者如:硫,硫酸,硫酸锚,硫酸 铝钾。在有机物中,这种规律更加明显,如甲基丙烯酸,甲基丙烯酮,甲基甲酰 胺。如图3 3 所示: 一氧化氮 一氧化碳 一氧化硅 丙烯 丙烯酸 丙烯酸酯 大萼香茶菜甲素 大萼香茶菜乙素 大萼香茶菜丙素 图3 3 化上词汇举例 f i g 3 - 3c h e m i c a lv o c a b u l a r ye x a m p l e 1 5 北京化:r 大学硕- j j 学位论文 我们可以发现一。些物质的名称是另一物质前缀,或一些物质的名称与另一些 物质的前半部分是相同的,根据化工词汇以上的特点,本中文分词系统设计改进 基于t r i e 索引树的f 向最长匹配的词典结构,如图3 4 所示: 首字散夕| j 表 第二个字 第三个字 第四个字 亩悃亩悃悃 囱一佃 囱悃囱亩 回佃回 图3 - 4i 1 :向最k 匹配的词典结构 f i g 3 - 4t h el o n g e s tf o r w a r dm a t c h i n gd i c t i o n a r ys t r u c t u r e 从另一个角度看,化学物质的名称还有另一种特点,如烷烃类的物质,根据 化合物分子中碳原子数不同,分别命名甲烷,乙烷,丙烷,丁烷等。结构复杂的 有机物通常是简单有机物为基础,添加各种基团或与其他种类的大分子反映,这 一特点也同样表现在命名上,如丙烯,丙烯
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 建筑方案设计师访谈
- 谢谢咨询方案应当包括
- 酒店茶话会内容营销方案
- 妇科诊所三八活动策划方案
- 咨询公司融资报价方案
- 辞旧迎新早餐店营销方案
- 咨询立项方案
- 梅州开业活动策划方案模板
- 襄阳线上营销活动策划方案
- 建筑方案设计主创招聘信息
- 智慧医院综合智能化规划设计方案
- 炎症性肠病的饮食护理措施讲课件
- 物业公司廉洁培训课件
- 铝合金门窗讲课件
- 人教版-2025秋七级道法上册-2.7.2 共建美好集体教学设计
- 社会责任CSR培训教材
- 脊柱外科入院宣教
- 2025至2030年中国成都市酒店行业市场发展调研及投资方向分析报告
- 医院“十五五”发展规划(2026-2030)
- 黑龙江学位英语考试试题及答案
- AI大模型驱动的智慧供应链ISC+IT蓝图规划设计方案
评论
0/150
提交评论