一种基于词典的分词方法和基于统计的主题词提取方法_第1页
一种基于词典的分词方法和基于统计的主题词提取方法_第2页
一种基于词典的分词方法和基于统计的主题词提取方法_第3页
一种基于词典的分词方法和基于统计的主题词提取方法_第4页
一种基于词典的分词方法和基于统计的主题词提取方法_第5页
已阅读5页,还剩29页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

摘要在信息爆炸的时代,人们迫切希望能够迅速而准确地获取自己所需要的信息,中文文本主题词为我们找到一条出路。中文文本主题词提取可以帮助实现文本词语分类,还可以帮助人们快速了解一篇文章的主要内容。另外,全球最大的基于网页内容的广告推介联盟GOOGLEADSENCE计划,在实现网页与广告关联的时候,也用到了主题词提取技术。主题词提取的方法主要有基于词典的提取方法、基于复杂网络特征的提取方法以及基于统计的提取方法3种。词典方法简单且容易快速实现,但是词典主要依靠人工构建和维护,实时性比较低。复杂网络特征方法又被称为文法剖析法,它对于英文的处理已经取得了非常好的效果,但是对于汉语的处理,由于基础资源的不足或难度太大,目前还是很少见。统计法是目前使用最广泛、研究最深入的一种中文文本主题词提取方法。毕业设计研究了一种基于词典的分词方法和基于统计的主题词提取方法,并且实现了中文文本主题词提取系统。该系统包括词性标注、分词日志、中文主题词提取等功能模块。该系统基本实现了对中文文本的分词,对分词过程产生分词日志,以及中文文本主题词提取。同时,该系统利用数据库操作方式对分词结果进行读取和删除。关键词分词;中文主题词;词性标注ABSTRACTINTHEINFORMATIONTIME,THEPEOPLEEARNESTLYHOPEDTHATCANRAPIDLYANDGAINSTHEINFORMATIONWHICHACCURATELYONESELFNEEDTHEKEYWORDSOFTHEARTICLECANHELPUSSOLVETHISPROBLEMTAKEOUTTHEWORDSOFTHEARTICLECANHELPUSCLASSIFYTHEWORDSOFTHEARTICLEEASILY,EVENMORECANMAKEPEOPLEMOREQUICKLYKNOWTHEIDEASOFTHEARTICLEBESIDESTHIS,THEGOOGLEADSENCEPLANOFTHEUNIONWHICHISTHEWORDSLARGESTADVERTISINGRECOMMENDATIONSBASEONWEBPAGE,ALSOUSETHECORETECHNOLOGYOFTAKINGOUTTHEKEYWORDSTHERETHREEMETHODSOFTAKINGOUTTHEKEYSOFTHEARTICLE,THEFIRSTISBASEONTHEDICTIONARY,THESECONDISBASEONTHEWEB,THELASTONEISBASEONTHESTATISTICSTHEFIRSTWAYISSIMPLEANDEASYTOACHIEVEBUTTHEDICTIONARYISRELYONBUILTARTIFICIALLYANDMAINTENANCE,BUTTHEINSTANTANEITYISBADTHESOCONDWAYCALLTHETEXTANALYSIS,ITHASGOTTHEGOODEFFECTINDEALINGWITHTEXTOFENGLISH,BUTNOTTHECHINESESOITISVERYRARETODEALWITHTHETEXTOFCHINESETHELASTWAYISUSEDVERYWIDELYANDDEEPINREAEARCHWHICHTAKINGOUTTHEKEYWORDSOFTHETEXTINCHINESETHEARTICLERESEARCHEDANDACHIEVEDACHINESEWORDSEGMENTATIONSYSTEMBASEDONDICTIONARYANDAKEYWOREDSOFTEXTINCHINESETAKINGOUTSYSTEMBASEDONTHESTATISTICSTHISSYSTEMALSOINCLUDINGPARTOFSPEECHTAGGING,NOTEOFWORDSEGMENTATION,TAKEOUTKEYWORDS,ECTTHESYSTEMREALIZEDTHESEGMENTATIONOFCHINESETEXT,GENERATEDTHESEGMENTATIONRECORDOFTHEPROCESS,ANDCOUNTEDTHEFREQUENCYOFTHEWORDSBYTHESEGMENTATIONRESULTATTHESAMETIME,THESYSTEMUSEDDATABASEOPERATIONMODETOREADANDDELETETHESEGMENTATIONRESULTSKEYWORDSWORDSEGMENTATIONKEYWORDSOFTEXTPARTOFSPEECHTAGGING目录摘要IABSTRACTII第1章绪论111中文主题词提取的背景与意义112中文主题词提取的研究现状113中文主题词提取的应用214本章小结2第2章中文主题词提取方法321中文主题词提取算法综述3211基于词典的提取方法3212基于复杂网络特征提取方法4213基于统计的提取方法4214三种算法的优劣对比522中文主题词提取中的难点6221准确的分词6222词性的识别723本章小结7第3章系统总体设计831候选主题词的确定8311候选主题词的确定8312影响候选主题词权重的因素8313权重排序932分词词典9321分词词典的建立9322词典结构9323词典内容1033歧义处理11331N最短路径的切分排歧策略11332人名识别1234本章小结12第4章详细设计1341系统流程图1342候选主题词的确定1343影响候选主题词权重的因素1544权重排序1645本章小结17第5章系统实现1851系统开发环境介绍18511WINDOWSXP操作系统简介18512MICROSOFTVISUALSTUDIO2008简介1852开发语言介绍1953系统操作19531系统主界面19532系统分词数据2154系统的严谨性2455本章小结27结论28参考文献30致谢31第1章绪论11中文主题词提取的背景与意义在信息爆炸的时代,人们迫切希望能够迅速而准确地获得自己所需的信息,中文文本主题词提取为我们找到了一条出路。中文文本主题词提取可以帮助实现文本分类,还可以帮助人们快速了解一篇文章的主要内容。为了处理高速膨胀的信息资源,手工处理方法变得不切合实际,因此需要采用自动化处理方法帮助人们有效地管理组织信息。主题词在信息处理和信息检索过程中有广泛的用途,然而大量的阅读软件没有主题词,手工抽取主题词是一个繁重的过程。可以将主题词自动抽取看作是分类问题,充分利用文本的结构信息并且使用有监督的机器学习方法来自动地抽取文本中的主题词。用自然语言与计算机进行交流,互通信息,是长期以来人们所追求的计算机智能的一种高级表现形式,即自然语言理解。目前,出现了诸如中文文本自动分类、自动摘要、自动标引、文本信息自动提取、信息检索等自然语言处理技术。而在这些文本自动处理工作中,主题词提取是基础工作之一,它是简要概括文档内容的元数据。由于汉语文献作者使用语言的多样性和不规范性,导致表达同一主题的关键词,往往呈现多种字面形式,同义词、近义词不加统一规范,选取较为自由,造成了文本处理的不确定性。国外研究发现,在5个领域的自发词汇选择中,两个人使用同一词语的几率不到20。这样巨大的词汇差异必然严重影响基于自然语言匹配的文本自动处理工作。12中文主题词提取的研究现状目前在自然语言处理技术中,中文处理技术比西文处理技术要落后很大一段距离,许多西文的处理方法中文不能直接采用,就是因为中文必需有分词这道工序。因为中文需要分词,可能会影响一些研究,但同时也为一些企业带来机会,因为国外的计算机处理技术要想进入中国市场,首先也是要解决中文处理问题。在中文研究方面,相比外国人来说,中国人有十分明显的优势。汉语必须分词后提取是中文信息处理的关键技术,已经成为中文信息处理发展的瓶颈。众所周知,英文是以词为单位的,单词之间以空格作为自然分界符,而中文是字的序列,词之间没有间隔标记,使得词的界定缺乏自然标准。而“词”又是自然语言处理的一个基本单位,是最小的能够独立活动的有意义的语言成分。所以对中文来讲,自动识别汉语文献中词的边界,将书面汉字序列切分成正确的词串,是理解自然语言的第一步,只有跨越了这一步,才有可能对汉语进行主题抽取及主题分析,理解自然语言。因此,书面汉语的自动分词是中文文本主题提取的基础和前提,并且分词质量的好坏将直接影响到主题抽取的质量。人们在阅读汉语文章时,通常是凭借自己的已有知识边理解边分词,概括出文章的中心思想,从而抽取出反映文本主题内容的主题词或摘要。由计算机实现文本主题词的提取,主要有三个方面的关键技术如何从文本中切分出词;如何从词中分辨或引导出主题词;如何确定已选取的主题词是否为标引词。13中文主题词提取的应用随着网络信息的不断发展,人们对中文信息处理技术的要求也越来越高,而中文分词处于词法、句法、语义等语言层次的最底层,正是中文信息处理的基础。而中文主题词是信息检索、搜索引擎、文本分类、数据挖掘等技术的重要组成部分。随着信息技术的飞速发展和互联网的普及,文本资源呈现出了几何级数的增长,除了在学术论文中,作者为其文章指定主题词外,还有大量的文献尤其是互联网上的众多网页没有主题词,手工为这些文献选择主题词显然是一个繁重的过程,因为只有了解一篇文章的主题才能正确地为其指定主题词,如果能使用人工智能方法进行主题词的自动抽取将会使效率大大提高,同时也可借助抽取的主题词集来表示一篇文档,从而可通过主题词集对文档进行索引、查找和比较等操作,而不必对整个的文档;其中索引可极大地帮助人们节省精力去详细审阅大量的文档信息,因此主题词的获取是信息检索中各种搜索技术的基础工作。14本章小结本章简要的对中文主题词提取展开初步的论述,介绍了中文主题词提取背景与意义,以及将中文词语与西文处理技术进行比较,从而说明中文主题词提取的现状,最后简要介绍了中文主题词提取的应用。通过本章的介绍,能够大概的了解到中文语言的基本信息。第2章中文主题词提取方法21中文主题词提取算法综述主题词提取方法主要有基于词典的提取方法、基于复杂网络特征的提取方法以及基于统计的提取方法3种。词典法简单且容易快速实现,但是词典主要依靠人工构建和维护,实时I生比较低。复杂网络特征法又被称为文法剖析法,它对于英文的处理已经取得了非常好的效果,但是对于汉语的处理,由于基础资源的不足或难度太大,目前还很少见。统计法是目前使用最广泛、研究最深入的一种中文文本主题词提取方法。211基于词典的提取方法这种方法又叫做机械提取方法,它是按照一定的策略将待分析的汉字串与一个“充分大的”机器词典中的词条进行配,若在词典中找到某个字符串,则匹配成功(识别出一个词)。按照扫描方向的不同,串匹配分词方法可以分为正向匹配和逆向匹配;按照不同长度优先匹配的情况,可以分为最大(最长)匹配和最小(最短)匹配;按照是否与词性标注过程相结合,又可以分为单纯分词方法和分词与标注相结合的一体化方法。常用的机械分词方法有正向最大匹配法(由左到右的方向)、逆向最大匹配法(由右到左的方向)、最少切分(使每一句中切出的词数最小)。还可以将上述各种方法相互组合,例如,可以将正向最大匹配方法和逆向最大匹配方法结合起来构成双向匹配法。由于汉语单字成词的特点,正向最小匹配和逆向最小匹配一般很少使用。一般说来,逆向匹配的切分精度略高于正向匹配,遇到的歧义现象也较少。统计结果表明,单纯使用正向最大匹配的错误率为1/169,单纯使用逆向最大匹配的错误率为1/245。但这种精度还远远不能满足实际的需要。实际使用的分词系统,都是把机械分词作为一种初分手段,还需通过利用各种其它的语言信息来进一步提高切分的准确率。一种方法是改进扫描方式,称为特征扫描或标志切分,优先在待分析字符串中识别和切分出一些带有明显特征的词,以这些词作为断点,可将原字符串分为较小的串再来进机械分词,从而减少匹配的错误率。另一种方法是将分词和词类标注结合起来,利用丰富的词类信息对分词决策提供帮助,并且在标注过程中又反过来对分词结果进行检验、调整,从而极大地提高切分的准确率。对于机械分词方法,可以建立一个一般的模型,在这方面有专业的学术论文,这里不做详细论述。212基于复杂网络特征提取方法基于复杂网络特征的中文文档关键词抽取算法首先构造文章的语言网络,然后对语言网络进行分析,在整个语言网络上寻找起重要作用和中心作用的单词,将这些单词抽取出来作为关键词。在语言网络中,单词的度体现该单词与其它单词的关联情况,单词的度越大,则该单词的重要性越大,单词的聚集系数体现此单词局部范围内节点的相互连接密度,体现该单词在局部范围内的聚集性。复杂网络的理论研究表明模块内部节点互连度高、聚集性强,而处于模块之间的节点聚集系数往往较弱,因而单词的聚集系数也体现单词在模块内部的中心作用。基于复杂网络特征的中文文档关键词抽取算法综合考虑节点的度和聚集系数特征,将语言网络中具有较大度和聚集系数的单词抽取出来,作为关键词。213基于统计的提取方法这种分词方法需要考虑各种各样的因素,要从特定文献中准确、全面地抽出最能表达文献主题的词语,除了要有准确的分词结果作为基础,最重要的是对文献中的词在表达文献主旨方面的能力进行准确和全面的评价。我们首先考虑能成为主题词的个条件,(1)词语在文献中出现的次数越多,它将越可能是主题词。(2)词语在文献中出现的位置也将影响该词语的重要性。一般说来,一个词出现在标题、小标题、首末、段、段首段末句和正文中所表达的重要性是不一样的。另外,一个词语出现在线索词语后面时,该词语的重要性也是不一样的。(3)词语的长度也会影响到词语的重要性。对于名词而言,词语越长表示得越具体,表达主题的能力也越强。对于动词,一般2个字或3个字的动词更能表现主题。对于英文字串,单字母单词几乎没有什么意义,拥有210个字母的单词一般更能表现主题一些。(4)一个词语所覆盖的段落数越多,它表现主题的能力就越强。(5)英文字符串出现在中文文本中,也往往会和主题相关。(6)如果一个词语的同义词在文中出现,那么这个词语将获得附加权重。(7)如果一个词语的相关词在文中出现,那么这个词语将获得附加权重。(8)如果一个词语的下位词在文中出现,那么这个词语将获得附加权重。(9)一个词语即使在文献中没有出现,它仍有可能是主题词语。214三种算法的优劣对比到目前为止,还无法证明哪一种方法更准确,每种方法都有自己的利弊,有强项也有致命弱点,简单的对比见下表21所示表21算法优劣对比分词算法基于字典基于复杂网络特征基于统计歧义识别差强强需要词典需要不需要不需要算法复杂度容易难一般技术成熟度成熟成熟成熟实施难度容易一般很难提取准确性一般较准较确具体的分析为(1)歧义识别基于字典算法仅仅是跟一个电子词典进行比较,故不能进行歧义识别;基于复杂网络特征算法指通过理解字符串的含义,故有很强的歧义识别能力;基于统计的分词算法根据字符连续出现次数的多少,得到分词系列,故常常能够给出正确的分词系列选择,但是也有可能判断错误的情况。(2)需要词典基于字典算法基本思路就是与电子词典进行比较,故电子词典是必须的。并且词典越大,分词的正确率越高,因为词典越大,未登录词越少,从而可以大大减少未登录词识别的错误;基于复杂网络特征算法理解字符串的含义,故不需要一个电子词典;基于统计的分词算法仅仅根据统计得到最终的结果,故电子词典不是必须的。(3)算法复杂度基于字典算法仅仅进行字符串的比较操作,故算法简单;基于复杂网络特征算法需要充分处理各种规则,故算法非常复杂;事实上到目前为止,还没有成熟的这类算法;基于统计的分词算法需要语料库进行训练,虽然算法也比较复杂,但是已经比较常见,故这种分词的复杂性比第一种大,比第二种容易。现在的实用分词系统都采用这种算法。(4)技术成熟度基于字典算法是最早出现也是最成熟的算法;基于复杂网络特征算法是最不成熟的一类算法,到目前为止还没有成熟的算法;基于统计的分词算法已经有多种成熟的这类算法,基本上能够满足实际的应用。故技术成熟度基于匹配的分词算法、基于理解的分词算法、基于统计的分词算法。(5)实施难度同上面的道理,实施复杂性基于字典算法、基于统计的分词算法、基于匹配的分词算法。(6)提取准准确性到目前为止还没有一个准确的结论,不过从理论上说,基于理解的主题词算法有最高的分词准确性,理论上没有100的准确性;而基于复杂网络特征算法和基于统计的分词算法是一种“浅理解”的分词方法,不涉及真正的含义理解,故可能会出现错误,难以达到100的准确性。22中文主题词提取中的难点由于汉语本身的复杂性,无论按照人的智力标准,还是同应用的需要相比较,中文分词技术需要更深一步的研究和长远的发展。要从特定文献中准确、全面地抽出最能表达文献主题的词语,除了要有准确的分词结果作为基础,最重要的是对文献中的词在表达文献主旨方面的能力进行准确和全面的评价。221准确的分词中文分词的一个重要问题是如何从连续字串的汉语句子对应的所有合法可能词序列中,选出一个正确的结果,即歧义字段处理。所谓歧义就是指对予同样一个特定的句子或字符串可能存在多种切分方法,不同的切分方法具有不同的含义,因此会导致组合型歧义和交叉型歧义。切分歧义是影响分词系统切分正确率的重要因素,也是分词阶段最困难的问题之一。222词性的识别中文分词的另外一个重要问题是未登录词识别问题。未登录词也称为新词,是指那些在字典中没有被收录过,但又确实能被称为词的那些词,特别是人名、地名等专有名词,在文本中有非常高的使用频率。未登录词引入的分词错误往往比单纯的词表切分歧义还要严重。这就要求分词系统具有一定的未登录词识别的能力,从而提高分词的准确率。23本章小结本章简要介绍了基于字典、基于统计和基于复杂网络特征的三种主要的中文主题词提取方法。同时概要介绍了分词中的两大难点准确的分词、词性的识别。第3章系统总体设计31候选主题词的确定311候选主题词的确定词性某些词性的词语不能成为主题词,如助词、介词、叹词、数词、副词等。停用词即使满足词性规则,但如果它是停用词,仍不能成为主题词,如“是”。词频如果词频小于某个阀值,并且相关信息也小于某个阀值,它不能成为主题词。312影响候选主题词权重的因素要从特定文献中准确、全面地抽出最能表达文献主题的词语,除了要有准确的分词结果作为基础,最重要的是对文献中的词在表达文献主旨方面的能力进行准确和全面的价。我们在设计主题词权重的计算方法时,作出了如下假设(1)词语在文献中出现的次数越多,它将越可能是主题词。(2)词语在文献中出现的位置也将影响该词语的重要性。一般说来,一个词出现在标题、小标题、首末段、段首段末句和正文中所表达的重要性是不一样的。另外,一个词语出现在线索词语后面时,该词语的重要性也是不一样的。(3)词语的长度也会影响到词语的重要性。对于名词而言,词语越长表示得越具体,表达主题的能力也越强。对于动词,一般2个字或3个字的动词更能表现主题。对于英文字串,单字母单词几乎没有什么意义,拥有210个字母的单词一般更能表现主题一些。(4)一个词语所覆盖的段落数越多,它表现主题的能力就越强。(5)英文字符串出现在中文文本中,也往往会和主题相关。(6)如果一个词语的同义词在文中出现,那么这个词语将获得附加权重。(7)如果一个词语的相关词在文中出现,那么这个词语将获得附加权重。(8)如果一个词语的下位词在文中出现,那么这个词语将获得附加权重。(9)一个词语即使在文献中没有出现,它仍有可能是主题词语。313权重排序计算出所有候选词语的权重后,输出权重最大的前N个词语作为文献的主题词。在这个过程中,还需要做的就是要避免同义词同现。比如,在前N个词语中,不能同时出现“中国”和“中华人民共和国”,在处理时我们利用词林,只取权重较大的作为文献主题词。32分词词典321分词词典的建立分词词典是汉语信息处理系统的一个重要基础部分,它主要包括两方面的内容。一个是词典内容,即词典中收录了哪些词条。它对分词的精度有着很大的影响。一个好的分词词典要求通用性好,具有很高的覆盖率。另一个是词典的组织形式,它对分词系统的速度有着很大的影响。系统在进行语言处理时需要频繁查询分词词典,如何有效地对分词词典进行快速查询将直接影响系统的整体性能。同时实际的应用系统需要不断对词典进行增加新词、删除词条等维护工作,这就要求分词词典有一个灵活快速的更新机制。快速查询和更新是分词词典实用化时应满足的两个基本要求。分词词典通常是在数据库或文件系统上实现。在数据库上实现分词词典,优点是易维护,数据模式简单,分词程序简单易实现,但是可移植性差,分词速度缓慢。在随机文件或相对文件的文件系统上实现分词词典,优点是分词速度相对快,可移植性好,缺点是难维护,分词程序较复杂5。322词典结构词在词典里面是以数据块的方式存储的。每个数据块里面包括词块数目以及每个词块的具体信息(频度、词内容长度、句柄、词内容等)。具体表示为如下图31图31词典结构图323词典内容该系统采用的分词词典包括有词典库、词与词间的关联库、人名库、地名库、翻译人名库。本词典利用汉字字符编号(CCID)对汉字进行存取,CCID的取值范围自16768,对应6768个汉字,所有与该汉字可以组成的词均记录在相应的单元内。词库中记录的词是没有首汉字的,其首汉字就是该单元对应的汉字。词库中记录了词的词长、频率、词性以及词。一个词可能有多个词性,因此一个词可能在词典中出现多次,但词性不同。若想从词典中唯一定位一个词的话,必须同时指明词与词性。每个词单元在词典中保存为如图32所示图32词单元图33歧义处理331N最短路径的切分排歧策略普通的汉字歧义一般可分为(1)汉语构成词的语素汉语的词是由语素构成的,但词素不像外文的字母。语素有自由语素、半自由语素、不自由语素。其中,自由语素是构成歧义的主体。例如,自由语素“把”在“把手指”中,一方面与“手”构成“把手”,另一方面与“手指”构成介宾关系。而半自由语素和不自由语素则是歧义字段的构成成分。如字段“为人民工作”中,“为人”、“人民”、“民工”、“工作”形成了歧义,其中的“民”是半自由语素。(2)汉语中的同型词汉语中的同型词是指一个词的词性在不同语句中是不同的。如“学生会”中的“会”,可以作为一个名词,也可以作为一个动词。这就造成了“学生会”这个组合歧义字段。(3)汉语中的多音字汉语中的多音字也会造成歧义字段。如“为”,有“WEI2”音,也有“WEI4”音,在字段“为人民”中,“为人”、“人民”构成歧义,在“为人/民”切分中,和在“为/人民”切分中,“为”的读音是不同的,当然词性也不一样,所以这类原因可以归结到同型词中。(4)汉语词类的多功能性在汉语中,一个词可以在不同的句子中充当不同的成分。比如定语,在英语中,只能由形容词来修饰,但在汉语中,定语既可以由形容词充当,也可以由动词或名词充当。例如在字段“养父母”中,“养”作为一个动词,可以用来修饰“父母”组成“养父母”,也可以把“养父母”直接看成一个动宾短语。对于上述多种普通汉字歧义,词典列举了所有可能的词,添上概率,让最短路径算法寻找最可能的解。也就是利用N最短路径的切分排歧策略求解出多条路径,然后再求出每条路径的总概率,再选取最优解。N最短路径的切分排歧策略的基本思想是在初始阶段保留切分概率PW最大的N个结果,作为分词结果的候选集合。在未登录词识别、词性标注等词法分析之后,再通过最终的评价函数,计算出真正最优结果。实际上,N最短路径方法是最少切分方法和全切分的泛化和综合。一方面避免了最少切分方法大量舍弃正确结果的可能,另一方面又大大解决了全切分搜索空间过大,运行效率差的弊端6。该方法通过保留少量大概率的粗分结果,可以最大限度地保留歧义字段和未登录词。常用切分算法往往过于武断,过早地在初始阶段做出是否切分的判断,只保留一个自己认为最优的结果,而这一结果往往会因为存在歧义或未登录词而出错,这时候,后期补救措施往往费时费力,效果也不会很好。332人名识别姓氏在我国已有四千多年的历史,在人类的文明史上,姓名是个人作为社会成员的一个重要识别标记。由宋代人编纂的人人皆知的百家姓一书,共收入了504个姓。这些姓的绝大多数,在汉代以前就开始使用了。现代汉语词典一书,收入了930多个姓,比百家姓多近一倍。仅据姓谱和万姓统谱所录,中国单是汉民族姓氏就已多达3700有余。时至今日,加上少数民族,中国人曾拥有过多少姓氏,恐怕还是难以给出确数的,据专家估计,我国实际使用过的姓氏大约有一万二千个。人名用字情况复杂,除常用字外,也经常出现一些生僻字、古字、方言字和新造字等。人名用字虽多,但使用比较集中。据统计,当代人名用字只有3356个。这么多的人名、姓氏不可能全部放到词库中,必须依照一定的规则和算法对其进行识别。该系统对人名的识别采用的是模板匹配的方法,首先对初步分词得到的多的结果计算词性,清理掉其它不必要的信息后,再根据词性串应用模板对人名信息进行匹配。34本章小结本章介绍了系统中几个重要的模块。在分析了中文分词主题词系统中提取主题词个个步骤关系后,介绍了有候选主题词的确定,同时提出了词的权重算法的思想,并讲解了算法的执行过程。同时本章还介绍了本系统采用的分词词典的结构以及N最短路径的切分排歧的方法。第4章详细设计41系统流程图该系统的基本思路是先进行文本的分词与词性的标注,然后在此基础上,进行词的统计,进行停用词的过滤,找出符合的阈值的词,然后参数的确定,最后显示出文章的主题词。图41系统流程图由图41系统流程图可以看出该系统大体划分为分词、词性标注、停用词过滤、参数确定以及权重计算与排序等模块。42候选主题词的确定该模块主要是将文章分词后,对分好了的词进行词频的统计与排序,是作为中文主题词提取过程的最基本单元。候选主题词的确定的第一步,是要对已经分好了的词进行统计,统计其出现的次数,并对其进行由多到小的顺序排列。但在进行顺序排列之前,首先还要对词进行一些筛选,因为某些词性不能成为主题词,如助词U、UZHE、ULE、UGUO、UDE1、UDE2、UDE3、USUO、UDENG、UYY、UDH、ULS、UZHI、ULIAN介词P、PBA、PBEI数词M、MQ等等。进行了词性的筛选后,还要对某些满足词性的规则,但却是停用词,仍不能为主题词,如“是”、“好”、人名、地名、国名等。通过以上2步后,就要对词频进行选择,在第一步中,已经进行了词出现的次数的排列,我们这里直接选取靠前的词为候选主题的确定。词性某些词性的词语不能成为主题词,如助词、介词、叹词、数词、副词等。停用词即使满足词性规则,但如果它是停用词,仍不能成为主题词,如“是”。词频如果词频小于某个阀值,并且相关信息也小于某个阀值,它不能成为主题词。图42候选主题词的确定条件分词后的实例如图43所示。图43分词实例43影响候选主题词权重的因素要从特定文献中准确、全面地抽出最能表达文献主题的词语,除了要有准确的分词结果作为基础,最重要的是对文献中的词在表达文献主旨方面的能力进行准确和全面的评价。我们在设计主题词权重的计算方法时,作出了如下假设(1)词语在文献中出现的次数越多,它将越可能是主题词。(2)词语在文献中出现的位置也将影响该词语的重要性。一般说来,一个词出现在标题、小标题、首末段、段首段末句和正文中所表达的重要性是不一样的。另外,一个词语出现在线索词语后面时,该词语的重要性也是不一样的。(3)词语的长度也会影响到词语的重要性。对于名词而言,词语越长表示得越具体,表达主题的能力也越强。对于动词,一般2个字或3个字的动词更能表现主题。对于英文字串,单字母单词几乎没有什么意义,拥有210个字母的单词一般更能表现主题一些。(4)一个词语所覆盖的段落数越多,它表现主题的能力就越强。(5)英文字符串出现在中文文本中,也往往会和主题相关。(6)如果一个词语的同义词在文中出现,那么这个词语将获得附加权重。(7)如果一个词语的相关词在文中出现,那么这个词语将获得附加权重。(8)如果一个词语的下位词在文中出现,那么这个词语将获得附加权重。(9)一个词语即使在文献中没有出现,它仍有可能是主题词语。具体的词组统计如图44所示。图44词组统计后数据44权重排序本模块主要是计算出所有候选词语的权重后,输出权重最大的前N个词语作为文献的主题词。在这个过程中,还需要做的就是要避免同义词同现。比如,在前N个词语中,不能同时出现“中国”和“中华人民共和国”,在处理时我们利用词林,只取权重较大的作为文献主题词。具体权重排序后如图45所示。图45权重排序45本章小结本章主要介绍了系统的详细设计过程。首先给出了系统的流程图,然后对系统的每个主要模块进行了详细介绍。第5章系统实现51系统开发环境介绍511WINDOWSXP操作系统简介WINDOWSXP是基于WINDOWS2000代码的产品,同时拥有一个叫做“月神”的豪华亮丽的用户图形界面。WINDOWSXP的视窗标志也改为较清晰亮丽的四色视窗标志。WINDOWSXP带有用户图形的登陆界面;全新的XP亮丽桌面,用户若怀旧以前桌面可以换成传统桌面。此外,WINDOWSXP还引入了一个“选择任务”的用户界面,使得工具条可以访问任务的具体细节。WINDOWSXP的最低系统要求计算机使用时钟频率为300MHZ或更高的处理器;至少需要233MHZ(单个或双处理器系统);使用INTELPENTIUM/CELERON系列、AMDK6/ATHLON/DURON系列或兼容的处理器,使用128MBRAM或更高(最低支持64M,可能会影响性能和某些功能),15GB可用硬盘空间,SUPERVGA(800X600)或分辨率更高的视频适配器和监视器,CDROM或DVD驱动器,键盘和MICROSOFT鼠标或兼容的指针设备。WINDOWSXP操作系统包含了改进的网络、应用程序和WEB服务。它不但增强了可靠性和灵活性,而且降低了拥有强大、灵活管理服务的计算系统的成本,并为运行企业应用程序提供了最好的基础。512MICROSOFTVISUALSTUDIO2008简介MICROSOFTVISUALSTUDIO2008是面向WINDOWSVISTA、OFFICE2007、WEB20的下一代开发工具,代号“ORCAS”,是对VISUALSTUDIO2005一次及时、全面的升级。VS2008引入了250多个新特性,整合了对象、关系型数据、XML的访问方式,语言更加简洁。使用VISUALSTUDIO2008可以高效开发WINDOWS应用。设计器中可以实时反映变更,XAML中智能感知功能可以提高开发效率。同时VISUALSTUDIO2008支持项目模板、调试器和部署程序。VISUALSTUDIO2008可以高效开发WEB应用,集成了ASPNETAJAX10,包含ASPNETAJAX项目模板,它还可以高效开发OFFICE应用和MOBILE应用。52开发语言介绍C是微软公司发布的一种面向对象的、运行于NETFRAMEWORK之上的高级程序设计语言。并定于在微软职业开发者论坛PDC上登台亮相。C是微软公司研究员ANDERSHEJLSBERG的最新成果。C看起来与JAVA有着惊人的相似;它包括了诸如单一继承、接口、与JAVA几乎同样的语法和编译成中间代码再运行的过程。但是C与JAVA有着明显的不同,它借鉴了DELPHI的一个特点,与COM组件对象模型是直接集成的,而且它是微软公司NETWINDOWS网络框架的主角。C是一种安全的、稳定的、简单的、优雅的,由C和C衍生出来的面向对象的编程语言。它在继承C和C强大功能的同时去掉了一些它们的复杂特性(例如没有宏和模版,不允许多重继承)。C综合了VB简单的可视化操作和C的高运行效率,以其强大的操作能力、优雅的语法风格、创新的语言特性和便捷的面向组件编程的支持成为NET开发的首选语言。并且C成为ECMA与ISO标准规范。C看似基于C写成,但又融入其它语言如PASCAL、JAVA、VB等。53系统操作531系统主界面系统主界面是用户进入系统的第一个界面,也是最主要的一个界面,因为几乎所有的操作都在该界面上完成了,如图51所示。图51系统主界面由图51可以看出系统主界面主要分成三部分,第一部分是上面的菜单栏和工具栏,第二部分是左边的数据库栏,第三部分就是系统的主操作界面。如图52所示,对于第一部分,是系统主要的事件操作区,用户可以一个分词事件;可以打开一个文档文件到分词系统中来;分词完成后,用户可以根据自己不同的要求对分词结果进行保存,用户可以选择主保存把分词结果保存到数据库中,保存到数据库中的内容包括有分词原始文件、分词结果、日志文件、词频统计四部分;用户也可以选择另存为将分词结果保存到自己选择的路径上;同时,用户也可以根据需要选择只保存分词结果、日志、词频统计三部分内容。操作菜单是进行分词的操作。帮助菜单简要的介绍了系统的信息。图52菜单栏如图53所示,对于第二部分,是数据库区域,该数据库有读取、删除等操作。读取可将数据库中指定的文件读取到分词系统中,读取的内容保存分词原文件,以及原文件分词完后的分词结果、日志文件以及词频统计;删除操作可以直接删除一条记录,同时删除该记录的相关信息。图53数据库模块如图54所示,对于第三部分,也就是该系统最主要的分词界面,该系统所有的分词信息都在该区域显示,包括有分词源文件、分词结果、日志文件以及词频统计。具体可参考下一小节。图54主显示面532系统分词数据图55原始文件如图55所示在原始文件文本框中输入文本并点击开始分词按钮开始分词。经过分词算法运算后,在分词结果文本框中显示最终的分词结果。如图56所示图56分词结果同时系统会自动生成日志文件显示在日志文本框中,如图57所示图57日志文件并对分词结果进行词频统计,计算出每个词出现的频率,如图58所示。图58词频统计提取中文分词主题词,先要填入提取的个数,如图59所示。图59主题词个数选择提交个数后,出现所需要的主题词,如图510所示。图510主题词显示54系统的严谨性当对系统进行一定的操作的时候,系统会自动提示用户一些相关的信息告知用户。当在原始文本框输入文本并按提取主题词按钮后,执行分词,分词完毕时弹出分词成功提示窗口提示用户,如图511所示。图511提示成功分词成功后,如果还未对数据进行保存而进行新建、打开操作,那么系统将弹出如图512提醒窗口提示用户。图512询问保存对分词结果进行保存时如果选择主保存,即保存到数据库,这时将弹出图513提示窗口给你输入保存名称图513保存名称当输入名称已存在数据库中时,系统将弹出图514提示框。图514提示覆盖保存成功时提示保存成功,如图515所示。图515提示成功如果对数据库中的文件进行删除操作,那么系统提示图516信息。图516提示删除删除成功,弹出如下图517信息。图517删除成功退出系统时,如图518所示。图518询问关闭至此,对用户进行的一些误操作以及必要的提示已经基本罗列出来。55本章小结本章主要实现了前面研究的算法,并对开发环境做了简要介绍,同时介绍了系统的操作流程以及系统的严谨性。结论中文信息处理技术是重要的计算机应用技术。在对目前主要的主题词提取方法进行分析总结的基础之上,本论文介绍了一种基于统计的主题词提取算法。它是搜索引擎、自动翻译、语音识别、信息捡索、自动分类、自动文摘、文本的自动校对以及数据挖掘等技术的重要组成部分。本文的主要工作集中在以下几个方面(1)阐述了中文主题词提取的研究背景与意义,对中文主题词提取的国内外研究现状进行了分析与介绍,详细介绍了三种典型中文主题词提取方法,并阐述了准确分词以及词性识别的方法。(2)本文重点研究系统中的候选主题词的确定、影响候选主题词权重的因素、权重的计算方法理等重要模块,以加深对该统的构成以及主题词提取算法的原理。同时给出了利用该算法的简单求解实例、实验结果。(3)在对主题词提取算法、原理有了一定了解的基础上,利用微软的开发工具实现了分词系统。系统基本实现了分词中的主要功能,包括有分词最终结果、分词过程中每一个步骤的分词日志、以及对分词结果的词频统计。同时系统实现了对分词结果的保存

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论