毕业论文-中文主题词提取.doc_第1页
毕业论文-中文主题词提取.doc_第2页
毕业论文-中文主题词提取.doc_第3页
毕业论文-中文主题词提取.doc_第4页
毕业论文-中文主题词提取.doc_第5页
已阅读5页,还剩31页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

五邑大学本科毕业设计五邑大学本科毕业设计 I 摘 要 在信息爆炸的时代,人们迫切希望能够迅速而准确地获取自己所需要的信息,中文 文本主题词为我们找到一条出路。中文文本主题词提取可以帮助实现文本词语分类,还 可以帮助人们快速了解一篇文章的主要内容。另外,全球最大的基于网页内容的广告推 介联盟GoogleAdSence 计划,在实现网页与广告关联的时候,也用到了主题词提取技 术。 主题词提取的方法主要有基于词典的提取方法、基于复杂网络特征的提取方法以及 基于统计的提取方法3种。词典方法简单且容易快速实现,但是词典主要依靠人工构建和 维护,实时性比较低。复杂网络特征方法又被称为文法剖析法,它对于英文的处理已经 取得了非常好的效果,但是对于汉语的处理,由于基础资源的不足或难度太大,目前还 是很少见。统计法是目前使用最广泛、研究最深入的一种中文文本主题词提取方法。 毕业设计研究了一种基于词典的分词方法和基于统计的主题词提取方法,并且实现 了中文文本主题词提取系统。该系统包括词性标注、分词日志、中文主题词提取等功能 模块。 该系统基本实现了对中文文本的分词,对分词过程产生分词日志,以及中文文本主 题词提取。同时,该系统利用数据库操作方式对分词结果进行读取和删除。 关键词关键词 分词;中文主题词;词性标注 五邑大学本科毕业设计五邑大学本科毕业设计 II Abstract In the information time, the people earnestly hoped that can rapidly and gains the information which accurately oneself need. The key words of the article can help us solve this problem.Take out the words of the article can help us Classify the words of the article easily ,even more can make people more quickly know the ideas of the article. Besides this,the GoogleAdSence Plan of the Union which is the words largest Advertising recommendations base on Web Page ,also use the core technology of taking out the key words. There three methods of taking out the keys of the article, the first is base on the dictionary,the second is base on the web,the last one is base on the statistics.The first way is simple and easy to achieve.But the dictionary is rely on built artificially and maintenance,but the instantaneity is bad.The socond way call the Text Analysis,it has got the good effect in dealing with text of English ,but not the Chinese.So it is very rare to deal with the text of Chinese.The last way is used very widely and deep in reaearch which taking out the key words of the text in Chinese. The article researched and achieved a Chinese word segmentation system based on dictionary and a key woreds of text in Chinese taking out system based on the statistics . This system also including part-of-speech tagging,note of word segmentation,take out key words, ect. The system realized the segmentation of Chinese text, generated the segmentation record of the process, and counted the frequency of the words by the segmentation result .At the same time, the system used database operation mode to read and delete the segmentation results. Key words word segmentation; key words of text; part-of-speech tagging 五邑大学本科毕业设计五邑大学本科毕业设计 III 目 录 摘 要.I Abstract.II 第 1 章 绪论.1 1.1 中文主题词提取的背景与意义.1 1.2 中文主题词提取的研究现状.1 1.3 中文主题词提取的应用.2 1.4 本章小结.2 第 2 章 中文主题词提取方法.3 2.1 中文主题词提取算法综述.3 2.1.1 基于词典的提取方法 .3 2.1.2 基于复杂网络特征提取方法 .4 2.1.3 基于统计的提取方法 .4 2.1.4 三种算法的优劣对比 .5 2.2 中文主题词提取中的难点.6 2.2.1 准确的分词 .6 2.2.2 词性的识别 .7 2.3 本章小结.7 第 3 章 系统总体设计.8 3.1 候选主题词的确定.8 3.1.1 候选主题词的确定 .8 3.1.2 影响候选主题词权重的因素 .8 3.1.3 权重排序 .9 3.2 分词词典.9 3.2.1 分词词典的建立 .9 3.2.2 词典结构 .9 3.2.3 词典内容 .10 3.3 歧义处理.11 3.3.1 N-最短路径的切分排歧策略.11 3.3.2 人名识别 .12 3.4 本章小结.12 第 4 章 详细设计.13 4.1 系统流程图.13 4.2 候选主题词的确定.13 4.3 影响候选主题词权重的因素.15 4.4 权重排序.16 五邑大学本科毕业设计五邑大学本科毕业设计 IV 4.5 本章小结.17 第 5 章 系统实现.18 5.1 系统开发环境介绍.18 5.1.1 WINDOWSXP 操作系统简介 .18 5.1.2 MICROSOFT VISUAL STUDIO 2008 简介.18 5.2 开发语言介绍.19 5.3 系统操作.19 5.3.1 系统主界面 .19 5.3.2 系统分词数据 .21 5.4 系统的严谨性.24 5.5 本章小结.27 结 论.28 参考文献.30 致 谢.31 五邑大学本科毕业设计五邑大学本科毕业设计 1 第 1 章 绪论 1.1 中文主题词提取的背景与意义 在信息爆炸的时代,人们迫切希望能够迅速而准确地获得自己所需的信息,中文文 本主题词提取为我们找到了一条出路。中文文本主题词提取可以帮助实现文本分类,还 可以帮助人们快速了解一篇文章的主要内容。为了处理高速膨胀的信息资源,手工处理 方法变得不切合实际,因此需要采用自动化处理方法帮助人们有效地管理组织信息。 主题词在信息处理和信息检索过程中有广泛的用途,然而大量的阅读软件没有主题 词,手工抽取主题词是一个繁重的过程。可以将主题词自动抽取看作是分类问题,充分 利用文本的结构信息并且使用有监督的机器学习方法来自动地抽取文本中的主题词。 用自然语言与计算机进行交流,互通信息,是长期以来人们所追求的计算机智能的 一种高级表现形式,即自然语言理解。 目前,出现了诸如中文文本自动分类、自动摘要、自动标引、文本信息自动提取、 信息检索等自然语言处理技术。而在这些文本自动处理工作中,主题词提取是基础工作 之一,它是简要概括文档内容的元数据。由于汉语文献作者使用语言的多样性和不规范 性,导致表达同一主题的关键词,往往呈现多种字面形式,同义词、近义词不加统一规 范,选取较为自由,造成了文本处理的不确定性。国外研究发现,在5个领域的自发词汇 选择中,两个人使用同一词语的几率不到20。这样巨大的词汇差异必然严重影响基于 自然语言匹配的文本自动处理工作。 1.2 中文主题词提取的研究现状 目前在自然语言处理技术中,中文处理技术比西文处理技术要落后很大一段距离, 许多西文的处理方法中文不能直接采用,就是因为中文必需有分词这道工序。因为中文 需要分词,可能会影响一些研究,但同时也为一些企业带来机会,因为国外的计算机处 理技术要想进入中国市场,首先也是要解决中文处理问题。在中文研究方面,相比外国 人来说,中国人有十分明显的优势。汉语必须分词后提取是中文信息处理的关键技术, 已经成为中文信息处理发展的瓶颈。 众所周知,英文是以词为单位的,单词之间以空格作为自然分界符,而中文是字的 五邑大学本科毕业设计五邑大学本科毕业设计 2 序列,词之间没有间隔标记,使得词的界定缺乏自然标准。而“词”又是自然语言处理 的一个基本单位,是最小的能够独立活动的有意义的语言成分。所以对中文来讲,自动 识别汉语文献中词的边界,将书面汉字序列切分成正确的词串,是理解自然语言的第一 步,只有跨越了这一步,才有可能对汉语进行主题抽取及主题分析,理解自然语言。因 此,书面汉语的自动分词是中文文本主题提取的基础和前提,并且分词质量的好坏将直 接影响到主题抽取的质量。 人们在阅读汉语文章时,通常是凭借自己的已有知识边理解边分词,概括出文章的 中心思想,从而抽取出反映文本主题内容的主题词或摘要。由计算机实现文本主题词的 提取,主要有三个方面的关键技术:如何从文本中切分出词;如何从词中分辨或引导出 主题词;如何确定已选取的主题词是否为标引词。 1.3 中文主题词提取的应用 随着网络信息的不断发展,人们对中文信息处理技术的要求也越来越高,而中文分 词处于词法、句法、语义等语言层次的最底层,正是中文信息处理的基础。而中文主题 词是信息检索、搜索引擎、文本分类、数据挖掘等技术的重要组成部分。随着信息技术 的飞速发展和互联网的普及,文本资源呈现出了几何级数的增长,除了在学术论文中, 作者为其文章指定主题词外,还有大量的文献尤其是互联网上的众多网页没有主题词, 手工为这些文献选择主题词显然是一个繁重的过程,因为只有了解一篇文章的主题才能 正确地为其指定主题词,如果能使用人工智能方法进行主题词的自动抽取将会使效率大 大提高,同时也可借助抽取的主题词集来表示一篇文档,从而可通过主题词集对文档进 行索引、查找和比较等操作,而不必对整个的文档;其中索引可极大地帮助人们节省精 力去详细审阅大量的文档信息,因此主题词的获取是信息检索中各种搜索技术的基础工 作。 1.4 本章小结 本章简要的对中文主题词提取展开初步的论述,介绍了中文主题词提取背景与意义, 以及将中文词语与西文处理技术进行比较,从而说明中文主题词提取的现状,最后简要 介绍了中文主题词提取的应用。通过本章的介绍,能够大概的了解到中文语言的基本信 息。 五邑大学本科毕业设计五邑大学本科毕业设计 3 五邑大学本科毕业设计五邑大学本科毕业设计 4 第 2 章 中文主题词提取方法 2.1 中文主题词提取算法综述中文主题词提取算法综述 主题词提取方法主要有基于词典的提取方法、基于复杂网络特征的提取方法以及基 于统计的提取方法3种。词典法简单且容易快速实现,但是词典主要依靠人工构建和维护, 实时I生比较低。复杂网络特征法又被称为文法剖析法,它对于英文的处理已经取得了非 常好的效果,但是对于汉语的处理,由于基础资源的不足或难度太大,目前还很少见。 统计法是目前使用最广泛、研究最深入的一种中文文本主题词提取方法。 2.1.1 基于词典的提取方法 这种方法又叫做机械提取方法,它是按照一定的策略将待分析的汉字串与一个“充 分大的”机器词典中的词条进行配,若在词典中找到某个字符串,则匹配成功(识别出 一个词)。按照扫描方向的不同,串匹配分词方法可以分为正向匹配和逆向匹配;按照 不同长度优先匹配的情况,可以分为最大(最长)匹配和最小(最短)匹配;按照是否 与词性标注过程相结合,又可以分为单纯分词方法和分词与标注相结合的一体化方法。 常用的机械分词方法有正向最大匹配法(由左到右的方向)、逆向最大匹配法(由右到 左的方向)、最少切分(使每一句中切出的词数最小)。 还可以将上述各种方法相互组合,例如,可以将正向最大匹配方法和逆向最大匹配 方法结合起来构成双向匹配法。由于汉语单字成词的特点,正向最小匹配和逆向最小匹 配一般很少使用。一般说来,逆向匹配的切分精度略高于正向匹配,遇到的歧义现象也 较少。统计结果表明,单纯使用正向最大匹配的错误率为 1/169,单纯使用逆向最大匹配 的错误率为 1/245。但这种精度还远远不能满足实际的需要。实际使用的分词系统,都是 把机械分词作为一种初分手段,还需通过利用各种其它的语言信息来进一步提高切分的 准确率。 一种方法是改进扫描方式,称为特征扫描或标志切分,优先在待分析字符串中识别 和切分出一些带有明显特征的词,以这些词作为断点,可将原字符串分为较小的串再来 进机械分词,从而减少匹配的错误率。另一种方法是将分词和词类标注结合起来,利用 五邑大学本科毕业设计五邑大学本科毕业设计 5 丰富的词类信息对分词决策提供帮助,并且在标注过程中又反过来对分词结果进行检验、 调整,从而极大地提高切分的准确率。 对于机械分词方法,可以建立一个一般的模型,在这方面有专业的学术论文,这里 不做详细论述。 2.1.2 基于复杂网络特征提取方法 基于复杂网络特征的中文文档关键词抽取算法首先构造文章的语言网络,然后对语 言网络进行分析,在整个语言网络上寻找起重要作用和中心作用的单词,将这些单词抽 取出来作为关键词。在语言网络中,单词的度体现该单词与其它单词的关联情况,单词 的度越大,则该单词的重要性越大,单词的聚集系数体现此单词局部范围内节点的相互 连接密度,体现该单词在局部范围内的聚集性。复杂网络的理论研究表明模块内部节点 互连度高、聚集性强,而处于模块之间的节点聚集系数往往较弱,因而单词的聚集系数 也体现单词在模块内部的中心作用。基于复杂网络特征的中文文档关键词抽取算法综合 考虑节点的度和聚集系数特征,将语言网络中具有较大度和聚集系数的单词抽取出来, 作为关键词。 2.1.3 基于统计的提取方法 这种分词方法需要考虑各种各样的因素,要从特定文献中准确、全面地抽出最能表 达文献主题的词语,除了要有准确的分词结果作为基础,最重要的是对文献中的词在表 达文献主旨方面的能力进行准确和全面的评价。我们首先考虑能成为主题词的个条件, (1)词语在文献中出现的次数越多,它将越可能是主题词。 (2)词语在文献中出现的位置也将影响该词语的重要性。一般说来,一个词出现在 标题、小标题、首末、段、段首段末句和正文中所表达的重要性是不一样的。另外,一 个词语出现在线索词语后面时,该词语的重要性也是不一样的。 (3)词语的长度也会影响到词语的重要性。对于名词而言,词语越长表示得越具体, 表达主题的能力也越强。对于动词,一般2个字或3个字的动词更能表现主题。对于英文 字串,单字母单词几乎没有什么意义,拥有210个字母的单词一般更能表现主题一些。 (4)一个词语所覆盖的段落数越多,它表现主题的能力就越强。 (5)英文字符串出现在中文文本中,也往往会和主题相关。 五邑大学本科毕业设计五邑大学本科毕业设计 6 (6)如果一个词语的同义词在文中出现,那么这个词语将获得附加权重。 (7)如果一个词语的相关词在文中出现,那么这个词语将获得附加权重。 (8)如果一个词语的下位词在文中出现,那么这个词语将获得附加权重。 (9) 一个词语即使在文献中没有出现,它仍有可能是主题词语。 2.1.4 三种算法的优劣对比 到目前为止,还无法证明哪一种方法更准确,每种方法都有自己的利弊,有强项也 有致命弱点,简单的对比见下表 2-1 所示: 表 2-1 算法优劣对比 分词算法基于字典基于复杂网络特征基于统计 歧义识别差强强 需要词典需要不需要不需要 算法复杂度容易难一般 技术成熟度成熟成熟成熟 实施难度容易一般很难 提取准确性一般较准较确 具体的分析为: (1)歧义识别 基于字典算法:仅仅是跟一个电子词典进行比较,故不能进行歧义识别; 基于复杂网络特征算法:指通过理解字符串的含义,故有很强的歧义识别能力; 基于统计的分词算法:根据字符连续出现次数的多少,得到分词系列,故常常能够 给出正确的分词系列选择,但是也有可能判断错误的情况。 (2)需要词典 基于字典算法:基本思路就是与电子词典进行比较,故电子词典是必须的。并且词 典越大,分词的正确率越高,因为词典越大,未登录词越少,从而可以大大减少未登录 词识别的错误; 基于复杂网络特征算法:理解字符串的含义,故不需要一个电子词典; 五邑大学本科毕业设计五邑大学本科毕业设计 7 基于统计的分词算法:仅仅根据统计得到最终的结果,故电子词典不是必须的。 (3)算法复杂度 基于字典算法:仅仅进行字符串的比较操作,故算法简单; 基于复杂网络特征算法:需要充分处理各种规则,故算法非常复杂;事实上到目前 为止,还没有成熟的这类算法; 基于统计的分词算法:需要语料库进行训练,虽然算法也比较复杂,但是已经比较 常见,故这种分词的复杂性比第一种大,比第二种容易。现在的实用分词系统都采用这 种算法。 (4)技术成熟度 基于字典算法:是最早出现也是最成熟的算法; 基于复杂网络特征算法:是最不成熟的一类算法,到目前为止还没有成熟的算法; 基于统计的分词算法:已经有多种成熟的这类算法,基本上能够满足实际的应用。 故技术成熟度:基于匹配的分词算法、基于理解的分词算法、基于统计的分词算法。 (5)实施难度 同上面的道理,实施复杂性:基于字典算法、基于统计的分词算法、基于匹配的分 词算法。 (6)提取准准确性 到目前为止还没有一个准确的结论,不过从理论上说,基于理解的主题词算法有最 高的分词准确性,理论上没有 100%的准确性;而基于复杂网络特征算法和基于统计的分 词算法是一种“浅理解”的分词方法,不涉及真正的含义理解,故可能会出现错误,难 以达到 100%的准确性。 2.2 中文主题词提取中的难点 由于汉语本身的复杂性,无论按照人的智力标准,还是同应用的需要相比较,中文 分词技术需要更深一步的研究和长远的发展。要从特定文献中准确、全面地抽出最能表 达文献主题的词语,除了要有准确的分词结果作为基础,最重要的是对文献中的词在表 达文献主旨方面的能力进行准确和全面的评价。 五邑大学本科毕业设计五邑大学本科毕业设计 8 2.2.1 准确的分词 中文分词的一个重要问题是如何从连续字串的汉语句子对应的所有合法可能词序列 中,选出一个正确的结果,即歧义字段处理。所谓歧义就是指对予同样一个特定的句子 或字符串可能存在多种切分方法,不同的切分方法具有不同的含义,因此会导致组合型 歧义和交叉型歧义。切分歧义是影响分词系统切分正确率的重要因素,也是分词阶段最 困难的问题之一。 2.2.2 词性的识别 中文分词的另外一个重要问题是未登录词识别问题。未登录词也称为新词,是指那 些在字典中没有被收录过,但又确实能被称为词的那些词,特别是人名、地名等专有名 词,在文本中有非常高的使用频率。未登录词引入的分词错误往往比单纯的词表切分歧 义还要严重。这就要求分词系统具有一定的未登录词识别的能力,从而提高分词的准确 率。 2.3 本章小结 本章简要介绍了基于字典、基于统计和基于复杂网络特征的三种主要的中文主题词 提取方法。同时概要介绍了分词中的两大难点:准确的分词、词性的识别。 五邑大学本科毕业设计五邑大学本科毕业设计 9 第 3 章 系统总体设计 3.1 候选主题词的确定候选主题词的确定 3.1.1 候选主题词的确定 词性:某些词性的词语不能成为主题词,如助词、介词、叹词、数词、副词等。 停用词:即使满足词性规则,但如果它是停用词,仍不能成为主题词,如:“是” 。 词频:如果词频小于某个阀值,并且相关信息也小于某个阀值,它不能成为主题词。 3.1.2 影响候选主题词权重的因素 要从特定文献中准确、全面地抽出最能表达文献主题的词语,除了要有准确的分词 结果作为基础,最重要的是对文献中的词在表达文献主旨方面的能力进行准确和全面的 价。我们在设计主题词权重的计算方法时,作出了如下假设: (1)词语在文献中出现的次数越多,它将越可能是主题词。 (2)词语在文献中出现的位置也将影响该词语的重要性。一般说来,一个词出现在 标题、小标题、首末段、段首段末句和正文中所表达的重要性是不一样的。另外,一个 词语出现在线索词语后面时,该词语的重要性也是不一样的。 (3)词语的长度也会影响到词语的重要性。对于名词而言,词语越长表示得越具体, 表达主题的能力也越强。对于动词,一般2个字或3个字的动词更能表现主题。对于英文 字串,单字母单词几乎没有什么意义,拥有210个字母的单词一般更能表现主题一些。 (4)一个词语所覆盖的段落数越多,它表现主题的能力就越强。 (5)英文字符串出现在中文文本中,也往往会和主题相关。 (6)如果一个词语的同义词在文中出现,那么这个词语将获得附加权重。 五邑大学本科毕业设计五邑大学本科毕业设计 10 (7)如果一个词语的相关词在文中出现,那么这个词语将获得附加权重。 (8)如果一个词语的下位词在文中出现,那么这个词语将获得附加权重。 (9)一个词语即使在文献中没有出现,它仍有可能是主题词语。 3.1.3 权重排序 计算出所有候选词语的权重后,输出权重最大的前N个词语作为文献的主题词。在这 个过程中,还需要做的就是要避免同义词同现。比如,在前N个词语中,不能同时出现 “中国”和“中华人民共和国” ,在处理时我们利用词林,只取权重较大的作为文献主题 词。 3.2 分词词典 3.2.1 分词词典的建立 分词词典是汉语信息处理系统的一个重要基础部分,它主要包括两方面的内容。一 个是词典内容,即词典中收录了哪些词条。它对分词的精度有着很大的影响。一个好的 分词词典要求通用性好,具有很高的覆盖率。另一个是词典的组织形式,它对分词系统 的速度有着很大的影响。系统在进行语言处理时需要频繁查询分词词典,如何有效地对 分词词典进行快速查询将直接影响系统的整体性能。同时实际的应用系统需要不断对词 典进行增加新词、删除词条等维护工作,这就要求分词词典有一个灵活快速的更新机制。 快速查询和更新是分词词典实用化时应满足的两个基本要求。分词词典通常是在数据库 或文件系统上实现。在数据库上实现分词词典,优点是易维护,数据模式简单,分词程 序简单易实现,但是可移植性差,分词速度缓慢。在随机文件或相对文件的文件系统上 实现分词词典,优点是分词速度相对快,可移植性好,缺点是难维护,分词程序较复杂5。 3.2.2 词典结构 词在词典里面是以数据块的方式存储的。每个数据块里面包括词块数目以及每个词 块的具体信息(频度、词内容长度、句柄、词内容等) 。具体表示为如下图 3-1: 五邑大学本科毕业设计五邑大学本科毕业设计 11 图 3-1 词典结构图 3.2.3 词典内容 该系统采用的分词词典包括有词典库、词与词间的关联库、人名库、地名库、翻译 人名库。本词典利用汉字字符编号(CCID)对汉字进行存取,CCID 的取值范围自 16768,对应 6768 个汉字,所有与该汉字可以组成的词均记录在相应的单元内。词库 中记录的词是没有首汉字的,其首汉字就是该单元对应的汉字。词库中记录了词的词长、 频率、词性以及词。一个词可能有多个词性,因此一个词可能在词典中出现多次,但词 性不同。若想从词典中唯一定位一个词的话,必须同时指明词与词性。每个词单元在词 典中保存为如图 3-2 所示: 图 3-2 词单元图 五邑大学本科毕业设计五邑大学本科毕业设计 12 3.3 歧义处理 3.3.1 N-最短路径的切分排歧策略 普通的汉字歧义一般可分为: (1)汉语构成词的语素 汉语的词是由语素构成的,但词素不像外文的字母。语素有自由语素、半自由语素、 不自由语素。其中,自由语素是构成歧义的主体。例如,自由语素“把”在“把手指” 中,一方面与“手”构成“把手” ,另一方面与“手指”构成介宾关系。而半自由语素和 不自由语素则是歧义字段的构成成分。如字段“为人民工作”中, “为人” 、 “人民” 、 “民 工” 、 “工作”形成了歧义,其中的“民”是半自由语素。 (2)汉语中的同型词 汉语中的同型词是指一个词的词性在不同语句中是不同的。如“学生会”中的“会” , 可以作为一个名词,也可以作为一个动词。这就造成了“学生会”这个组合歧义字段。 (3)汉语中的多音字 汉语中的多音字也会造成歧义字段。如“为”,有“wei2”音,也有“wei4”音,在 字段“为人民”中,“为人”、“人民”构成歧义,在“为人/民”切分中,和在“为/人 民”切分中,“为”的读音是不同的,当然词性也不一样,所以这类原因可以归结到同 型词中。 (4) 汉语词类的多功能性 在汉语中,一个词可以在不同的句子中充当不同的成分。比如定语,在英语中,只 能由形容词来修饰,但在汉语中,定语既可以由形容词充当,也可以由动词或名词充当。 例如在字段“养父母”中, “养”作为一个动词,可以用来修饰“父母”组成“养父母” , 也可以把“养父母”直接看成一个动宾短语。 对于上述多种普通汉字歧义,词典列举了所有可能的词,添上概率,让最短路径算 法寻找最可能的解。也就是利用 N-最短路径的切分排歧策略求解出多条路径,然后再求 出每条路径的总概率,再选取最优解。 N-最短路径的切分排歧策略的基本思想是在初始阶段保留切分概率 P(w)最大的 N 个 结果,作为分词结果的候选集合。在未登录词识别、词性标注等词法分析之后,再通过 五邑大学本科毕业设计五邑大学本科毕业设计 13 最终的评价函数,计算出真正最优结果。实际上,N-最短路径方法是最少切分方法和全 切分的泛化和综合。一方面避免了最少切分方法大量舍弃正确结果的可能,另一方面又 大大解决了全切分搜索空间过大,运行效率差的弊端6。 该方法通过保留少量大概率的粗分结果,可以最大限度地保留歧义字段和未登录词。 常用切分算法往往过于武断,过早地在初始阶段做出是否切分的判断,只保留一个自己 认为最优的结果,而这一结果往往会因为存在歧义或未登录词而出错,这时候,后期补 救措施往往费时费力,效果也不会很好。 3.3.2 人名识别 姓氏在我国已有四千多年的历史,在人类的文明史上,姓名是个人作为社会成员的 一个重要识别标记。由宋代人编纂的人人皆知的百家姓一书,共收入了 504 个姓。 这些姓的绝大多数,在汉代以前就开始使用了。 现代汉语词典一书,收入了 930 多个 姓,比百家姓多近一倍。仅据姓谱和万姓统谱所录,中国单是汉民族姓氏 就已多达 3700 有余。时至今日,加上少数民族,中国人曾拥有过多少姓氏,恐怕还是难 以给出确数的,据专家估计,我国实际使用过的姓氏大约有一万二千个。 人名用字情况复杂,除常用字外,也经常出现一些生僻字、古字、方言字和新造字 等。人名用字虽多,但使用比较集中。据统计,当代人名用字只有 3356 个。 这么多的人名、姓氏不可能全部放到词库中,必须依照一定的规则和算法对其进行 识别。该系统对人名的识别采用的是模板匹配的方法,首先对初步分词得到的多的结果 计算词性,清理掉其它不必要的信息后,再根据词性串应用模板对人名信息进行匹配。 3.4 本章小结 本章介绍了系统中几个重要的模块。在分析了中文分词主题词系统中提取主题 词个个步骤关系后,介绍了有候选主题词的确定,同时提出了词的权重算法的思想,并 讲解了算法的执行过程。同时本章还介绍了本系统采用的分词词典的结构以及 N-最短路 径的切分排歧的方法。 五邑大学本科毕业设计五邑大学本科毕业设计 14 第 4 章 详细设计 4.1 系统流程图 该系统的基本思路是先进行文本的分词与词性的标注,然后在此基础上,进行词的 统计,进行停用词的过滤,找出符合的阈值的词,然后参数的确定,最后显示出文章的 主题词。 图 4-1 系统流程图 由图 4-1 系统流程图可以看出该系统大体划分为分词、词性标注、停用词过滤、参数 确定以及权重计算与排序等模块。 4.2 候选主题词的确定 该模块主要是将文章分词后,对分好了的词进行词频的统计与排序,是作为中文主 题词提取过程的最基本单元。 候选主题词的确定的第一步,是要对已经分好了的词进行统计,统计其出现的次数, 并对其进行由多到小的顺序排列。但在进行顺序排列之前,首先还要对词进行一些筛选, 因为某些词性不能成为主题词,如助词 u、uzhe、ule、uguo、ude1、ude2、ude3 、usuo 、udeng 、uyy、udh、uls、uzhi、ulian 介词 p、pba、pbei 数词 m、mq 等等。 进行了词性的筛选后,还要对某些满足词性的规则,但却是停用词,仍不能为主题 词,如:“是” 、 “好” 、人名、地名、国名等。 通过以上 2 步后,就要对词频进行选择,在第一步中,已经进行了词出现的次数的 排列,我们这里直接选取靠前的词为候选主题的确定。 词性:某些词性的词语不能成为主题词,如助词、介词、叹词、数词、副词等。 五邑大学本科毕业设计五邑大学本科毕业设计 15 停用词:即使满足词性规则,但如果它是停用词,仍不能成为主题词,如:“是” 。 词频:如果词频小于某个阀值,并且相关信息也小于某个阀值,它不能成为主题词。 图 4-2 候选主题词的确定条件 分词后的实例如图 4-3 所示。 五邑大学本科毕业设计五邑大学本科毕业设计 16 图 4-3 分词实例 4.3影响候选主题词权重的因素影响候选主题词权重的因素 要从特定文献中准确、全面地抽出最能表达文献主题的词语,除了要有准确的分词 结果作为基础,最重要的是对文献中的词在表达文献主旨方面的能力进行准确和全面的 评价。我们在设计主题词权重的计算方法时,作出了如下假设: (1)词语在文献中出现的次数越多,它将越可能是主题词。 (2)词语在文献中出现的位置也将影响该词语的重要性。一般说来,一个词出现在 标题、小标题、首末段、段首段末句和正文中所表达的重要性是不一样的。另外,一个 词语出现在线索词语后面时,该词语的重要性也是不一样的。 (3)词语的长度也会影响到词语的重要性。对于名词而言,词语越长表示得越具体, 表达主题的能力也越强。对于动词,一般 2 个字或 3 个字的动词更能表现主题。对于英 文字串,单字母单词几乎没有什么意义,拥有 210 个字母的单词一般更能表现主题一 些。 (4)一个词语所覆盖的段落数越多,它表现主题的能力就越强。 (5)英文字符串出现在中文文本中,也往往会和主题相关。 五邑大学本科毕业设计五邑大学本科毕业设计 17 (6)如果一个词语的同义词在文

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论