中医问诊语料库的建立、初步加工和词频统计-毕业论文_第1页
中医问诊语料库的建立、初步加工和词频统计-毕业论文_第2页
中医问诊语料库的建立、初步加工和词频统计-毕业论文_第3页
中医问诊语料库的建立、初步加工和词频统计-毕业论文_第4页
中医问诊语料库的建立、初步加工和词频统计-毕业论文_第5页
免费预览已结束,剩余43页可下载查看

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

中医问诊语料库的建立和初步加工中医问诊语料库的建立和初步加工 1 本科毕业论文本科毕业论文 (科研训练、毕业设计) 题题 目:中医问诊语料库的建立、目:中医问诊语料库的建立、 初步加工和词频统计初步加工和词频统计 姓 名: 学 院:软件学院 系: 专 业:软件工程专业 年 级: 学 号: 指导教师(校内): 职称: 指导教师(校外): 职称: 年 月 日 中医问诊语料库的建立和初步加工中医问诊语料库的建立和初步加工 2 中医问诊语料库的建立、初步加工和词频统计中医问诊语料库的建立、初步加工和词频统计 【摘摘 要要】随着现代社会计算机技术的发展,传统中医诊断和现代计算机技术 的结合成为了现代中医发展的一种趋势。中医问诊语料库的建立对实现传统中 医问诊的计算机化有着重要意义。本文介绍了中医问诊语料库建立的意义,语 料库建立、初步加工(分词,属性标注和词频统计)和基于熟语料库的词频统 计的具体实现。 【关关 键键 词词】中医问诊 语料库 分词 标注 词频 中医问诊语料库的建立和初步加工中医问诊语料库的建立和初步加工 3 The Establishment And Primary Processing Of Language Database About Inquiry In Chinese Medicine 【Abstract】 As the development of computer technolgy in modern society, modern Chinese Medicine followed the trend to combinate the traditonal Chinese Medicine with modern computer technology. The establishment of corpus about inquiry in Chinese Medicine is very important to realize the computer-based diagnosis of traditional Chinese Medicine , this article introduces the significance of establishment of corpus about inquiry in Chinese Medicine and detailed realization technique in establishment and primary processing of language database( segment of word , label of word attribute )and Counting of frequency of word. 【Keywords】 Inquiry in Chinese Medicine Corpus Segment of word Label of word attribute Frequency of word 中医问诊语料库的建立和初步加工中医问诊语料库的建立和初步加工 4 目录目录 第一章第一章 引言引言 .5 1.1 汉语语料库的发展现状5 1.2 中医问诊语料库建立的必要性5 1.3 中医诊断语料库的初步加工6 1.4 基于中医诊断熟语料库的词频统计6 第二章第二章 中医问诊语料库建立和加工的技术知识中医问诊语料库建立和加工的技术知识 .6 2.1 语料分词6 2.1.1 基于字符串匹配的分词算法.7 2.1.2 基于概率统计的分词方法.9 2.1.3 基于理解的分词方法.11 2.2 词频统计程序设计算法11 2.2.1.逐字匹配算法12 2.2.2.KMP 算法 12 2.2.3.Boyer_Moore 算法.12 第三章第三章 中医问诊语料库的建立和初步加工的具体实现中医问诊语料库的建立和初步加工的具体实现 .14 3.1 具体步骤14 3.1.1 原始语料库的建立.14 3.1.2 对原始语料的分词和属性标注.14 3.1.3 基于“熟语料“的词频统计.15 3.2 词频统计程序的具体设计16 3.2.1 程序界面.16 3.2.2 程序中涉及到的类和定义的函数.16 3.2.3 程序实现的具体流程.17 第四章第四章 课题成果课题成果 .21 第五章第五章 结束语结束语 .21 致谢语致谢语 .22 参考文献参考文献 .23 中医问诊语料库的建立和初步加工中医问诊语料库的建立和初步加工 5 第一章 引言 1.1 汉语语料库的发展现状 语料库是存储于计算机中并可利用计算机进行检索、查询、分析的语言素 材的总体。基于语料库的分析方法是对传统的基于规则的分析语言的方法的一 个重要补充。语料库具有“大规模”和“真实”这两个特点,因此是最理想的 语言知识资源,是直接服务于语言文字信息处理等领域的基础工程。 汉语语料库顾名思义就是存放汉语材料的仓库。建立大型、国家级现代汉 语语料库是推进我国信息化进程的基础工程。近年来,随着我国经济的快速发 展,科研经费的大量增加,汉语语料库的建设得到开展。国家语委从 1991 年开 始组织建立现代汉语语料库,1993 年国务院批准的国家语委三定方案规定了建 立国家级现代汉语语料库的职能。至此,语料库的建立已经取得较大的成果, 逐步建立了数个国家级,具有较大应用价值的汉语语料库。例如,由国家语言 文字工作委员会主持,组织了语言学界和计算机界的专家学者共同建立的国家 语委现代汉语语料库,该语料库按照通用性、描述性、实用性等原则系统地抽 样选择了 1919-1992 年的现代汉语语言材料 7000 万字,由人文与社会科学、自 然科学及综合三个大类约 40 个小类组成,已经于 2001 年底建成;由北京大学 计算语言学研究所和富士通公司联合开发加工的人民日报标注语料库,该 语料库以 1998 年全年人民日报的纯文本文件为对象,并对原语料库中的生 语料进行分词和属性标注。这些语料库语料的建立之后,广泛地应用于各方面 的科学研究,大大地推动了汉语自然语言处理技术的发展。 1.2 中医问诊语料库建立的必要性 大型国家级语料库的建立在相关的科学研究领域有着巨大的应用价值。但 是,我们也应该看到中国汉语文化传统的丰富性,使得这些现有的通用语料库 在某些较为的特殊的领域的应用受到了限制。 中医是中华民族灿烂文化的重要组成部分,几千年来为中华民族的繁荣昌 盛做出了卓越的贡献。在其漫长的发展过程中,中医问诊逐渐形成了自己一套 独特的问诊方法,积累沉淀了一套丰富的、具有浓郁的民族特色的中医专有词 语。 随着现代社会计算机技术的发展,传统中医诊断和现代计算机技术的结合 成为了现代中医发展的一种趋势。如何使用现代汉语自然语言处理技术来实现 传统的中医问诊计算机化成为现代计算机汉语自然语言处理技术应用的一个热 点,而中医问诊语料库的建立和加工是其中一个不少缺少的部分。在现有通用 的国家级语料库中,中医专有词语的出现频率显然是很有限的,有的甚至没有 中医问诊语料库的建立和初步加工中医问诊语料库的建立和初步加工 6 被收录,这就不能正确反映出中医专有词语在中医问诊过程中的出现频率。现 有的中医问诊语料库寥寥无几,随着传统中医问诊和现代计算机汉语自然语言 处理技术应用结合的日益密切,对中医问诊语料库的应用需求会越来越大。所 以,建立一个中医问诊语料库并对其加工和提取知识是有其应用价值的。 1.3 中医诊断语料库的初步加工 中医问诊语料库要成为名副其实的中医问诊语言知识库,它不能仅仅是所 收集中医问诊语言的简单的样本集合,而要进行从词性、句法、语义等不同层 次的加工,使得“生语料“变成“熟语料“,才能使知识获取成为可能。 对中医问诊语料库来讲,语料加工由浅入深要进行分词、词性标注、句法 分析和语义分析。未经过加工的生语料库通过自动分词系统处理,成为经分词 处理过的语料库;再经过词性标注系统加工,成为词性标注过的语料库;然后 经过句法关系标注环境处理,成为带有句法标注的语料库;最后经过语义关系 标注环境,成为带有语义标注的语料库。上述的每个阶段都是产生新的有用的 语言知识的一个过程。 1.4 基于中医诊断熟语料库的词频统计 中医问诊语料库经过加工成为中医问诊语言知识库之后,我们便可以从中 提取有用的语言知识了。而词频统计就是获取语言知识的很重要的一种方法。 词频统计分为基于“生语料“和“熟语料“的词频统计。然而由于基于生 语料的词频统计本身没有考虑到词语歧义的情况,不能准确地反映出中医专有 词语在中医问诊过程中的出现频率,因而基于生语料的词频统计能提供的语言 知识是极其有限的。只有先对生语料库进行分词、词性标注形成熟语料库,再 进行词频统计,这样才能准确地反映出中医专有词语在中医问诊过程中的出现 频率。在这里,我们主要讨论的是基于熟语料库的词频统计。 中医问诊语料库的建立和初步加工中医问诊语料库的建立和初步加工 7 第二章 中医问诊语料库建立和加工的技术知识 2.1 语料分词 中医问诊语料库和其他的汉语语料库一样,建立之后第一步的加工技术就 是对语料进行分词。分词技术属于自然语言处理技术范畴,对于一句话,人可 以通过自己的知识来明白哪些是词,哪些不是词,但如何让计算机也能理解? 其处理过程就是分词算法。 现有的汉语分词算法可分为三大类:基于字符串匹配的分词方法、基于概 率统计的分词方法和基于理解的分词方法,针对这些分词算法和面临的分词难点, 下面对这些分词算法和分词难点进行简单的介绍。 2.1.1 基于字符串匹配的分词算法 这种方法又叫做机械分词方法,它是按照一定的策略将待分词的汉字串与 一个“充分大的”机器词典中的词条进行配,若在词典中找到某个字符串,则 匹配成功(识别出一个词) 。按照扫描方向的不同,串匹配分词方法可以分为正 向匹配和逆向匹配;按照不同长度优先匹配的情况,可以分为最大(最长)匹 配和最小(最短)匹配;按照是否与词性标注过程相结合,又可以分为单纯分 词方法和分词与标注相结合的一体化方法。最常用的机械分词方法主要是最大 匹配法,包括正向最大匹配法和逆向最大匹配法: 1.1.基本过程:基本过程: 1.1 正向最大匹配算法: 1).从被处理文本中的起点取出不超过词典最大长度的汉字串作为匹配字 段; 2).在词典中查找该匹配字段; 3).如果找到该匹配字段,则切分出一条词,设长度为 n,并后移 n 个字 作为下一分词的起点,再转到步骤(1) ; 4).如果未找到该匹配字段,则去除匹配字段的最后一个字,作为新的匹 配字段,并转到步骤(2) ; 1.2 逆向最大匹配算法: 1).从被处理文本中的终点逆向取出不超过词典最大长度的汉字串作为匹 配字段; 2).在词典中查找该匹配字段; 3).如果找到该匹配字段,则切分出一条词,设长度为 n,并前移 n 个字 作为下一分词的起点,再转到步骤(1) ; 4).如果未找到该匹配字段,则去除匹配字段的第一个字,作为新的匹配 字段,并转到步骤(2) ; 2.2.示例:示例: 2.1 正向最大匹配法的例子 中医问诊语料库的建立和初步加工中医问诊语料库的建立和初步加工 8 S1: “计算语言学课程是三个课时“ S2: “ MaxLen: 5 1).S2=“;S1 不为空,从 S1 左边取出候选子串 W=“计算语言学“; 2).查词表,“计算语言学”在词表中,将 W 加入到 S2 中,S2=“计算语言 学/ “,将 W 从 S1 中去掉,此时 S1=“课程是三个课时“; 3).S1 不为空,于是从 S1 左边取出候选子串 W=“课程是三个“; 4).查词表,W 不在词表中,将 W 最右边一个字去掉,得到 W=“课程是三 “; 5).查词表,W 不在词表中,将 W 最右边一个字去掉,得到 W=“课程是“; 6).查词表,W 不在词表中,将 W 最右边一个字去掉,得到 W=“课程“; 7).查词表,W 在词表中,将 W 加入到 S2 中,S2=“计算语言学/ 课程/ “,并将 W 从 S1 中去掉,此时 S1=“是三个课时“; 8).S1 不为空,于是从 S1 左边取出候选子串 W=“是三个课时“; 9).查词表,W 不在词表中,将 W 最右边一个字去掉,得到 W=“是三个课 “; 10).查词表,W 不在词表中,将 W 最右边一个字去掉,得到 W=“是三个 “; 11).查词表,W 不在词表中,将 W 最右边一个字去掉,得到 W=“是三“; 12).查词表,W 不在词表中,将 W 最右边一个字去掉,得到 W=“是“,这 时 W 是单字,将 W 加入到 S2 中,S2=“计算语言学/ 课程/ 是/ “,并将 W 从 S1 中去掉,此时 S1=“三个课时“; 13).S1 不为空,从 S1 左边取出候选子串 W=“三个课时“; 14).查词表,W 不在词表中,将 W 最右边一个字去掉,得到 W=“三个课 “; 15).查词表,W 不在词表中,将 W 最右边一个字去掉,得到 W=“三个“; 16).查词表,W 不在词表中,将 W 最右边一个字去掉,得到 W=“三“,这 时 W 是单字,将 W 加入到 S2 中,S2=“计算语言学/ 课程/ 是/ 三 / “,并将 W 从 S1 中掉,此时 S1=“个课时“; 17).S1 不为空,从 S1 左边取出候选子串 W=“个课时“.查词表,W 不在词 表中,将 W 最右边一个字去掉,得到 W=“个课“; 18).查词表,W 不在词表中,将 W 最右边一个字去掉,得到 W=“个课“; 19).查词表,W 不在词表中,将 W 最右边一个字去掉,得到 W=“个“,这 时 W 是单字,将 W 加入到 S2 中,S2=“计算语言学/ 课程/ 是/ 三/ 个/ “,并将 W 从 S1 中去掉,此时 S1=“课时“; 20).S1 不为空,从 S1 左边取出候选子串 W=“课时“; 21).查词表,W 在词表中,将 W 加入到 S2 中,S2=“计算语言学/ 课程 / 是/ 三/ 个/ 课时/ “,并将 W 从 S1 中去掉,此时 S1=“; 22).S1 为空,输出 S2 作为分词结果,分词过程结束。 2.2 逆向最大匹配法的例子 S1: “他考上了研究生“ S2: “ MaxLen: 5 1).S2=“;S1 不为空,从 S1 右边逆向取出候选子串 W=“上了研究生“; 中医问诊语料库的建立和初步加工中医问诊语料库的建立和初步加工 9 2).查词表,W 不在词表中,将 W 最左边一个字去掉,得到 W=“了研究生 “; 3).查词表,W 不在词表中,将 W 最左边一个字去掉,得到 W=“研究生“; 4).查词表,W 在词表中,将 W 加入到 S2 中,S2=“研究生/ “,并将 W 从 S1 中去掉,此时 S1=“他考上了“; 5).S1 不为空,于是从 S1 右边逆向取出候选子串 W=“他考上了“; 6).查词表,W 不在词表中,将 W 最左边一个字去掉,得到 W=“考上了“; 7).查词表,W 不在词表中,将 W 最左边一个字去掉,得到 W=“上了“; 8).查词表,W 不在词表中,将 W 最左边一个字去掉,得到 W=“了“; 9).查词表,W 在词表中,将 W 加入到 S2 中,S2=“了/ 研究生/ “,并 将 W 从 S1 中去掉,此时 S1=“他考上“; 10).S1 不为空,从 S1 右边逆向取出候选子串 W=“他考上“; 11).查词表,W 不在词表中,将 W 最左边一个字去掉,得到 W=“考上“; 12).查词表,W 不在词表中,将 W 最左边一个字去掉,得到 W=上“; 13).查词表,W 在词表中,将 W 加入到 S2 中,S2=“上/ 了/ 研究生/ “,并将 W 从 S1 中去掉,此时 S1=“他考“; 14).S1 不为空,从 S1 左边逆向取出候选子串 W=“他考“; 15).查词表,W 不在词表中,将 W 最左边一个字去掉,得到 W=“考“; 16).查词表,W 在词表中,将 W 加入到 S2 中,S2=“考/ 上/ 了/ 研 究生/ “,并将 W 从 S1 中去掉,此时 S1=“他“; 17).S1 不为空,从 S1 右边逆向取出候选子串 W=“他“; 18).查词表,W 在词表中,将 W 加入到 S2 中,S2=“他/ 考/ 上/ 了/ 研究生/ “,并将 W 从 S1 中去掉,此时 S1=“; 19).S1 为空,输出 S2 作为分词结果,分词过程结束。 3.3.所面临的问题:所面临的问题: 3.1 最大词长的确定 词长过短,长词就会被切错,例如:“中华人民共和国“;词长过长,程 序运行效率低。 3.2 掩盖了分词歧义 1).交集型歧义 如果 AB 和 BC 都是词典中的词,那么如果待切分字串中包含“ABC“这 个子串,就必然会造成两种可能的切分:“AB/ C/ “ 和 “A/ BC/ “。这种类型的歧义就是交集型歧义。比如“有意见分歧“,正向最大 匹配法切分结果为:“有意/ 见/ 分歧/ “;逆向最大匹配法切分 结果为:“有/ 意见/ 分歧/ “。 2).组合型歧义 如果 AB 和 A、B 都是词典中的词,那么如果待切分字串中包含“AB“这 个子串,就必然会造成两种可能的切分:“AB/ “ 和“A/ B/ “。这种 类型的歧义就是组合型歧义。比如“个人“就可能造成组合型歧义,我 / 个人/ 和三/ 个/ 人/ 。 在实际得分词过程中经常将上述两种方法相互组合,例如,将正向最大匹 配方法和逆向最大匹配方法结合起来构成双向匹配法。一般说来,逆向匹配的 切分精度略高于正向匹配,遇到的歧义现象也较少。统计结果表明,单纯使用 正向最大匹配的错误率为 1/169,单纯使用逆向最大匹配的错误率为 1/245。但 中医问诊语料库的建立和初步加工中医问诊语料库的建立和初步加工 10 这种精度还远远不能满足实际的需要。实际使用的分词系统,都是把机械分词 作为一种初分手段,还需通过利用各种其它的语言信息来进一步提高切分的准 确率。一种方法是改进扫描方式,称为特征扫描或标志切分,优先在待分析字 符串中识别和切分出一些带有明显特征的词,以这些词作为断点,可将原字符 串分为较小的串再来进机械分词,从而减少匹配的错误率。另一种方法是将分 词和词类标注结合起来,利用丰富的词类信息对分词决策提供帮助,并且在标 注过程中又反过来对分词结果进行检验、调整,从而极大地提高切分的准确率。 2.1.2 基于概率统计的分词方法 从形式上看,词是稳定的字的组合,因此在上下文中,相邻的字同时出现 的次数越多,就越有可能构成一个词。因此字与字相邻共现的频率或概率能够 较好的反映成词的可信度。可以对语料中相邻共现的各个字的组合的频度进行 统计,计算它们的互现信息。定义两个字的互现信息,计算两个汉字 X、Y 的相 邻共现概率。互现信息体现了汉字之间结合关系的紧密程度。当紧密程度高于 某一个阈值时,便可认为此字组可能构成了一个词。这种方法只需对语料中的 字组频度进行统计,不需要切分词典,因而又叫做无词典分词法或统计取词方 法。 1.1.概率统计公式:概率统计公式: P(W/S) = P(S/W) * P(W)/P(S) = P(W); P(W) = P(W1, W2,Wi) = P(W1)*P(W2)*P(Wi); P(Wi) = Wi 在语料库中出现的次数 n/语料库中的总词数 N 累计概率:P(Wi) = P(Wi-1) * P(Wi) 例如:有意见分歧 P(意见) = P(有) * P(意见) P(有) = P(有) 2.2.基本过程:基本过程: 2.1 左邻词 假定对字串从左到右进行扫描,可以得到 W1 ,W2 , , Wi-1 ,Wi , 等若干候选词,如果 Wi-1 的尾字跟 Wi 的首字邻接,就称 Wi-1 为 Wi 的左邻词。比如上面例中,候选词“有”就是候选词“意见”的左邻词, “意见”和“见”都是“分歧”的左邻词。字串最左边的词没有左邻词。 2.2 最佳左邻词 如果某个候选词 Wi 有若干个左邻词 Wj ,Wk , 等等,其中累计概率 最大的候选词称为 Wi 的最佳左邻词。比如候选词“意见”只有一个左邻 词“有” ,因此, “有”同时也就是“意见”的最佳左邻词;候选词“分 歧”有两个左邻词“意见”和“见” ,其中“意见”的累计概率大于“见” 累计概率,因此“意见”是“分歧”的最佳左邻词。 2.3 算法 1).对一个待分词的字串 S,按照从左到右的顺序取出全部候选 W1,W2, ,Wi, ,Wn; 2).到词典中查出每个候选词 的概率值 P(Wi),并记录每个候选词的全 中医问诊语料库的建立和初步加工中医问诊语料库的建立和初步加工 11 部左邻词; 3).按照公式 1 计算每个候选词的累计概率,同时比较得到每个候选词的 最佳左邻词; 4).如果当前词 Wn 是字串 S 的尾词,且累计概率 P(Wn)最大,则 Wn 就 是 S 的终点词; 5).从 Wn 开始,按照从右到左顺序,依次将每个词的最佳左邻词输出, 即为 S 的分词结果。 3.3.示例:示例: S = 有意见分歧,运用概率统计的方法分词过程如下: 1).对“有意见分歧” ,从左到右进行一遍扫描,得到全部候选词:“有” , “有意” , “意见” , “见” , “分歧” ; 2).对每个候选词,记录下它的概率值,并将累计概率赋初值为 0; 3).顺次计算各个候选词的累计概率值,同时记录每个候选词的最佳左邻 词: P(有) = P(有), P(有意) = P(有意), P(意见) = P(有) P(意见), (“意见”的最佳左邻词为“有” ) P(见) = P(有意) P(见), (“见”的最佳左邻词为“有意” ) P(意见)P(见) 4).“分歧”是尾词, “意见”是“分歧”的最佳左邻词,分词过程结束, 输出结果:有/ 意见/ 分歧/。 4.4.所面临的问题:所面临的问题: 4.1 并不能解决所有的交集型歧义问题 例如:“这事的确定不下来” W1= 这/ 事/ 的确/ 定/ 不/ 下来/ W2= 这/ 事/ 的/ 确定/ 不/ 下来/ P(W1)P(W2) 2.1.3 基于理解的分词方法 这种分词方法是通过让计算机模拟人对句子的理解,达到识别词的效果。 其基本思想就是在分词的同时进行句法、语义分析,利用句法信息和语义信息 来处理歧义现象。它通常包括三个部分:分词子系统、句法语义子系统、总控 部分。在总控部分的协调下,分词子系统可以获得有关词、句子等的句法和语 义信息来对分词歧义进行判断,即它模拟了人对句子的理解过程。这种分词方 法需要使用大量的语言知识和信息。由于汉语语言知识的笼统、复杂性,难以 中医问诊语料库的建立和初步加工中医问诊语料库的建立和初步加工 12 将各种语言信息组织成机器可直接读取的形式,因此目前基于理解的分词系统 还处在试验阶段。 此外,未登录识别的词,包括人名、机构名、地名、产品名、商标名、简 称、省略语等等对于各种分词算法来说都一直是个难题,而且这些又正好是人 们经常使用的词,例如在搜索引擎中,分词系统中的新词识别十分重要。目前 新词识别准确率已经成为评价一个分词系统好坏的重要标志之一。 综上述,到底哪种分词算法的准确度更高,目前并无定论。对于任何一个 成熟的分词系统来说,不可能单独依靠某一种算法来实现,都需要综合不同的 算法。 2.2 词频统计程序设计算法 在对原始的中医问诊语料库进行分词、属性标注之后,便可以设计词频统 计程序进行基于熟语料的词频统计了。由于语料库的数据庞大,因此,要在语 料库中检索统计词语的使用频率,在词频统计程序采用一个好的字符串匹配统 计算法就显得极其重要。现有的字符串匹配算法主要有三种:逐字匹配算法; KMP 算法;Boyer_Moore 算法。现在就对以上算法进行简单介绍和比较。 2.2.1.逐字匹配算法 算法让模式串的字符与目标串中的的字符从头逐一进行比较。如果匹配, 则比较模式串中的下一个字符与目标串中的下一个字符;如果不匹配,则将目 标串左移一个字符,从头再进行比较,直至找到该模式串或碰到文件结束为止。 显然,该算法运行效率低。假设模式串长度为 m,目标串长度为 n,最坏情况下, 匹配次数为 O(m*n)。 2.2.2.KMP 算法 这种算法是 D.E.Knuth 与 V.R.Pratt 和 J.H.Morris 同时发现的,因此人 们称为 KMP 算法。其基本思想是:KMP 的主要思路就是,不论何时,只要能够 预测到模式串的不匹配,则可能将搜索模式串右移不止一个位置,然后继续比 较。 假设目标串为“S1S2Sn“,模式串为”P1P2.Pn“,当目标串中第 i 个字符 与模式串中第 j 个字符“失配” (比较不等)时,目标串第 i 字符(i 指针不回 溯)应与模式串中哪个字符再比较? 令当 si! = pj时,si应与 pnextj进行比较。 中医问诊语料库的建立和初步加工中医问诊语料库的建立和初步加工 13 0 , 当 j = 1 时。 Nextj = Max k | 1= 0 ); /字符不匹配或者 pattern 比较完; if ( nowWordPointer = -1 ) increasement = wordLength-1-charInWord; else increasement = wordLength; index = index + increasement; /移动 delta 值; /while 实现流程图: N N N N 熟语料查询熟语料查询 Y Y Y Y Y Y 是否存在查询文件是否存在查询文件 是否存在查询词语是否存在查询词语 (和属性)(和属性) 取出词语的查询文本取出词语的查询文本,将文件中的将文件中的 文本读出成文本读出成 target 字符串。字符串。target 取出词语的查询条件。若是熟语取出词语的查询条件。若是熟语 料料 要价上查询词语的属性。要价上查询词语的属性。pattern 取出查询词语的属性。取出查询词语的属性。 判断查询方式判断查询方式 调用查询函数。生语料调用调用查询函数。生语料调用 Count1();熟语料调用熟语料调用 Count2(). 判断判断 target 和和 pattern 是否比较完是否比较完 输出查询结果输出查询结果 中医问诊语料库的建立和初步加工中医问诊语料库的建立和初步加工 21 N N 比较相等,比较相等,patternpattern 没比较完。没比较完。 第四章 课题成果 1 1.建立了含有一定数量语料的中医问诊语料库。 2 2.参照北京大学的词性标注集(可参见附件“北大汉语文本词性标注标记集 “)对其中的语料进行了分词和词性标注(可参见附件“中医问诊熟语料库 “) 。 3 3.词语频率统计方面,根据 Boyer_Moore 算法,编写了语料统计工具,实现了 基于“熟语料“的词频统计。 确定确定 pattern 指针和指针和 target 指指 针针. 取取 pattern 和和 target 指针所指针所 指字符进行比较,同时左移指字符进行比较,同时左移 pattern 和和 target 指针指针. 判断上述比较是否相等和判断上述比较是否相等和 pattern 是否比较完是否比较完 判断是否匹配判断是否匹配 Num+;delta = 4; 算出算出 delta 值值 根据根据 delta 移动移动 target 指针。指针。 中医问诊语料库的建立和初步加工中医问诊语料库的建立和初步加工 22 第五章 结束语 中医现代化的基础科学问题的一个重要方面是中医诊断技术的信息化问题, 其中关键技术就是中医诊断的智能信息的基础技术研究开发!而为了实现传统 中医问诊的计算机化,建立一个能够提供准确科学数据的中医问诊语料库就显得 极其重要,因此,本课题是有其科学研究意义的。 总结现阶段的工作情况,建立了含有一定数量语料的中医问诊语料库(包括 中医问诊原始语料库和中医问诊熟语料库),编写了词频统计工具,总体来讲正 处于初步阶段,课题工作较为顺利。 然而现阶段工作还存在着以下不足: 1).语料库还不够大,搜集的语料还不够多,只有搜集的语料达到一定数量 才能准确反映中医问诊过程中中医专有词语的使用频率。 2).没有专门面向中医问诊语料库的分词标注程序,在对中医问诊语料的分 词标注速度比较慢,效率不高。 3).用 JAVA 编写的语料统计程序运行效率不高。 展望以后的工作需要做好以下几点: 1).继续搜集中医问诊语料,力求使中医问诊语料库达到一定的字数规模, 这样才能正确反映中医问诊过程中中医专有词语的使用频率。这将是一 项长期的工作。 2).多了解中医的基础知识,使得对中医问诊语料的加工能够更加准确。 3).统计中医专有词语的使用频率,建立词语频率词典,编写专门面向中医 问诊库的分词标注程序,提高分词标注效率。 4).用别的程序语言编写语料统计程序(例如 C+等), 改进程序界面,使 得程序界面更友好,功能更强大,运行效率更高。 致谢致谢语语 首先,应该感谢老师对本课题的关心和帮助,周老师坦诚随和的作风和渊 博的知识给我留下了深刻的印象。 其次,应该感谢陈毅东老师,他给我的毕设课题提供了大量的相关资料并 提出了很好的建议。 谢谢! 中医问诊语料库的建立和初步加工中医问诊语料库的建立和初步加工 23 参考文献参考文献 1辛运玮、杨俊杰、刘培毅、吴拉朵等. JAVA 算法M. 电子工业出版社, 1998. 2姚天顺. 自然语言理解:一种让机器懂得人类语言的研究M. 清华大学出版社,2002 3杨惠中、卫乃兴. 语料库语言学导论M. 上海外语教育出版社, 2002. 4程蕾. 汉语语料库检索系统研究与实现D. 燕山大学, 2002. 5赵斯琴. 蒙古语语料库建设研究与实现D. 内蒙古大学, 2002. 6张国煊. 汉语语料库加工技术J. 杭州电子工业学院学报, 1996, 第 16 卷第 1 期. 7周强. 规则和统计相结合的汉语词类标注方法J. 中文信息学报, 1994. 8詹卫东. 中文信息处理基础讲义. /doubtfire/course/chi nese%20information%20processing/2002_2003_1.htm, 2002. 9中医研究院, 广东中医学院. 中医名词术语选释M. 人民卫生出版社, 1973. 10西安交通大学. 中医词典资料库. /wenx/listzycidianp h.php3. 中医问诊语料库的建立和初步加工中医问诊语料库的建立和初步加工 24 附录附录 1 1 ICTCLAS 分词程序采用的北大汉语文本词性标注标记集: Ag 形语素 形容词性语素。形容词代码为 a,语素代码前面置以 A。 a 形容词 取英语形容词 adjective 的第 1 个字母。 ad 副形词 直接作状语的形容词。形容词代码 a 和副词代码 d 并在一起。 an 名形词 具有名词功能的形容词。形容词代码 a 和名词代码 n 并在一起。 b 区别词 取汉字“别”的声母。 c 连词 取英语连词 conjunction 的第 1 个字母。 Dg 副语素 副词性语素。副词代码为 d,语素代码前面置以 D。 d 副词 取 adverb 的第 2 个字母,因其第 1 个字母已用于形容词。 e 叹词 取英语叹词 exclamation 的第 1 个字母。 f 方位词 取汉字“方” 。 g 语素 绝大多数语素都能作为合成词的“词根” ,取汉字“根”的声母。 h 前接成分 取英语 head 的第 1 个字母。 i 成语 取英语成语 idiom 的第 1 个字母。 j 简称略语 取汉字“简”的声母。 k 后接成分。 l 习用语 习用语尚未成为成语,有点“临时性” ,取“临”的声母。 中医问诊语料库的建立和初步加工中医问诊语料库的建立和初步加工 25 m 数词 取英语 numeral 的第 3 个字母,n,u 已有他用。 Ng 名语素 名词性语素。名词代码为 n,语素代码前面置以 N。 n 名词 取英语名词 noun 的第 1 个字母。 nr 人名 名词代码 n 和“人(ren)”的声母并在一起。 ns 地名 名词代码 n 和处所词代码 s 并在一起。 nt 机构团体 “团”的声母为 t,名词代码 n 和 t 并在一起。 nz 其他专名 (特有的中医名词) “专”的声母的第 1 个字母为 z,名词代码 n 和 z 并在一起。 o 拟声词 取英语拟声词 onomatopoeia 的第 1 个字母。 p 介词 取英语介词 prepositional 的第 1 个字母。 q 量词 取英语 quantity 的第 1 个字母。 r 代词 取英语代词 pronoun 的第 2 个字母,因 p 已用于介词。 s 处所词 取英语 space 的第 1 个字母。 Tg 时语素 时间词性语素。时间词代码为 t,在语素的代码 g 前面置以 T。 t 时间词 取英语 time 的第 1 个字母。 u 其他助词 取英语助词 auxiliary。 Vg 动语素 动词性语素。动词代码为 v。在语素的代码 g 前面置以 V。 v 动词 取英语动词 verb 的第一个字母。 vd 副动词 直接作状语的动词。动词和副词的代码并在一起。 vn 名动词 指具有名词功能的动词。动词和名词的代码并在一起。 w 标点符号。 x 非语素字 非语素字只是一个符号,字母 x 通常用于代表未知数、符号。 y 语气词 取汉字“语”的声母。 z 状态词 取汉字“状”的声母的前一个字母。 附录附录 2 2 中医问诊熟语料库: 身体/n 寒热/n 情况/n 如何/r 呢/y ?/w 恶寒/n 发热/v 、/w 但 /c 寒/ag 不/d 热/ag 、/w 但/c 热/ag 不/d 寒/ag 、/w 寒热/n 往来/v 、/w 喜/v 热/a 还/d 是/v 喜/v 冷/a 呢/y ?/w 恶寒/n 发热/v 是/v 恶寒/n 重/a 、/w 发热/v 轻/ad 还是/v 发热 /v 重/ad 呢/y ?/w 但/c 寒/ag 不/d 热/ag 是/v 新/ad 病/v 恶寒/v 还是/c 久/ad 病/v 畏/vg 寒/n 呢/y ?/w 但/c 热/ag 不/d 寒/ag 是/v 壮热/n 、/w 潮/dg 热/a 还是/v 微 /dg 热/a 呢/y ?/w 寒热/n 往来/v 是/a 无/c 定时/b 还是/c 有/m 定时/b 呢/y ?/w 有/v 没有/d 出现/v 问/v 汗/n 的/u 症状/n 呢/y ?/w 自汗/n 、/w 盗汗/n 还/c 是/a 局部/b 出/v 汗/n 呢/y ?/w 局部/n 哪里/r 出/v 汗/n 呢/y ?/w 全身/n 、/w 头/m 部/q 、/w 半身/n 还是/c 手足/n 呢/y ?/w 出/v 汗/n 的/u 量/n 是/v 多/a 还/d 是/v 少/a 呢/y ?/w 有/v 没有/d 出现/v 疼痛/a 的/u 症状/n 呢/y ?/w 中医问诊语料库的建立和初步加工中医问诊语料库的建立和初步加工 26 哪里/r 疼痛/a 呢/y ?/w 头/n 、/w 胸/ng 、/w 胁/n 、/w 胃脘 /n 、/w 腹/ng 、/w 腰/n 、/w 背/n 还是/c 四肢/n 呢/y ?/w 是/v 什么样/r 的/u 疼痛/a 呢/y ?/w 酸/v 痛/dg 、/w 胀/v 痛 /dg 、/w 闷/v 痛/dg 、/w 刺/v 痛/dg 、/w 冷/v 痛/dg 、/w 灼/ad 痛/v 、/w 固定/ad 痛/v 、/w 游走/ad 痛/v 、/w 隐痛/v 还是/d 绞痛/v 呢/y ?/w 头/n 身/ng 有/v 没/d 有/v 什么/r 不适/a 呢/y ?/w 头晕/v 、/w 目眩/v 、/w 耳鸣/v 、/w 腰/n 酸/v 、/w 口眼歪斜/v 、/w 胸/ng 闷/v 、/w 心悸/v 、/w 胃脘/n 闷/v 胀/a 、/w 腹胀/v 、/w 身/ng 重/a 、/w 乏力/a 、/w 肢体/n 麻木/an 、/w 胁/n 肋/n 肿块/n 、/w 腹部/n 肿块/n 、/w 乳房/n 肿块/n 、/w 腹部 /n 压痛/n 、/w 偏瘫/vn 、/w 肠/n 鸣/vg 还是/v 嗳气/vn 呢/y ?/w 饮食/n 情况/n 如何/r 呢/y ?/w 食欲/n 情况/n 是/v 减退/v 还是/d 亢进/v 呢/y ?/w 口渴/vn 与/c 引水/vn 情况/n 如何/r 呢/y ?/w 口/n 干/v 、/w 多/ad 饮/v 还是/d 口渴/v 不/d 多/ad 饮/v 呢/y ?/w 口味/n 情况/n 如何/r 呢/y ?/w 口/n 淡/an 、/w 口/n 苦/an 、/w 口/q 甜/a 、/w 粘/v 腻/v 、/w 口臭/n 还是/c 恶心/a 呢 /y ?/w 是否/v 出现/v 呕吐/v 的/u 情况/n 呢/y ?/w 呕吐/n 是/v 干呕/v 、/w 清/tg 稀/a 呕吐/n 还是/d 臭/ng 秽/d 呕吐/n 呢/y ?/w 是否/v 会/v 觉得/v 呃逆/an 、/w 嗳气/an 、/w 泛/h 酸/n 还是 /d 嘈杂/a 呢/y ?/w 大便/n 情况/n 如何/r 呢/y ?/w 便秘/v 、/w 痰/n 薄/a 、/w 泄泻/v 、/w 完谷不化/v 、/w 五更泻/n 、/w 水样/n 便/ng 、/w 脓血/n 便/ng 、/w 黑/a 便/ng 、/w 溏/g 结/n 不/a 调/n 还是 /d 秽/d 臭/a 呢/y ?/w 小便/v 情况/n 如何/r 呢/y ?/w 少/a 尿/n 、/w 多/a 尿/n 、/w 余/rg 沥/ng 不禁/d 、/w 遗/vg 尿/n 、/w 夜/tg 尿/n 、/w 尿频/v 、/w 尿/n 急/a 、/w 尿/n 痛/a 、/w 尿/n 清/tg 长/a 、/w 尿/n 黄/nr 、/w 尿血/v 还是/c 尿/n 浊/ag 呢/y ?/w 月经/n 情况/n 如何/r 呢/y ?/w 经/p 量/n 是否/v 出现/v 异常/a 呢/y ?/w 偏/d 多/a 、/w 偏 /d 少/a 、/w 崩漏/v 还是/v 闭经/v 呢/y ?/w 经/p 色/ng 是/v 色/ng 淡/a 、/w 色/ng 红/a 还是/c 紫/a 暗/a 血块/n 呢/y ?/w 经期/t 是/v 提前/vd 、/w 延后/vd 还/d 是/v 不/d 定期/d 呢/y ?/w 是否/v 出现/v 痛经/n 的/u 情况/n 呢/y ?/w 带/v 下/f 情况/n 如何/r 呢/y ?/w 带/v 下/f 颜色/n 是/v 色/ng 白/a 、/w 色/ng 黄/a 还是/c 赤 中医问诊语料库的建立和初步加工中医问诊语料库的建立和初步加工 27 /ag 白/a ?/w 带/v 下/f 是/v 清/ad 稀/a 还是/d 秽/d 臭/a 呢/y ?/w 精神/n 状态/n 如何/r 呢/y ?/w 萎靡/a 、/w 烦燥/a 、/w 抑郁 /a 还是/c 惊恐/a 呢/y ?/w 睡眠/vn 情况/n 如何/r 呢/y ?/w 昏迷/v 、/w 失眠/v 、/w 多/a 梦/n 还是/d 嗜睡/v 呢/y ?/w 面色/n 如何/r 呢/y ?/w 淡白/nr 、/w 苍白/a 、/w 满/a 面/n 通红/z 、/w 颧红/nr 、/w 青紫/nr 、/w 萎黄/a 、/w 晦暗/a 还 是/v 黎黑/a 呢/y ?/w 声息/n 情况/n 如何/r 呢/y ?/w 声音/n 情况/n 是/v 声/ng 高/a 有力/a 还是/c 声/n 低/ad 无力 /v 呢/y ?/w 呼吸/v 情况/n 如何/r 呢/y ?/w 急促/a 喘息/vn 、/w 低微/an 、/w 上气/n 还是/d 少气/n 呢/y ?/w 是否/v 有/v 咳嗽/v 呢/y ?/w 咳嗽/v 是/v 干咳/v 还是/v 咳/v 痰/n 呢/y ?/w 咳嗽/v 是否/v 带/v 痰/n 呢/y ?/w 痰/n 量/n 是/v 多/a 还/d 是/v 少/a 呢/y ?/w 痰/n 的/u 形态/n 是/v 清/tg 稀/a 、/w 粘/v 痰/n 还是/c 泡沫 /n 呢/y ?/w 痰/n 色/ng 是/v 痰/n 白/a 还是/c 痰/n 黄/a 呢/y ?/w 痰/n 中/f 是否/v 带/v 血/n ?/w 血/n 痰/n 的/u 形态/n 是/v 血丝/n 痰/n 还是/c 脓血/n 痰/n 呢/y ?/w 皮肤/n 情况/n 如何/r 呢/y ?/w 甲错/n 、/w 干燥/an 、/w 湿润 /a 、/w 皮疹/n 、/w 水肿/n 还/d 是/v 黄/nr 染/v 呢/y ?/w 头部/n 有/v 没/d 有/v 什么/r 不适/a ?/w 毛发/n 稀疏/a 、/w 眼球/n 突出/a 、/w 巩膜/n 黄/a 染/v 、/w 劲/n 项/n 强/a 直 /a 、/w 齿龈/n 肿/v 痛/dg 、/w 牙齿/n 松动/vn 还是/c 咽喉/n 肿/v 痛/dg 呢/y ?/w 是/v 不/d 是/v 说/v 拉肚子/v 是/a 脾胃/n 不好/a ?/w 那/r 是/v 胃肠/n 有/v 问题/n 。/w 脾/n 和/c 肠/n 的/u 关系/n 是/v 很/d 密切/a 的/u ,/w 所以 /c 中医/n 有/v 补/v 脾/n 益/vg 肠/n 的/u 说法/n 。/w 浮/a 脉/ng ,/w 你/r 的/u 身体/n 有点/d 湿/a 。/w 平常/t 大便/n 情况/n 怎么样/r ?/w 会/v 不/d 会/v 比较/d 烂 /a ,/w 或者/c 是/v 水/n 状/ng ?/w 湿热/n 困/v 在/p 身体/n 内/f ,/w 湿气/n 往/p 上/f 弥漫/v ,/w 湿邪/n 就是/v 弥漫/v 三焦/n 。/w 湿/a 邪/n 困/v 在/p 身体/n 里面/f 就/d 表现/v 出/v 沉重/a 的/u 症状/n ,/w 比如 /v 头/m 重/q ,/w 身/ng 重/v 等等/u

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

最新文档

评论

0/150

提交评论