可扩展统计分词系统的构造.pdf_第1页
可扩展统计分词系统的构造.pdf_第2页
可扩展统计分词系统的构造.pdf_第3页
可扩展统计分词系统的构造.pdf_第4页
免费预览已结束

可扩展统计分词系统的构造.pdf.pdf 免费下载

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

可扩展统计分词系统的构造 金华兴戴新宇陈家骏 南京大学计算机软件新技术国家重点实验室计算机科学与技术系 南京2 1 0 0 9 3 E m a i l j i n h x n l p n j u e d u c n 摘 要 论文从实用的角度出发 在自行开发的一套分词系统的基础上 简要说明了一个分词系统的各个组成部分以及 各部分的处理方法 并提出了一个可扩展分词系统的框架 这个框架具有很好的适应性和灵活性 能够适用于各种不同 的统计方法或者规则统计相结合的方法 该框架也可包容各种未登录词识别的方法 可以作为进一步研究和开发分词系 统的一个基础平台 也可以为构造一个分词系统作指导 关键词分词统计方法可扩展框架 文章编号1 0 0 2 8 3 3 1 一 2 0 0 5 2 3 0 1 7 6 0 3 文献标识码A中图分类号T P 3 1 1 C o n s t r u c t i o no fa nE x t e n s i b l eC h i n e s eW o r dS e g m e n t a t i o nS y s t e m J i nH u a x i n gD a iX i n y uC h e nJ i a j a n S t a t eK e yL a b o r a t o r yf o rN o v e lS o f t w a r eT e c h n o l o g y D e p a r t m e n to fC o m p u t e r S c i e n c e T e c h n o l o g y N a n j i n gU n i v e r s i t y N a n j i n g2 1 0 0 9 3 A b s t r a c t T h ep a p e rp r e s e n t saw a yt oc o n s t r u c tah i g h l ye x t e n s i b l eC h i n e s ew o r ds e g m e n t a t i o ns y s t e ma n dd e s c r i b ea s o f t w a r ef r a m e w o r k w h i c hi sv e r yf l e x i b l e I nap r a c t i c a l l yu s e f u lw o r ds e g m e n t a t i o ns y s t e m p e o p l ea l w a y su s ed i v e r s i t y m e t h o d s T h i sf r a m e w o r kc a nb ea d a p t e dt oa l lk i n d so fm e t h o d s r u l eb a s e d s t a t i s t i c sb a s e do rah y b r i dw a y A n dt h i s f r a m e w o r kcana l s ob ea d a p t e dt o a l lk i n d so fu n k n o w nn a m e e n t i t y r e c o g n i t i o na p p r o a c h e s A u t h o r sa l s og i v e i n s t r u c t i o n so fh o wt oi m p l e m e n ts u c haf r a m e w o r ki nt h i sp a p e r K e y w o r d C h i n e s ew o r ds e g m e n t a t i o n s t a t i s t i c a lm e t h o d e x t e n s i b l e f r a m e w o r k 1引言 分词系统目前已经进行了比较多的研究 然而 真正从零 构造一个实用的分词系统并不是一件轻松的事 任何一个实用 的分词系统都是多种方法多种模型的综合 不可能依赖于一个 单一的模型或者方法完成 近几年来 基于统计的分词方法占 了主要的地位 称为经验主义 本文提出的框架正是基于统计 方法的 本文的目的是提出一个通用的分词系统的框架 该框架具 有很好的可扩展性 可以把多种方法都整合到这个框架中 这 样的一个框架带来以下好处 一是有利于各种模型的比较 从 而找到更好的模型 二是当需求变化时 可以进行局部修改而 不会影响到整体 提高了可重用性 本文首先简要说明了统计分词的基本原理 然后重点讲述 总体框架以及各个组成部分 最后简要地说明了系统具体实现 上的考虑 2 基本原理 从统计思想的角度看 分词问题的输入是一个字串C c C C 输出是一个词串W w l w 甜 其中m s 凡 对于一个特定 的C 会有多个形对应 统计分词的任务就是在这些肜中找出 概率最大的一个 即求形 使得P W I C 的值最大 根据贝叶斯 公式 P W I C 尸 W P C I W P C 其中P C 是固定值 从词 串恢复到汉字串的概率P C I W l 只有唯一的一种方式 由 此求解问题可以变换为 在全切分所得的所有结果中 求得某 个形 使得P 形 为最大 那么 如何来表示P 形 呢 N g r a m 模型是最基本的统计语言模型 用常用的二元模 型来表示P 形 则 P 形 一P 埘1 4 P w 2 1 w 1 4 P 训 I 埘 1 其中对于不同的W m 的值是不一样的 一般来说m 越 大 P 形 会越小 也就是说 分出的词越多 概率越小 这符合 实际的观察 如最长匹配算法就是建立在这个基础上的 所以 我们认为N g r a m 模型中尸 形 较好地反映了实际情况 本文 提出的框架主要是基于这个基础的 3 总体架构 分词系统 特别是高精度的分词系统 其处理过程都是分 阶段进行的 l 各个阶段采用的方法可能相同 也可能不同 而 在同一个阶段也可采用不同的方法 由此 一个可扩展的系统 必须把各个阶段内部的算法封装起来 同时根据不同的需求 也可以灵活地定制阶段之间的衔接 本框架设计的总体思想是 基金项目 国家8 6 3 高技术研究发展计划项目 面向奥运的多语言信息服务系统 编号 2 0 0 2 A A l l 7 0 1 0 0 4 资助 1 7 62 0 0 5 2 3 计算机工程与应用 略弗赤薹 I 缸恭誊信蒂 I 与带 I 库恭 j 据恭鞋数举 籼齐 万方数据 把系统分成几个相对独立的模块 精确定义模块的接口 尽量 使各个模块之间的耦合减少到最小 架构应该是和具体的程序 设计语言无关的 从功能角度来划分 结构如图1 所示 图1 系统总体结构 除了主驱动模块之外 其他各个模块之问都是互不依赖 的 这样有利于每个模块进行独立的演变 在本框架中 原子串和分词图是主要的数据结构 原子是 不可分割的最小单位 如一个汉字 原子串是原子的一个有序 序列 原子串是后续分词的最原始的输入 相当于编译系统中 的T o k e n 分词图是各个模块接口之间主要的数据结构 分词图的节 点为原子串的序号 代表了一个原子 分词图的每条边代表一 个词 由此可以把所有可能的词都在分词图上表示出来 分词 图上的一条路径就表示一种切分方法 分词就是找出分词图中 最合适的一条路径 分词图有如下特性 1 分词图有唯一的起始节点 代表句首原子 和终止节点 代表句尾原子 起始节点只有出弧 终止节点只有入弧 2 分词图的边总是序号小的节点指向序号大的节点 关于分词图的说明还可以参考文献 2 下面说明各个模块的功能 1 原子串构造 该模块的作用是构造原子串 原子串的构 造分成两个步骤 一是如何把输入的文本分割成一个个待切分 句子 可以用任何标点符号作为分割符 也可以只用句号 逗 号 问号等作为分割符 而把引号 书名号等作为上下文信息保 留到原子串中 原子串的长度对系统的性能有很大的影响 长 度越长 性能越差 二是把待切分句子分成原子串 这依赖于原 子的种类 2 基本词识别 该模块的作用是识别出基本的词 一般将 字典中定义的词作为基本词 处理的一种方法是 把字典中出 现的所有词依次加到分词图 此时单个的汉字也是作为一个 词的 这个方法比较简单 但是会大大增加分词图的边数 降 低系统性能 另一种方法是采用基于规则的消歧方法之后 再 把词加入到分词图 这提高了系统的性能和精确度 依赖于规 则的消歧能力 采用这种方法时 可以使用一阶段驱动策略 见图3 3 基本类识别 该模块的作用是识别出时间 日期 数字 等 因为这些词类识别方法主要采用基于规则和模板的方法进 行 而且正确率比较高 所以作为一个模块 另外重叠词的处理 1 也作为基本类识别的一部分 重叠词的特殊之处在于其词类的 符号表示就是原始表示 在这里需要说明的是关于词的分类 在本框架中 因为不 同的应用对未登录词的分类有不同的要求 不同的分词系统也 对未登录词有不同的定义 所以未登录词的类别是可以扩充 的 每个词类有一个符号表示 符号表示是一个字符串 该字符 串不构成任何字典中定义的词 数字 时间 日期 人名 地名分 别表示为 符号表示使得未登录词和字典中定义的词可以采用相同 的方法进行处理 4 N 元模型处理 该模块进行N 元模型的处理 找出最好 的切分结果 或者最好的几个切分结果 我们的系统中采用的 是二元模型 但是框架本身并不对模型作限制 5 名字实体识别 该模块进行人名 地名的识别 因为这 几个词类的识别采用的方法差不多 所以作为一个模块 当然 也可以分开处理 我们的系统中实现的是基于角色的名字识别 方法p 但是框架本身并不对此作限制 6 其他消歧处理 该模块为可选模块 用于处理用统计模 型很难处理好的一些消歧 比如组合歧义的处理等 7 筛选 该模块分析所有的分词结果 选择其中最好的一 个 该模块为可选模块 这依赖于所采用的驱动策略 评价的方 法可能是和所采用的N 元模型有关 也可以无关 8 主驱动 该模块驱动整个分词过程 可以采用不同的策 略来进行 不同的策略有不同的复杂度和精确度 不同的应用 采用不同的驱动策略 为了提高系统的召回率 粗分阶段也可 以输出多个粗分结果 4 实现考虑 下面对第3 节中给出的分词系统框架中某些模块的实现 进行介绍 4 1原子串 因为原子串是最原始的输入 所以必须保证原子划分的正 确性 至少分成以下几类原子 句首 句尾 普通汉字 阿拉伯数 字串 外文字符串等 其中旬首和句尾是位置原子 代表一个待 切分的头部和尾部 原子串中的每个原子都有一个序号 序号 从O 开始 其中0 序号是 原子 最后一个原子是 原子串A t o m L i s t 的接口如下 I N T E R F A C EA t o m L i s t i n tG e t T y p e i n ti n d e x 产原子的类型 S t r i n gG e t S t r i n g i n ti n d e x 产原子的符号表示 S t r i n gG e t R a w S t r i n g i n ti n d e x 半原子的原始串 i n tG e t S i z e 产原子串长度 原子的原始串是指在待切分句子中的原始出现 原子串的 符号表示是该原子作为一类词时的字串方式表示 其中汉字原 子的字符表示即为汉字本身 句首 句末 阿拉伯数字串的符号表示分别为 4 2 分词图 分词图的接口如下 I N T E R F A C EW o r d G r a p h 计算机工程与应用2 0 0 5 2 31 7 7 万方数据 v o i dA d d E d g e i n tS r C i n td e s t O b j e c tv a l u e 严增加一条边 v o i dR e m o v e E d g e i n ts r c i n td e s t 幸删除一条边4 b o o l e a nH a s E d g e i n tS I C i n td e s t 产判断是否存在边 O b j e c tG e t E d g e V a l u e i n tS I C i n td e s t p 获取边的值 v o i dS e t E d g e V a l u e i n ts r c i n td e s t O b j e c tv a l u e 牛设置边的值 i n t G e t N e x t V e r t i c e i n tv e r t e x p 返回v e l t e x 所有的后续节点 i n t G e t P r e v i o u s V e i t i c e i n tv e r t e x 产返回v e r t e x 所有的前驱节点 i n tG e t S i z e 木节点数 分词图的边值为一个二元组 该词或者词类 出现的概 率 举个例子 设待分割句子为 我9 9 年7 月毕业 那么原子 串为 0 1 我 2 3 年 4 5 月 6 毕 7 业 8 1 在基本词识别中 首先 每个原子作为一个词加入到分词图 然后 毕业 作为一个字典 中定义的词加人 即调用A d d E d g e 6 8 1 0 在 基本类识别中把 9 9 年7 月 作为日期加入到分词图A d d E d g e 2 6 1 0 分词的结果是图的一条路径 可表示为一个L i s t 其中每 个元素为一个二元组 第一个字在原子串中的索引 最后一个 字在原子串中的索引 分词图的实现可以采用连接表的方式实现 1 原子串构造 A t o m L i s t B u i l d e r 提供的接口 A t o m L i s tG e t N e x t A t o m L i s t 返回下一个待处理的原子串 当返回空时 表示处理结束 2 基本词识别 B a s i c W o r d R e c o g n i z e r 提供的接1 3 v o i dR e c o g n i z e A t o m L i s ta t o m L i s t W o r d G r a p h w o r d G r a p h 输入原子串 把识别出的词加入到分词图中 即调用 W o r d G r a p h A 冽魄e 3 基本类识别 B a s i c C l a s s R e c o g n i z e r 提供的接口 v o i dR e c o g n i z e A t o m L i s ta t o m L i s t W o r d G r a p h w o r d G r a p h 输入原子串 把识别出的词加入到分词图中 即调用 W o r d G r a p h A d d E d g e 4 N 元模型处理 N g r a m P r o c e s s o r 提供的接1 3 L i s t P r o c e s s W o r d G r a p hw o r d G r a p h i n tr e s u l t C o u n t 输入分词图w o r d G r a p h r e s u h C o u n t 表示需要返回的结果 个数 其中返回的结果为一个L i s t 的数组 每个L i s t 中存放一个 分词结果 见分词图说明 其中的分词结果是按照模型计算的 值进行排序的 5 名字实体识别 N a m e E n t i t y R e c o g n i z e r 提供的接口 v o i dR e c o g n i z e A t o m L i s ta t o m L i s t L i s tr o u g h R e s u l t W o r d G r a p hw o r d G r a p h 输入原子串和粗分结果 将识别出的名字加到分词图中 6 其他消歧处理 1 7 82 0 0 5 2 3 计算机工程与应用 提供的接1 2 1 v o i dD i s a m b i g u a t e A t o m L i s ta t o m L i s t W o r d G r a p hw o r d G r a p h 输入为原子串 根据一定的规则修改分词图 例如调用 W o r d G r a p h R e m o v e A d g e 进行组合歧义的消除 7 筛选 S i z e r 提供的接口 L i s t S i e v e A t o m L i s ta t o m L i s t L i s t r e s u l t s 输入为原子串和多个分词结果 输出最好的一个分词结 果 8 主驱动 M a i n 一个典型驱动过程如图2 所示 其中虚线中部分称为粗分 阶段 所以这个策略称为两阶段策略 如果粗分阶段输出了多 个结果而最终结果只要一个时 用筛选器作为最后的处理 图2两阶段驱动策略 另一个驱动策略称为一阶段驱动 如图3 所示 在基本词 识别C B a s i e W o r d R e c o g n i z e r 阶段采用规则消歧处理后 可以采 用这种策略 图3 一阶段驱动策略 5 总结与进一步工作 本框架最大的特点就是可扩展性和包容性 可以适应各种 不同的方法 并且与具体的程序设计语言无关 另外 由于N 元模型本质上是一种消歧方法 即使不采用这个模型而用另外 基于规则的方法框架也仅需要做比较小的改动 目前 框架已 经基本完成 后续的工作是尝试各种新出现的方法 并进行比 较和验证以优化这些方法 收稿日期 2 0 0 5 年3 月 参考文献 1 赵铁军等 提高汉字自动分词精度的多步处理策略叨 中文信息学报 2 0 0 2 1 6 5 2 张华等 基于N 一最短路径方法的中文词语粗分模型叨 中文信息学报 2 0 0 1 1 5 1 3 H u a P i n gZ H A N G N a m e dE n t i t yR e c o g n i t i o nU s i n gR o l eM o d e l J C o m p u t a t i o nL i n g u i s t i c sa n dC h i n e s eL a n g u a g eP r o c e s s i n g 2 0 0 3 8 2 4 赵伟等 一种规则与统计相结合的汉语分词方法叨 计算机应用研究 2 0 0 4 2 1 3 5 姚天顺等 自然语言理解一一种让机器懂得人类语言的研究 M 第二 版 清华大学出版社 2 0 0 2 1 0 万方数据 可扩展统计分词系统的构造可扩展统计分词系统的构造 作者 金华兴 戴新宇 陈家骏 Jin Huaxing Dai Xinyu Chen Jiajun 作者单位 南京大学计算机软件新技术国家重点实验室 计算机科学与技术系 南京 210093 刊名 计算机工程与应用 英文刊名 COMPUTER ENGINEERING AND APPLICATIONS 年 卷 期 2005 41 23 引用次数 0次 参考文献 5条 参考文献 5条 1 赵铁军 提高汉字自动分词精度的多步处理策略 2002 5 2 张华 基于N 最短路径方法的中文词语粗分模型 2001 1 3 Hua Ping ZHANG Named Entity Recognition Using Role Model 2003 2 4 赵伟 戴新宇 尹存燕 陈家骏 一种规则与统计相结合的汉语分词方法 期刊论文 计算机应用研究 2004 3 5 姚天顺 自然语言理解 一种让机器懂得人类语言的研究 2002 相似文献 9条 相似文献 9条 1 学位论文 王昕 汉语自动分词和词性标注研究 2002 该文对自动分词和词性标注的模型和方法进行了研究 首先分析了分词词典的各种组织结构和相应的性能 介绍了常用的自动分词方法 接着对自动分 词中的难点歧义切分字段进行了分类 并分析了处理歧义字段的各种统计方法 接着对自动分词中的难点歧义切分字段进行了分类 并分析了处理歧义字段 的各种统计方法 指出了用统计方法能够处理的歧义字段的范围 然后讨论了词性标注的模型和方法 给出了将分词和词性标注一体化的原因和意义 最后 设计并实现了用统计方法进行歧义切分字段处理和词性标注的算法 该文从一个已经经过词性标注的语料库入手 在二元语言模型下 利用相对频率训练方 法 RelativeFrequencyTraining 获得模型的参数 将实现的算法加入到一个原始的自动分词系统中 并用改进后的系统对文本进行了测试 测试结果表 明改进后的系统和原系统相比 处理歧义字段的能力有了显著的改善 词性标注的正确率从初始的65 5 提高到93 3 2 学位论文 陈宏彦 规则和统计相结合的分词算法 2007 我们已经进入一个信息革命的新时代 这个信息时代的显著特点是计算机在人类生活的各个方面 起着越来越大的作用 自然语言是人们最重要的 交际工具 它与信息处理有着十分密切的关系 在书面汉语中 词在句中没有显式的标记 因此 理解汉语的首要任务就是把连续的汉字串分割成词的 序列 即自动分词 目前大多数分词研究都完全依赖计算机完成切分工作 不希望人工介入 但其结果往往不尽如人意 因为计算机要想 准确切分文本 就一定要建立在对文本语义理解的基础之上 而要想让计算机能够理解中文语义 则首先要进行分词 不难理解 陷入这样的循环之中 是很难得到理想的切分结果的 作者在本文中提出了一种新的规则与统计相结合的分词方法 本方法的新颖之处在于 解决了理解与切分孰先 孰后的两难问题 通过人工介入来选择特定领域词库 从而缩小了规则匹配的范围 提高了词库与待切分语料的匹配度 在此基础上 优先采用规则方 法初分语料 最后使用统计方法对已切分的语料进行进一步处理 由于本实验的核心目的是为证明经过人工介入选择特定领域词库 会使规则与 统计相结合的方法对文本的切分准确率明显提高 所以 作者采用了最有代表性的正向最大匹配的规则切分方法和切分准确率较高的md统计切分方法 分别使用规则切分 统计切分以及规则与统计相结合的方法处理相同语料 并对切分结果进行统计分析 实验用到的词库关键在于分类合理 内容准 确以及符合实际 作者经过认真地总结和细心的整理 完成了词汇的归类和遴选的工作 包括地名 区划 计算机 俗语 动漫游戏 人名 网络新词 以及各学科术语等等共25个专业领域词库 均采用文本文件格式保存 实验所用语料是 中国计算机 报 产品与应用 栏目的1423篇文章 txt格式 为数据源建立语料库 不计空格 共含中文 英文及标点156 453个 其中 中文字符数为123 764个 经过具体实验验证 将上述两种分词方法通过 新方法结合后 对语料的切分精度明显高于单纯使用规则或统计方法的精度 3 学位论文 彭学政 基于统计方法的中文命名实体识别与关系抽取 2008 随着计算机的广泛应用和互联网技术的迅猛发展 社会的信息总量呈指数级增长 面对信息爆炸带来的挑战 亟需一些智能化的工具来帮助用户获 取真正有用的信息 信息抽取正是在这种背景下提出的 并已经成为当前研究的一个热点问题 信息抽取的主要目的是将无结构或者半结构化的文本转 化为结构化的信息 其研究任务可分为 命名实体识别 实体关系抽取 指代消解和事件探测这四个主要研究点 本文针对中文信息抽取当中的命名实 体识别和实体关系抽取技术展开研究 主要的贡献有如下几点 1 提出了一种外部词典与统计相结合的汉语分词方法 该方法利用外部词典来改 进 由字构词 的汉语分词方法 既保留了传统词典分词方法对词典词的处理精度高的优点 又具有统计方法汉语分词方法在未登录词处理上的优势 有效地提升了对词典词的处理能力 从而地提高了汉语分词的整体性能 同时 该方法只需要在较小的标注语料库上训练 就能获得令人满意的分词 结果 从而减轻了统计方法对于标注语料库的依赖性 2 尝试了专家知识与机器学习相结合的中文命名实体识别方法 针对现有命名实体识别方 法的不足 本文采用了比最大熵马尔可夫模型 MEMM 更加优越的条件随机场模型 CRFs 作为机器学习的主要框架 通过利用人名 地名和机构名的构成 规则等专家知识 以及人名姓氏和名字常用字列表 地名常用后缀列表 机构名常用后缀列表等词典资源来辅助机器学习 提高了命名实体识别的准确 率和召回率 3 研究了一种面向主题的实体关系抽取方法 提出利用依存句法分析的结果树来计算两个命名实体之间的 语法距离 削弱了汉 语当中修饰语在计算实体之间的距离时的干扰作用 提高了关系抽取的准确率 同时 本文还结合词性 词在文字窗口中的位置 词之间的依存关系等 信息来进行关系描述词语的抽取 从而能够自动为所抽取的实体关系对赋予较为准确的标签 4 在以上研究成果的基础上 设计并开发了一个实 用的关系抽取模块 应用于互联网舆情监测系统 取得了很好的实际应用效果 4 学位论文 张旭 一个基于词典与统计的中文分词算法 2006 本文重点介绍了一个基于字符串匹配与基于统计相结合的中文分词方法 解决了一定条件下的人名 地名 数量词等未登录词以及交集型歧义和自 然语言的二义性引起的歧义等问题 本文的算法首先对待分词的字符串进行断句 优先在待分词的字符串中识别和切分出标点符号 以这些符号作为断点 可将原来的字符串分解为较小的串再进基于字符串匹配的分词 从而减少匹配的错误率 然后对断句结果运用正向和逆向最大匹配算法依次进行分词 处理 再对处理结果进行比较 如果分词结果不同则表明可能存在歧义 就采用基于统计的方法进行歧义处理 从而提高了分词的准确率 本文 设计的算法在两个方面进行了改进 首先是在分词词典方面 将原来单一的词典分为基本词典和特征词词典两个部分 改进了基本分词词典在内存中的 存储结构 根据汉语中两字词的数量最多的特点和哈希索引表查找效率高的特点 采用了双字哈希索引结构将词典中的词按前两个字为索引关键字进行 存储 同时改进了剩余字串的存储方式 将词剩余字串按词长逆序存放 提高了匹配查找的速度 在匹配过程中结合特征词词典对歧义进行探测和处理 提高了机械分词的准确率 大大提高了对姓名 地名和数量词的正确切分率减少这些词所引起的歧义数量节省了歧义处理时间 提高了分词速度 其 次是在统计分词方面的改进 本算法中利用统计方法处理未登录词和歧义 统计方法的最大缺点就是要求字串要在待分析的字符串中出现一次以上 所 以基于统计的分词方法的分全率和准确性比较低 针对这一缺点在歧义处理上 我们加入了一些对汉语语言分析所得的规则 来弥补单纯的统计分词方 法的不足 本文采取的歧义处理算法是统计与规则相结合的复合歧义处理算法 结合了根据大量语料统计所得的若干规则 以及语言学的一些知识 同 时考虑了语言环境在歧义处理上的重要作用 歧义消解结果比较理想 在一定程度上提高了分词的准确性 5 学位论文 罗智勇 面向应用的词语处理技术 2006 词语处理技术是基于词一级中文信息处理应用的重要基础 也是中文信息处理技术的瓶颈 词语处理首先需要解决的是词语切分问题 目前自动分 词系统性能 在歧义切分处理方面已经达到了较高水平 但未登录词识别性能仍有待进一步提高 同时 随着可获得的语料库规模不断扩大和统计方法 的兴起 词汇级统计语言模型方法在语音识别 语音合成 机器翻译等领域得到了广泛应用 其中以n元文法最具有代表性 如何有效的缓解统计方法所 固有的数据稀疏问题 提高词语线性邻接关系 n gram 的统计精度是词语处理技术所面临的另一个难点 本论文依上述两个问题依次展开 首先 在原有自动分词系统的基础上 根据人的认知规律 提出了基于可信度的人名识别方法 同时提出和实现了一个基于多特征集成的新词语发现方法 研 究了基于线性邻接特征的词语上下文分布相似性计算方法及其数据平滑处理策略 并介绍了该策略在计算机辅助校对系统中的应用 论文的主要内容和 创新成果体现在以下几个方面 1 面向应用的歧义切分技术 歧义切分技术是中文自动分词系统的关键技术之一 特别是在现代汉语通用分词系 统 GPWS 中 允许用户动态创建词库 允许多个用户词库同时参与切分 这给歧义切分技术提出了更高的实用性要求 本文从大规模的真实语料库中 考察了歧义 特别是交集型歧义 的分布情况和特征 提出了一种 正向最大匹配 回退一字 的交集型歧义字段发现算法 并且针对于不同类型的交集 型歧义字段进行了统计分析 综合叙述了GPWS中 规则 例外 的3级实用消歧策略 包括元分词规则 不同类型歧义字段的处理规则 以及基于实例的 歧义字段标注方法和动态校正算法 本文对1亿字 人民日报 语料 约234MB 中的交集型歧义字段进行了穷尽式的抽取 并随机的对上述策略进行了开 放性测试 正确率达99 2 基于分辨模型的人名识别可信度方法 专名识别技术是影响中文自动分词精度的一个重要方面 也是自动分词技术 的难点之一 本文在有关专名的语言事实基础上 论证了专名识别中分辨模型优于生成模型 并基于分辨模型的原理 说明人名用字特征的属性值的应 是词表匹配后的落单字的频率 而不是文本中的原始字频 提出了一整套的人名识别用字特征 提出了基于分辨模型的人名识别可信度计算公式 该公 式与分词排歧方法合在一起 形成了实用高效的分词技术 同时给出了一个基于自举学习 Bootstrapping 的模型训练方法 克服了人工标注语料库规模 的限制 从我们对 人民日报 1998年1月 2000年12月 共约379万字 语料的测试结果来看 基于可信度的人名识别方法比传统的概率估值方法识别效 果有一定的提高 3 多特征集成的新词发现方法 目前大多数分词系统仅仅针对于新闻语料进行训练和测试 因而对于新闻语料的处理性能表现 突出 但在其它特定专业领域 小说等白话文中的切分性能却大幅下降 大量存在专业术语 缩略语 以及作者生造的词语等等 给目前的分词系统带 来了很大的困难 极大的影响了自动分词系统的性能和可移植性 本文提出和实现了一种基于多特征集成的新词发现方法 综合考虑被处理文本中重复 字串的上下文统计特征 上下文熵 内部耦合特征 似然比 背景语料库对比特征 相关频率比值 以及自动分词系统辅助的边界确认信息等等 提出 一种多特征集成和模型自适应训练方法 自动从被抽取文本中选择模型的训练例 包括正例和负例 训练相应的SVM分类器 把多个统计特征统一到一个 模型框架下 对候选新词语进行二值分类 克服了传统统计方法中 必须借助于人工标记语料库训练 以决定多特征之间的权重系数和阈值问题 同时 也避免了人工标记语料库与被抽取文本之间的差异所带来的训练误差 新词抽取过程在字串PAT Array数据结构上进行 实验表明 该方法新词发现速度 快 省存储 可以作为自动分词系统的有益补充 4 基于上下文分布的词语相似性计算方法和数据平滑处理策略 统计方法在自然语言处理的多 种应用中取得了令人瞩目的成果 但数据稀疏问题限制了应用系统性能的提高 把统计单位由词提升到词类有助于缓解数据稀疏问题 但是传统的词类 体系并不能反映词语在线性邻接 n gram 特征上的相似关系 而且这种相似关系不能用作分类原则 因为它不满足传递性 传统的基于回退 back off 和线性插值方法在一定程度上缓解了数据的稀疏 但它的本质是降低阶数 并未从根本上解决问题 反而加重了低概率事件被忽略的副作用 本文 提出了一种解决方案 对于每个词 根据其在大规模语料库中的上下文分布特征 建立以该词为核心的相似词集合 用相似词的ngram估计核心词的 ngram 本文介绍了相似词集合的确定方法 给出了基于相似词集合的低概率事件的估计方法 考察和分析了汉语词语中的 同形异质 问题 以及汉语 词语邻接关系的特点 如 汉语韵律问题等 提出了对单字词和多字词区别对待的观点 即 单字词只与单字词相似 多字词只与多字词相似 同时只 对多字词和低频单字词进行相似词语替换 针对于统计方法中所关注的词语线性连接特征和应用目标需求 使用词语在大规模语料库中左右紧邻的 bigram分布作为词语的属性特征 并以此基础度量词语之间的相似性 改进了原有IRad距离计算公式 引入了词语分布同一性系数 克服了在IRad距离 计算公式中 具有强势接续特征的高频词语和极低频词语的虚假相似问题 使用基于词语分布相似性计算方法改进了计算机辅助校对系统词语接续关系 模型 取得了较好的效果 本文的工作立足于词语处理层面 研究成果可以用于提高目前自动分词系统以及词汇级统计语言模型的精度 从而进 一步提高基于词一级中文信息处理应用的性能 6 学位论文 孙国英 文本挖掘技术研究及应用 2001 该文的主要内容如下 首先阐述了Web挖掘的定义 挖掘任务的分类 Web文本挖掘

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论