



全文预览已结束
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
2016, 52 (15) 1引言 随着信息技术的高速发展, 越来越多的人在互联网 上发表信息, 也在网上获取信息, 海量的文本数据, 使得 文本信息的挖掘成为研究热点。而分词自然是中文信 息处理最重要的一个部分, 它是信息抽取、 智能问答、 文 本倾向性分析和信息检索等信息处理中最基础的工作, 分词的效率与正确率对下一步工作的进行都有非常大 的影响。 目前主要的分词方法有三种:(1) 基于词典的分词 方法, 又叫机械分词方法, 它是按照一定的策略将待分 的词与一个充分大的词典中的词条进行匹配1-3, 词典的 方法需要高质量的词典支撑, 对未登录词的识别和歧义 问题显然是力不从心。(2) 基于统计的分词方法使中文 分词效果有了显著的进步4, 采用已经切分好的词作为 一个训练语料, 选择不同的模型来学习和解码。文献5-6 建立条件随机场标记模型, 分别引入字概率特征和领域 知识, 提高了分词的准确率, 但是较多的自定义特征也 会影响到建模速度。文献7使用统计方法结合自学习 和协同学习策略, 改善分词自适应性, 但统计方法非常 依赖训练语料的好坏, 过大的训练语料又会造成计算量 过大, 效率低, 而且高质量的训练语料需要人工参与, 耗 费许多的时间和精力。(3) 基于统计与词典相结合的方 法, 文献8-9分别引入汉语拼音表和词表, 文献10-11 将词典作为一个内部的训练语料, 这些方法对不同领域 的分词需要重新训练模型, 并没有解决分词的自适应性 问题。 本文首先通过条件随机场的基本特征模板和自己 定义的特征得到一个初次分词结果, 之后利用领域词典 基于条件随机场的中文领域分词研究 朱艳辉, 刘璟, 徐叶强, 田海龙, 马进 ZHU Yanhui, LIU Jing, XU Yeqiang, TIAN Hailong, MA Jin 湖南工业大学 计算机与通信学院, 湖南 株洲 412007 School of Computer and Communication, Hunan University of Technology, Zhuzhou, Hunan 412007, China ZHU Yanhui, LIU Jing, XU Yeqiang, et al. Chinese word segmentation research based on Conditional Random Field. Computer Engineering and Applications, 2016, 52 (15) : 97-100. Abstract:According to the Conditional Random Field for Chinese word segmentation, the field is hard to adaptive. A combination of CRF and domain dictionary is proposed to improve the field adaptability, and for eliminating ambiguity, this paper uses fixed word collocation, verb dictionary and word probability by the rule of word formation. The experiental results show that this approach improves the accuracy and adaptability of the word segmentation. F value of the segmenta- tion results in computer and medical fields is increased by 7.6% and 8.7%. Key words:Chinese word segmentation; Conditional Random Field (CRF) ; domain adaption; ambiguity resolution; domain segmentation; reverse directional maximum match method 摘要: 针对条件随机场分词不具有良好的领域自适应性, 提出一种条件随机场与领域词典相结合的方法提高领域 自适应性, 并根据构词规则提出了固定词串消解, 动词消解, 词概率消解三种方法消除歧义。实验结果表明, 该分词 流程和方法, 提高了分词的准确率和自适应性, 在计算机领域和医学领域的分词结果F值分别提升了7.6%和8.7%。 关键词: 中文分词; 条件随机场; 领域自适应; 歧义消解; 领域分词; 逆向最大匹配算法 文献标志码: A中图分类号: TP391.1doi: 10.3778/j.issn.1002-8331.1512-0299 基金项目: 国家自然科学基金 (No.61170102) ; 国家社科基金资助项目 (No.12BYY045) ; 湖南省教育厅重点项目 (No.15A049) 。 作者简介: 朱艳辉 (1968) , 女, 教授, CCF高级会员, 研究领域为信息检索, 文本分类; 刘璟 (1991) , 女, 硕士研究生, 研究领域 为中文分词, E-mail: 867274768 ; 徐叶强 (1982) , 男, 硕士, 研究领域为自然语言处理; 田海龙 (1990) , 男, 硕士研究生, 研究领域为数据挖掘, 文本分类; 马进 (1991) , 男, 硕士研究生, 研究领域为智能信息处理, 网络爬虫。 收稿日期: 2015-12-24修回日期: 2016-03-18文章编号: 1002-8331 (2016) 15-0097-04 CNKI网络优先出版: 2016-04-14, Computer Engineering and Applications计算机工程与应用97 Computer Engineering and Applications计算机工程与应用2016, 52 (15) 对结果进行逆向最大匹配, 达到一个校正的效果, 对不 同领域的分词, 只需要增加相应的领域词典, 可极大地 提高条件随机场模型对未登录词的识别, 提高分词的正 确率, 并且也不需要对不同领域训练新的模型, 从而解 决了条件随机场模型和单纯的词典分词适应性差的问 题。针对分词的歧义问题, 提出了固定词串消解、 动词 消解、 词频消解三种方法消除歧义。 2条件随机场 条件随机场 (Conditional Random Fields, CRFs) 是 一种判别式概率模型, 是随机场的一种12。本文采用的 是线性链上的特殊的条件随机场, 称为线性链条件随机 场 (linear chain condition random field) 。在条件概率 模型P(Y|X)中,Y是输出变量, 表示标记序列,X是输 入变量, 表示需要标注的观测序列。学习时, 利用训练 数据集通过极大似然估计或正则化的极大似然估计得 到条件概率模型P(Y|X); 预测时, 对于给定的输入序列 x, 求出条件概率P(y|x)的最大输出序列 y 。 在条件随机场P(Y|X)中, 已有概率公式: P(y|x)= 1 Z(x) exp( ik ktk(yi- 1yixi)+ il lsl(yixi) 公式中,tk和sl是特征函数,k和l是对应的权值。 条件随机场和隐马尔科夫模型 (Hidden Markov Model, HMM) 相比, 它避免了 HMM 的标记偏置问题, 并可以任意选择特征。但是条件随机场由于其巨大的 计算量, 导致其训练效率低, 时间和空间复杂度非常高。 3条件随机场分词 将分词任务转换成条件随机场的标注模型, 根据每 个词中字的位置, 将单个字用 S表示, 多个字的词第一 个字用B表示, 中间字用M表示, 最后一个字用E表示。 3.1基本特征模板 在特征模板选择方面, 使用的是CRF的基本特征模 板, 如表1所示。 3.2自定义字特征 标点和字母等对分词有阻碍, 本文将标点和阿拉伯 数字等用程序标记出来作为自定义的一个特征, 加入到 模型的训练中。 W1: 当前字是标点 (, 、 。 、“、 ” ) 、 ) W2: 当前字是阿拉伯数字 (1、 2、 3) W3: 当前字是大写数字 (一、 二、 三) W4: 当前字是英文字母 (a、 b、 c、 d) W5: 当前字是普通中文汉字 普通模板特征和自定义特征训练的条件随机场分 词模型, 能够很好地分析整体构词规则, 正确切分大部 分的词, 但是对于未登录词会出现歧义切分, 其分词的 准确率受限于训练集的好坏, 不具备良好的领域自适 应性。 4领域自适应的实现 词典对分词有着很大的用处, 通过本文第3章的方 法训练一个高效通用的条件随机场分词模型, 将统计分 词之后的结果再使用领域词典校正, 例如:“近日, 支付 宝宣布推出智能客服。 ” 统计分词结果为:“近日/, /支付/ 宝/宣布/推出/智能/客/服/。 ” , 其未能识别出新词 “支付 宝” 和 “客服” , 利用领域词典对统计分词之后的词块进 行逆向最大匹配, 最后的识别结果为:“近日/, /支付宝/ 宣布/推出/智能/客服/。/” 。这样, 对于不同的领域, 只 需要加载不同的领域词典, 而不需要训练新的模型, 极 大地提高了分词的领域自适应性。 4.1基于Trie树的逆向最大匹配算法 Trie树是一种哈希树变形的树形结构, 可以建立有 效的数据检索组织结构。用Trie树进行文本的检索, 利 用字符串公共前缀来减少查询时间, 最大限度地减少无 谓的字符串比较, 查询效率比哈希树高。 Trie树的逆向最大匹配算法: 输入 统计分词之后的句子Cd1d2dn其中 d是组成句子的词块,D是领域词典。 输出 分词结果。 步骤1 领域词典按照词的长度由大到小排序, 词的 长度用len表示。 步骤2 将C从k处往前切分len长度, 得到字符串 C1,k的初始值为句子长度, 即最末尾开始,len的初始 值为领域词典中最长的词的长度。 步骤 3 将C1的第一个字对应 Trie 树词典的根节 点, 开始一次搜索, 如果找到该字, 则根据该字选择对应 的子树并转到该子树继续进行检索, 当在某个节点处, 所有字被取出, 则读取附在该节点的信息, 完成查找, 跳 转到步骤5, 未找到跳转到步骤4。 步骤 4 如果没有找到,len=len-1, 若len=0, 跳 转到步骤8;len不等于0, 则跳转到步骤2。 步骤5k=k-kk为找到的词的长度, 没找到为1, 基本特征 U00 U01 U02 U03 U04 U05 U06 U07 U08 U09 特征意义 当前字向前第二个字 当前字的前一个字 当前字 当前字的后面一个字 当前字后面第二个字 当前字与前面两个字的三元组 当前字与前一个字和后一个字的三元组 当前字与后面两个字的三元组 当前字与前面一个字 当前字与后面第一个字 表1基本特征模板 98 2016, 52 (15) 跳转到步骤2, 直到k为0, 即句子C遍历完成。 步骤6 输出分词结果。 4.2实现过程 分词过程如图 1所示, 当领域改变时, 只需要改变 领域词典, 也可以根据需求, 增加新的词典, 而不需要重 新训练新的模型。 训练时, 可以使用现在已有的CRF+工具包, 训练 出模型文件model.txt, 这个文件中包含所有的特征和训 练出来的转移函数、 特征函数权值、 特征概率等。用程 序读取该文件, 使用 Viterbi向后解码, 计算每个输出标 签的分数, 得到分词结果 1; 加入领域词典, 使用 Trie树 逆向最大匹配算法校正分词结果 1, 得到最终的分词 结果2。 5歧义消解 条件随机场在分词过程中, 在分析整体构词规则的 同时, 并不能记住一些简单固定的搭配。比如,“找个代 驾师。 ” 正确的划分应该是 “找/个/代驾师/。 ” , 而且这个 搭配应该是稳定的, 并没有其他划分方法, 但是由于在 训练数据中,“代” 作为词尾的概率和 “驾” 作为词头的概 率较大, 所以条件随机场通过解码之后会划分为 “找/个 代/驾师/。 ” 。 所以本文使用双向最大匹配算法13, 找到歧义片 段, 依次使用以下规则来消除歧义。 (1)固 定 词 串 消 解 : 对 已 经 切 分 的 句 子Cc1 c2cn, 其中cn是组成句子的第n个字, 有歧义片段 w =c3c4c5, 设定c1c2为歧义片段的上文信息,c6c7为下 文信息, 如果训练语料中存在Cc1c2c3c4c5c6c7有仅有 一种切分方式, 那么称C为固定词串, 并将歧义片段的 分词改为和训练语料一致。 (2) 动词消解: 对于交集型歧义, 即对于字段w = c1c2c3,c1c2 W且c2c3 W,W为词表, 则称w为交集 型歧义。对于这样的歧义, 根据中文的规则, 如果交 集词的前面的词在动词词典中, 则直接将该词切分为 c1c2/c3, 如果后面的词在动词词典中, 则将该词切分为 c1/c2c3。 (3) 词频消解: 若上面的规则都不能消除歧义, 通过 计算两种分词方式W1c1c2/c3和W2c1/c2c3在训练语料 词典中出现的概率, 选择概率大的作为最后的切分结果。 对于上文提到的歧义句子 “我/想/找/个/代驾/师/。 ” , 若训练集中出现过 “我/好/想/找/个/代驾师。 ” 或者 “帮/ 我/找/个/代驾师/。 ” 等类似句子, 根据固定词串消解方 法, 找到固定词串 “找个代驾师。 ” 则将歧义片段改为与 训练语料一致, 得到正确的分词结果。“菜/的/确切/得/不 错/。 ” 逆向最大匹配是无法识别出歧义片段的, 而本文 的消歧方法使用的是双向最大匹配, 正向匹配得到的结 果是 “菜/的确/切/得/不错/。 ” , 可以找到歧义片段 “的确 切” , 根据动词消解的方法, 得到正确的分词, 并且动词 消解的方法, 还可以解决 “买车/子” 、“大学/生活/得/真精 彩/。 ” 等类似歧义切分。 6实验结果分析 本文使用北京大学计算语言学研究所提供的 人民 日报 标注语料作为训练集, 另外分别人工标注2 000条 计算机领域和医学领域的句子作为领域分词测试集, 表 2和表3是实验结果。 在计算机领域中, 加了领域词典的分词比单纯的使 用条件随机场的分词F值提高了 6.1%, 歧义消解之后 F值提高了7.6%, 结合领域词典与歧义消解, 都能提高 分词的正确率, 究其原因, 领域词典能够识别大部分的 专有名词和未登录词, 校正了统计分词对特定领域分词 的切分错误, 而歧义消解又在此基础上解决了词典逆向 最大匹配未能发现的歧义。 在医学领域中, 使用领域词典使得分词结果的F 值提高了 7.6%, 由于医学领域的测试语料中句子语法 比较严谨单一, 其专业名词比较多, 使用领域词典极大 训练语料待分词句子 特征提取 CRF训练 读取训练 模型结果 Viterbi向后 解码 Trie树词典逆向 最大匹配切分 分词结果1 领域词典 Model.txt 分词结果2 图1条件随机场领域分词系统框架图 模型 条件随机场 条件随机场+领域词典 条件随机场+领域词典+歧义消解 P 0.751 0.822 0.835 R 0.775 0.826 0.843 F 0.763 0.824 0.839 表2计算机领域分词实验结果 模型 条件随机场 条件随机场+领域词典 条件随机场+领域词典+歧义消解 P 0.749 0.822 0.842 R 0.771 0.850 0.852 F 0.760 0.836 0.847 表3医学领域分词实验结果 朱艳辉, 刘璟, 徐叶强, 等: 基于条件随机场的中文领域分词研究99 Computer Engineering and Applications计算机工程与应用2016, 52 (15) 地提高了对专业名词和未登录词的识别, 所以其F值 提升比较大, 在加了歧义消解之后, 与单一的条件随机 场分词方法相比F值提高了8.7%。 将文献11的方法在本文的实验语料上进行分词, 表4给出了结果对比。 由表 4的结果可知, 本文的方法在准确率, 召回率 和F值上都优于文献11的方法, 本文的方法具有更加 良好的领域自适应性。 7结束语 本文提出了一种条件随机场和词典相结合的分词 方法, 利用通用的基本分词特征模板和自定义的特征模 板训练模型, 对统计分词结果使用基于Trie树的逆向最 大匹配算法校正, 并提出三种歧义消解方法消除歧义。 实验结果表明, 本文的方法提高了分词的准确率和自适 应性。针对本文的条件随机场和领域词典结合之后的 分词结果的歧义消解方法还不够丰富, 下一步将重点 研究。 参考文献: 1 莫建文, 郑阳, 首照宇, 等.改进的基于词典的中文分词方 法J.计算机工程与设计, 2013, 34 (5) : 1802-1807. 2 袁健, 张劲松, 马良.二次回溯中文分词方法J.计算机应用 研究, 2009, 29 (9) : 3322-3323. 3 周俊, 郑中华, 张炜.基于改进最大匹配算法的中文分词粗 分方法J.计算机工程与应用, 2014, 50 (2) : 125-127. 4 黄昌宁, 赵海.中文分词十年回顾J.中文信息学报, 2007, 21 (3) : 5-14. 5 Peng Fuchun, Feng Fangfang, McCallum A.Chinese seg- mentation and new word detection using conditional ran- dom fieldsC/COLING 2004, Geneva, Switzerland, 2004. 6 沈勤中, 周国栋, 朱巧明.基于字位置概率特征的条件随机 场中文分词方法J.苏州大学学报, 2008, 24 (3) : 50-54. 7 韩冬煦, 常宝宝.中文分词模型的领域适应性方法J.计算 机学报, 2015, 38 (2) : 273-278. 8 Jiang Huixing, Dong Zhe.A double hidden HMM and a CRF for segmentation tasks with Pinyin s finalsC/Pro- ceedingsofCIPS-SIGHANJointConferenceonChi- nese Language Processing, Beijing, China, 2010: 277-281. 9 Xu Xiaoming.High OOV-recall Chinese word segmenterC/ Proceedings of CIPS-SIGHAN Joint Conference on Chi- nese Language Processing, Beijing, China, 2010: 252-255. 10 Zhao Hai, Huang Changning, Li Mu.An improved Chi- nese word segmentation system with conditional random fieldC/Proceedings of the Fifth Sighan Workshop on Chinese Language Processing, Sydney, 2006: 162-165. 11 蒋建洪, 赵嵩正, 罗玫.词典与统计方法结合的中文分词 模型研究及应用J.计算机工程与设计, 2012 (1) : 387-391. 12 Sutton C, McCallum A.An introduction to conditional randomfieldsR.Foundations and Trends in Machine Learning, 2012: 18-26. 13 陈耀东, 王挺.基于有向图的双向匹配分词算法及实现J. 计算机应用, 2005, 25 (6) : 1442-1443. 方法 文献11方法 本文方法 P 0.761 0.835 R 0.776 0.843 F 0.768 0.839 表4本文与文献11方法的实验对比 17 Zhang D, Shen D.Multi-modal multi-task learning for joint prediction of multiple regression and classifica- tionvariablesin Alzheimer sdiseaseJ.Neuroimage, 2012, 59 (2) : 895-907. 18 Argyr
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 安全月知识试题及答案
- 工业互联网平台计算机视觉技术在航空航天液压系统制造缺陷检测的应用前景报告001
- 安全生产考核试题及答案
- 安全焊接试题及答案
- 农村金融服务创新与农村金融市场竞争策略研究报告001
- 激光祛斑培训课件
- 培训课件通知模板图片
- 中国区域地理复习课课件
- 中国功夫歌唱课件大全
- 左心衰竭临床护理
- 《艺术家心中的自画像》课件
- (2025)汽车驾驶员(技师)考试题及答案
- 2025春季学期国开电大本科《商务英语3》一平台在线形考(综合测试)试题及答案
- 针对越南学生的对外汉语课件设计
- 智能营销传播系统技术需求
- 新大学语文试题及答案
- 2025年农业经理人高级工考试题库(附答案)
- 四川省2024普通高校招生本科二批调档线理科
- 众筹合作协议书范例
- 工厂现场3S管理
- (一模)东北三省三校2025年高三第一次联合模拟考试英语试卷(含答案)
评论
0/150
提交评论