(信号与信息处理专业论文)产品评价对象的提取与分析.pdf_第1页
(信号与信息处理专业论文)产品评价对象的提取与分析.pdf_第2页
(信号与信息处理专业论文)产品评价对象的提取与分析.pdf_第3页
(信号与信息处理专业论文)产品评价对象的提取与分析.pdf_第4页
(信号与信息处理专业论文)产品评价对象的提取与分析.pdf_第5页
已阅读5页,还剩48页未读 继续免费阅读

(信号与信息处理专业论文)产品评价对象的提取与分析.pdf.pdf 免费下载

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1,l,f簪 i y i i l l l 7 l 1 5 1 1 9 1 1 1 l l o l l l 1 1 l l 独创性( 或创新性) 声明 本人声明所呈交的论文是本人在导师指导下进行的研究工作及取得的研究 成果。尽我所知,除了文中特别加以标注和致谢中所罗列的内容以外,论文中不 包含其他人已经发表或撰写过的研究成果,也不包含为获得北京邮电大学或其他 教育机构的学位或证书而使用过的材料。与我一同工作的同志对本研究所做的任 何贡献均已在论文中作了明确的说明并表示了谢意。 申请学位论文与资料若有不实之处,本人承担一切相关责任。 本人签名: 趱鬯釜= 日期: 2 1 翌:墨:! j 关于论文使用授权的说明 学位论文作者完全了解北京邮电大学有关保留和使用学位论文的规定,即: 研究生在校攻读学位期间论文工作的知识产权单位属北京邮电大学。学校有权保 留并向国家有关部门或机构送交论文的复印件和磁盘,允许学位论文被查阅和借 阅;学校可以公布学位论文的全部或部分内容,可以允许采用影印、缩印或其它 复制手段保存、汇编学位论文。( 保密的学位论文在解密后遵守此规定) 保密论文注释:本学位论文属于保密在一年解密后适用本授权书。非保密论 文注释:本学位 本人签名: 导师签名: 适用本授权书。 日期: 2 1 ! :墨:( 刍 r 期:丝坐:乏f 雯 1 0 , 秽 互联网时代 品评价信息不仅 且这些直接来自 更好的了解自己 处理这海量的产 技术为使用机器 产品评价对象的提取与分析的方法主要分为有监督的机器学习 方法、半监督的机器学习算法、无监督的机器学习算法。其中半监督 的机器学习算法由于其兼顾了较高的准确率与较少的标注实体受到 了当前主流科研方法的青睐,本文针对半监督的机器学习算法 b o o t s t r a p p i n g 提出了一种新的产品评价对象提取算法 m s g a b o o t s t r a p p i n g ,并且在无监督的机器学习算法上做出了一点尝 、上 讽。 本文提出了一种全新的半监督的机器学习算法 m s g a b o o t s t r a p p i n g ,该算法只需要给定一个领域内非常少量的种子 词与该领域的一部分未标注语料即可实现提取该领域产品评价对象 的目的。本文并以m s g a b o o t s t r a p p i n g 算法为核心建立了产品评价 对象的提取与分析系统。实验表明,论文中提出的算法能够比较有效 的解决产品评价对象的提取与分析这一课题。 关键词:产品评价对象半监督算法m s g a b o o t s t r a p p i n g r e s e a r c ho ne x t r a c t i o np r o du c te v a l u a t i o nf e a t u r ea n d a na l y s i s l a b s t r a c t w i t ht h ea d v e n to ft h ei n t e r n e ta g e ,t h en e t w o r kg e n e r a t e sal o to f p r o d u c t e v a l u a t i o ni n f o r m a t i o n t h i si n f o r m a t i o nn o t o n l yp r o v i d e s v a l u a b l er e f e r e n c ei n f o r m a t i o nf o rp o t e n t i a lb u y e r s ,b u ta l s og i v e st h e s e p r o d u c tm a n u f a c t o r yt h ed i r e c tf e e d b a c kf r o mp r o d u c tu s e r s t h e s eh e l p p r o d u c e r st ob e t t e ru n d e r s t a n dt h e i rp r o d u c ta n di m p r o v e i t t h em e t h o do f p r o d u c tf e a t u r ee x t r a c t i o na n da n a l y s i sc a nb ed i v i d e d i n t o s u p e r v i s e dm a c h i n el e a m i n gm e t h o d s ,s e m i - s u p e r v i s e dm a c h i n e l e a r n i n ga l g o r i t h m sa n du n s u p e r v i s e dm a c h i n el e a r n i n ga l g o r i t h m f o r t h el o w e rr e q u i r e m e n to fl a b e l e di n f o r m a t i o na n dp r e t t yg o o dr e s u l t , s e m i - s u p e r v i s e dm a c h i n el e a r n i n ga l g o r i t h m sb e c o m et h em a i n s t r e a m m e t h o do fp r o d u c tf e a t u r ee x t r a c t i o na n da n a l y s is i nt h i sp a p e r , an o v e l a p p r o a c h f o rl e x i c a l a c q u i s i t i o nb a s e do nb o o t s t r a p p i n gh a sb e e n p r e s e n t e d a n dm a k eal i t t l ea t t e m p to nu n s u p e r v i s e dm a c h i n el e a r n i n g a l g o r i t h m i nt h i sp a p e r w es e tan e wp r o d u c tf e a t u r ee x t r a c t i o na n da n a l y s i s s y s t e mw h o s ec o r ei sb a s e do nm s g a b o o t s t r a p p i n g t h i ss y s t e mo n l y n e e d saf e ws e e dw o r d sa n da m o u n to fu n l a b e l e dc o r p u st oe x t r a c t p r o d u c tf e a t u r e e x p e r i m e n t ss h o wt h a tt h ep r o p o s e da l g o r i t h mi nt h i sp a p e rc a nb ea e f f e c t i v es o l u t i o nt op r o d u c tf e a t u r ee x t r a c t i o na n d a n a l y s i s k e y w o r d s :p r o d u c tf e a t u r es e m i - s u p e r v i s e dm s g a - b o o t s t r a p p i n g 目录 第一章绪论一1 1 1 选题背景一1 1 2 产品评价对象的提取与分析的现状与发展趋势一1 1 2 1 产品评价对象的提取与分析介绍一1 1 2 2 产品评价对象的提取与分析发展现状一2 1 2 3 产品评价对象的提取与分析发展趋势一5 1 3 论文组成结构一5 一 第二章产品评价对象提取与分析的预处理一7 2 1预处理流程一7 2 2抽取高频专业词汇一8 2 3 命名实体识别一9 2 4中文分词一1 0 一 2 5中文词性标注一1 1 2 6 本章小结,一12 一 第三章产品评价对象提取与分析的核心算法一1 3 3 1 介绍一13 3 2 相似算法一15 3 3 m s g a - b o o t s t r a p p in g 算法介绍一16 3 3 1算法流程一16 3 3 2 模板格式。一18 3 3 3 通用词词典一19 3 3 4m s g a b o o t s t r a p pin g 评分算法一2 0 3 4 基于m s g a b o o t s t r a p pin g 的无监督算法一2 3 3 5本章小结一2 5 一 第四章产品评价对象提取与分析系统的设计与实现一2 6 4 1系统概述一2 6 4 2 语料收集模块:一2 6 4 2 1 语料获取一2 6 4 2 2 网页去噪:一2 7 4 3 语料预处理一2 8 4 3 1高频字串抽取一2 8 4 3 2 分词一2 9 4 3 3 词性标注一2 9 4 3 4 建立通用词词典与种子词表一2 9 4 4 产品评价对象词典提取模块一2 9 4 5 评价对象提取模块一3 0 4 6 本章小结一3 0 一 第五章实验结果与分析一3 1 5 1 实验语料一3 1 5 2 基于m s g a b o o t s t r a p p jn g 的半监督机器学习算法的实验结果一3 1 5 3 基于m s g a b o o t s t r a p p in g 的无监督机器学习算法的实验结果一3 3 5 4 实验结果分析。一3 4 一 第六章论文总结一3 6 一 参考文献一3 7 一 致谢一4 1 一 作者攻读学位期间发表的学术论文目录一4 3 1 1 选题背景 第一章绪论 中国互联网络信息中心( c n n i c ) 在京发布第2 5 次中国互联网络发展状 况统计报告i l j ( 以下简称报告) 。报告数据显示,截至2 0 0 9 年1 2 月, 我国网民规模已达3 8 4 亿,互联网普及率进一步提升,达到2 8 9 。我国手机网 民一年增加1 2 亿,手机上网己成为我国互联网用户的新增长点。网上信息资源 的增长速度非常迅猛,从网页长度上看,网站总字节数己经达到1 9 8 ,3 4 8 g b , 平均每个网页的字节数为2 3 4 k b 。从网页内容上看,文本居大多数,占到网页 总数的8 7 8 。在这样剧烈膨胀的信息中人们如何从中获取对自己有用的信息, 过滤无效信息或者过时信息已经成为逐渐被关注的问题了。搜索引擎的出现帮助 人们通过简单的字符串匹配找到相关的信息,提供了极大的方便,但是存在一些 不足,一方面,搜索引擎只是在语法层上对信息的处理,不能满足人们的需求; 另一方面,尽管经过了搜索引擎的过滤,但得到的信息依然是巨大的,人们仍希 望计算机能再做深一层的处理。这就需要我们在语义甚至语用层次上进行信息的 搜索、处理。而这其中一个重要的课题就是产品的评价分析。 在网络中,各种各样的产品评论信息出现在各大论坛、门户网站以及b l o g 上。这些产品信息有着重要的实用价值:一方面,产品的购买者想通过网上他人 的留言信息来更全面的了解产品,以做出是否购买某个产品的决定;另一方面, 产品的生产厂商也需要他们产品的使用者对其产品的反馈意见,以达到改进产 品,创造效益的目的。然而,针对这个问题我们单单使用采用人工方式对这浩如 烟海的信息进行查询、统计,是显然不切合实际的,为了解决这样的问题,产品 评价分析技术应运而生,这其中由于评价的倾向词有一定的规律性,相对比较容 易提取与处理,所以产品评价分析技术的难点就是如何提取产品评价对象,即评 价语句的评价主体。本文也j 下是针对这样的问题在这一领域做了一点尝试。 1 2 产品评价对象的提取与分析的现状与发展趋势 1 2 1产品评价对象的提取与分析介绍 产品评价对象是指在一条评论性语句中,评论的主题。产品评价对象的提取 与分析就是在语料中,提取出评论性语句的评价对象,并对其进一步分析的过程。 主要通过三个指标进行评价,准确率、召回率、f 1 值。准确率是指系统检索到 的相关文件数占系统返回的文件总数的比例;召回率是指系统检索到的相关文件 数占相关文件总数的比例;f 1 值是一个把准确率和召回率结合起来的指标。考 虑到某些情况下不同系统的准确率和召回率互有高低,不便于直接比较,而使用 f l 值就可以更直观地对系统性能进行排序。 1 2 2 产品评价对象的提取与分析发展现状 产品评价对象的提取与分析作为自然语言处理领域中评价对象提取课题的 一个重要的应用方向,近些年来,无论是在国内还是国外都受到大家的广泛关注, 在首届中文倾向性分析评测( c h i n e s eo p i n i o na n a l y s i se v a l u a t i o n , c o a e 2 0 0 8 ) 2 】 和n t c i r ( n i it e s tc o l l e c t i o nf o ri rs y s t e m s ) 3 j 中,都将评价对象的抽取与分析作 为一个重要的评测内容。但是,无论是从大赛的评测结果上,还是这项技术在我 们实际生活中的具体应用来看,产品评价对象的提取与分析的发展现状目前还属 于是刚刚起步的阶段。相比较而言,国外在这方面的研究比国内更加成熟一些, n t c i r 作为世界上公认最权威的倾向性分析大赛,已经举办了八届,从这八次 评测的结果对比看来,我们可以发现,在产品评价对象的提取与分析对于英文语 料的处理中,已经取得了长足的进步。无论是准确率还是召回率都可以达到一个 较高的水平。在具体的应用中,基于英文语料的产品评价对象的提取与分析系统 已经有了一些初步的应用,同本的富士通公司推出的评价分析系统已经被一些国 外的网站使用,并作为参考反馈给产品的使用者,或者作为一个网上评论的参考 对象提供给产品的潜在购买者。但是,无论是从收集评论的规模还是提供的评价 范围都属于是在小型或者是基于某个或某几个特定领域的应用,尚无一款大规 模,多领域的成熟产品推出。而国内对于产品评价对象的提取与分析无论是从理 论发展的角度还是实际产品应用的角度更是处于非常基础的阶段,中文倾向性分 析评测是2 0 0 8 年起才刚刚开始举办的,而n t c i r 也是在2 0 0 8 年第一次加入了 对中文语料的评价对象抽取与倾向性分析。在实际的应用中,目前国内比较成熟 的产品非常的少,一个比较领先的应用是爱搜车网z p i s o c h e c o m 这个网站主要 是通过对国内各大汽车评论论坛中评论语句的收集,并加以分析,得到网友对于 汽车的各个品牌,各个车型的不同方面的评价信息。并通过一个垂直搜索引擎的 模式加以数据图形化的手段将结果呈现给网站的使用者。但是在其他领域上,目 前还没有比较成熟的产品推出。 从目前主要的研究手段上说,产品评价对象提取的很多技术都来源于命名实 体识别技术。“命名实体指语言中一些根据具体应用而不相同的特定的指代【4 】, 除了人名、地名和机构名等,还包括目前研究比较多的生物领域的专有名词,药 品名,病症名称等等。但是目前研究得最多的还是人名、地名以及机构名。对于 地名的分析可以分解成一些固定的更加细化的部分,如国家、城市等【5 】【酬。类似 地,人名也可以根据职业来划分为政治家、娱乐界人士等【_ ”。从命名实体识别的 定义中,我们能够看出,产品评价对象抽取和命名实体识别有着密切的联系,所 以也就不能理解为什么最初的产品评价对象抽取和分析的方法都是来源于命名 实体识别技术了。 目前产品评价对象的提取与分析的方法主要分为有监督的机器学习方法 ( s u p e r v i s e dm a c h i n el e a r n i n gm e t h o d ) 和半监督的机器学习方法( s e m i s u p e r v i s e d m a c h i n el e a r n i n gm e t h o d ) 以及无监督的机器学习方法( u n s u p e r v i s e dm a c h i n e l e a r n i n gm e t h o d ) 。 有监督学习是产品评价对象提取的主流方法。有监督的机器学习的方法主要 是基于一些手工加入的语言上下文模式,根据训练样本( t r a i n i n gs a m p l e s ) 生成规 则抽取模型或字符序列的标注模型,从而完成未知实体的识别。其过程一般都是 输入大量的标注数据( a n o t a t e dd a t a ) ,记忆标注数据中一系列的实体,并根据 标注数据的特征生成抽取规则。本质是通过机器学习的学习函数( l e a r n i n g f u n c t i o n ) 通过分析大量的训练数据( t r a i n i n gd a t a ) 的特征( f e a t u r e ) 来确定模型中 未知的因素,并有此来分析新的数据。其代表方法有隐马尔可夫模型( h i d d e n m a r k o vm o d e l s ) t 8 1 ,决策数d e c i s i o nt r e e s 9 1 ,最大熵( m a x i m u me n t r o p y ) 1 0 1 , 支持向量机( s u p p o r tv e c t o rm a c h i n e s ) ! 】,以及条件随机场( c o n d i t i o n a lr a n d o m f i e l d s ) 1 1 2 j 。在有监督方法中,最常用的方法是匹配训练语料中出现的实体来识别 新文本中的实体。在中文倾向性分析评测和n t c i r 7 中,大部分参赛单位使用的 方法也都是有监督的学习方法。但是有监督的机器学习对语料非常具有依赖性, 当训练语料十分充足的时候,基于规则的方法仍然是不错的选择。可是,在训练 语料不足的情况下,我们就无法通过有监督的机器学习方法得到一个较好的结果 了。这种情况下,半监督学习( s e m i s u p e r v i s e dl e a r n i n g ) 和无监督学习 ( u n s u p e r v i s e dl e a r n i n g ) 就成为可供考虑的方法。 在实际的问题处理过程中绝大多数情况是未标注数据远远大于已标注数据 的。半监督学习是指训练数据由一小部分已标注数据和大部分的未标注数据混合 而成来训练机器学习系统的机制。半监督学习有的利用未标注数据来代表或构成 整个数据空间,有的利用已有的数据的生成机制来和大量的未标注数据来补充训 练数据的不足。相比于传统的有监督学习,半监督学习降低了对数据的依赖性, 而提升了对问题模型的构建的工作量。半监督学习的其中一种主流方法是 b o o t s t r a p p i n g ,又叫做步步为营算法。这种方法包含了一定程度的监督性,通常 都是在第一步中给系统一些种子来启动字学习过程。b o o t s t r a p p i n g 算法是一种自 扩展的方法:用种子信息即种子词和种子模板初始化一个学习器,学习器自动从 未标注的语料中来学习和扩展新的知识,提高学习器的学习能力,节省人工归纳 建造知识库所花费的时问,是一种非常好的思想,其一般性框架如图1 1 所示。 图1 - 1b o o t s t r a p p i n g 算法的一般流程 例如从汽车语料中提取零部件名称,先给系统人为地定义一些零部件名称作 为种子,然后系统会根据种子所在的上下文环境来学习并抽取其他的零部件名 称,而这些新抽取的内容又会被作为新的种子加入学习过程以用来丰富上下文环 境的分析,随着这种循环连锁过程的进行,会有许多汽车专有名词被抽取出来。 研究表明b o o t s t r a p p i n g 的性能能够和一些b a s e l i n e t l 3 】的有监督学习算法相媲 美。s b r i n 1 4 1 利用预先定义的书名、作者对,以及一些书名的j 下则表达式模式来 抽取更多的书名和作者的联系。m c o l l i n s 和s i n g e r 【1 5 】制定了( 拼写,语境) 对, ,也是利用少数几个种子拼写束获得新的语境,然后利用这些语境来扩展拼写的集 合。e r i l o f f 和j o n e s 1 6 j 介绍了一种互动的b o o t s t r a p p i n g 机制,其中种子集不仅 包含名词实体,还包含了上下文语境,他们指出,在循环叠代中引入噪声会加快 性能的下降;虽然效果并不是太好,但是这种互动的b o o t s t r a p p i n g 思想有比较深 远的影响。a c u c c h i a r e l l i 和v e l a r d i1 1 7 】使用语法规则( 例如主语宾语) 来发掘 更多的名词实体周围的上下文环境。这其实是e r i l o f f 方法的一个变种,不同的 是,他们利用的种子词不是人工预先定义的,而是利用其他的n e r 系统的结果。 m p a s t a 1 8 】等不但利用了种子词和规则联合的办法,还用到了d l i n1 1 9 】提到 的近义词处理的办法。将近义词与b o o t s t r a p p i n g 结合起来,在超大规模语料( 1 亿篇网页文档) 的环境下,正确率能够达到8 8 左右。另外,j h e n g 和g r i s h m a n 口u 】讨论了语料选取这种基本问题,他们指出,无限地扩展语料的规模并不足以 解决目前的问题,利用信息检索( i n f o r m a t i o nr e t r i e v a l ) 的一系列技术来找出和 目标最相关的文档子集,并在这些子集上进行b o o t s t r a p p i n g 过程会显著地提高 性能。 无监督学习是指在处理过程中不需要人工标注的实例作为样本。无监督学习 方法最典型的应用方式是聚类,即将未知的实例按照它们的特征分布来分组。在 信息抽取特别是名词实体抽取的应用中,无监督学习通常需要词语级别的资源, 如词典、w o r d n e t 、h o w n e t 等,或者需要预知的一些语言模式,或者是一些从 大规模无标注语料中计算出来的统计信息( 如p m i 等) 。e a l f o n s e c a 和m a n a n d h a r 【2 i 】将w o r d n e t 中的每个子类都定义了特定的话题签名,并将子类下的每个词语 都计算一次它们在大规模无标注语料下的上下文的特征:给定一个文档中的某个 词后,就可以利用先前计算出的特征计算与这个给定的词的上下文的相符程度, 从而将其归类。ys h i n y a m a 和s e k i n e 2 2 j 观察到一些特定的名词实体与新闻语料 的同现规律,利用这种规律,可以很方便的利用新闻语料提取这些名词实体。而 且这种方法可以与其他的方法相结合。在0 e t z i o n i 2 3 】等的研究中,点态互信 息( p o i n t w i s em u t u a li n f o r m a t i o n ) 被用于衡量词和类别之间的相似度。点态互信 息由p t u m e y t 2 4 】提出并应用于对词语的情感倾向的判断,它通过利用搜索引擎 的检索结果计算两个词语甚至短语之间的依赖程度。0 e t z i o n i 还对特定类别名 词实体建立了特征,并将这一套体系应用于一个基于互联网的自动名词抽取系统 ( k o w n l t a l ls y s t e m ) 1 2 3 1 。 1 2 3 产品评价对象的提取与分析发展趋势 根据目前产品评价对象的提取与分析的发展现状来说,产品评价对象的提取 与分析的主要发展趋势有以下几个方面:l 、基于半监督或者无监督的产品评价 对象的提取与分析,虽然有监督的学习方法在这个领域上目前可以达到更高的准 确率与召回率,但是限于有监督的学习方法对于语料的强依赖性,决定了这种方 法不可能进行大规模的多领域的应用。而且网络上的信息与日俱增,有监督的方 法对于信息的快速更新于处理也显得比较无能为力;2 、领域无关的产品评价对 象的提取与分析,由于网上的信息量浩如烟海,我们无法对所有的语料进行分门 别类,为了使得产品评价对象的提取更加具有通用性,可以适应更多的领域,如 果提出一种领域无关的或者是领域相关程度很小的产品评价对象提取算法成为 这一领域的另一个发展趋势。 1 3 论文组成结构 文章的其余部分按下面的结构组织: 第二章主要介绍在进行产品评价对象的提取与分析之前的预处理。首先说明 预处理的总体流程。其次介绍预处理的几个重要步骤,基于无词典的抽词算法, 用于提取出文章中出现的高频专业术语;对文本进行词汇切分;对切分的词汇进 行词性标注。 第三章主要介绍本文的主要内容,提出了一种新的抽取领域词典的弱监督机 器学习算法m s g a b o o t s t r a p p i n g ( m u t u a ls c r e e n i n gg r a p ha l g o r i t h mb a s e d 5 b o o t s t r a p p i n g ) m s g a b o o t s t r a p p i n g 通过对两个目前国际上最佳的处理英文评价 对象抽取的弱监督机器学习算法进行改进,不但提高了这两种算法的准确率与召 回率,还使得新的算法可以应用到更多种语言的语料。并且,在本章的后半段, 通过对m s g a b o o t s t r a p p i n g 算法流程的改进,提出了一种基于 m s g a b o o t s t r a p p i n g 的无监督机器学习算法,通过这种算法,我们可以达到使 得我们的算法领域无关的要求。 第四章介绍产品评价对象提取与分析系统的设计与实现,首先描述系统的整 体框架结构。接下来介绍系统的各个组成阶段。其中包括语料收集阶段,包括语 料的网上获取与去噪;预处理阶段,主要介绍如何实现本文第二章所描述的预处 理过程;基于m s g a b o o t s t r a p p i n g 的产品评价对象的提取与分析过程,包括弱 监督机器学习算法的实现与无监督机器学习算法的实现过程。 第五章说明实验的设计和过程,并对结果进行分析,找出优势与不足之处。 首先介绍了结果的评价方法,然后介绍评测语料的来源,接下来是实验的设计与 实现,最后是对于实验结果的分析。 第六章是总结与展望。 第二章产品评价对象提取与分析的预处理 本章介绍在利用本文所提出的方法进行产品评价对象的提取与分析前所需 要的预处理工作以及一些基础知识。 2 1 预处理流程 由于本文收集到的语料都为生语料,即没有经过任何处理的原始中文文本, 因此,要想对其进行产品评价对象的提取与分析就必须对其进行一定得预处理, 处理过程包括:抽取高频专业词汇、中文分词、统计词频、命名实体识别、中文 词性标注。处理流程如图2 1 。 图2 i 语料的预处理流程 中文不同于英文,对中文文本的处理有其特殊的地方。中文文本是按句连写 的,词问无间隙,因而在中文文本处理中首先要进行中文分词,确定词的边界。 但是在进行这一步骤的时候,有可能出现这种情况,有些领域的专业词汇会被不 j 下确的切分,比如对于这句话: 例旬:我的路虎非常耐用。 “路虎 这个词在汽车领域是一个汽车型号的名称,属于汽车领域的专业术 语。但是,对于大部分的分词程序来说,他们的词典中没有这个专业的词汇,因 此在分词的时候很有可能就会被分错。很有可能分出来的效果是这样的: 直接分词结果:我的路虎非常耐用。 我们看到“路虎”这个词被拆分成了两部分“路”和“虎”,像这样的情况 还有许多许多,显然,这样的结果并不是我们想要的,如果不加以改进,将直接 影响我们系统的最后结果。对于这类词汇的处理,我们采取的办法是使用高频字 串抽取。 高频字串抽取的作用是从文本中抽取高频专业术语( 就像前文中的“路虎 就属于这种词汇) ,它通过对文本的处理,可以提取出文本中经常连在一起出现 的高频字串,因为如果我们的实验是对于一个特定领域的文本进行处理,那么, 7 如果当我们的语料足够大的时候,我们一般是可以从语料中找到很多专业术语的 出现的,抽取高频字串就是根据这个想法,自动地得到这些字串,并将结果提供 给下一步的分词程序,使得分词程序的分词效果更加准确。分词之后要进行命名 实体识别,命名实体识别就是识别出人名、地名、机构名,这些单元和普通的词 不同,但是对于句子意义有时又具有十分重要的作用,因此需要专门处理。确定 了词以及命名实体之后需要标注词的词性,就是确定一个词在该句子中是做名 词、动词还是形容词等等。 下面举一个实例来说明预处理的过程。 原始句子:我的路虎非常耐用。 抽取高频字串:我的路虎非常耐用。( 提取出高频字串“路虎”) 分词后的句子:我的路虎非常耐用。 命名实体识别后:我的路虎非常耐用。 词性标注后的句子:我p n 的d e c 路虎n r 非常a d 耐用v a 。p u 具体的实现工具将在第四章做进一步说明。 2 2 抽取高频专业词汇 自然语言中新词语的不断涌现是一个客观规律。随着经济、社会的飞速发展 和对外交流的r 渐频繁,特别是i n t e r n e t 的普遍使用,这一现象变得更加明显。 据中国语言文字工作委员会专家曾做的一个比较保守的统计,中国自改革开放的 2 0 年来平均每年产生8 0 0 多个新词副2 6 1 。 由于汉语中词语的定义的模糊性,很难给出一个新词语的确切的定义,在现 有研究的基础上,我们认为对于新词语可以从下面两个方面把握:( 1 ) 从词典参 照的角度来说,新词语是指通过各种途径产生的、具有基本词汇所没有的新形式、 新意义或新用法的词语【27 1 。新词语的特点在于“新”,这个“新 具体表现在词 形、词义和词语的用法上。鉴定新词语的参照系是现代汉语基本词汇的词形、词 义和词语的用法。着眼于一个词语的词形、词义和用法,将其与现代汉语基本词 汇的词形、词义或用法进行比较,只要在这三个方面的任何一点上不同,就认为 它是新词语。基本词汇的代表是现代汉语词典和汉语大词典的主体词汇。 ( 2 ) 从时间参照角度来说,新词语是出现在某一时间段内或自某一时间点以来所 首次出现的具有新词形,新词义或者新用法的词汇【2 8 】。新,就体现了与时间相 关的特点。比如可以把改革开放以来出现的词语如“经济特区”,“下海”,“打工 等等称为新词语。从大体上说,从语言学角度,汉语中的新词语按照来源可以 分为以下几类【27 j ( 1 ) 命名实体:包括人名、地名、商品名、公司字号、机构名等; ( 2 ) 缩略语:如“非典”、“计生委”等; ( 3 ) 方言词:如“靓”、“埋单等; ( 4 ) 新造词:如“伊妹儿”、“美眉”等; ( 5 ) 专业术语:如“非典型肺炎”、“蓝光光盘 等; ( 6 ) 音译词:如“酷”、“秀”、“克隆”等: ( 7 ) 字母词:如w t o 、a p e c 等; ( 8 ) 词义、用法发生变化的旧有词语:如“下课”、“充电 等。其中还包括 一种“旧词新用”的语言现象,比如“高就”、“赏光”等,很长时间不用了, 最近又重新出现在语言中。 就目前而言,新词语自动检测的困难主要在于: ( 1 ) 汉语的词与词之间没有间隔; ( 2 ) 除了命名实体和字母词外,其他具有新词形的词语的构成基本上没有一 个比较普 遍的规律; ( 3 ) 对于低频的具有新词形的词语识别比较困难: ( 4 ) 对于词义、用法发生变化的旧有词语的检测更加困难。 现有的新词语自动检测的研究,以命名实体类居多,在汉语的命名实体识别 研究中,又以人名、地名、音译名识别率较高,准确率和召回率都可以达到9 0 以上【2 9 】,机构名构成规律较为复杂,识别准确率和召回率较低一些。其他类 型的命名实体研究很少,识别率更低。至于其他类型的新词语自动检测的研究就 更少。由于命名实体的识别研究已经比较充分,因此本文目的在于研究非命名实 体类的具有新词形的词语的自动检测。为方便起见,下文中提到的新词语均指非 命名实体类的具有新词形的词语。非命名实体类的具有新词形的词语的自动检 测的研究,目前国内主要的研究方法有两种:一是规则的方法,通过建立专业词 库,模式库和规则库,对语料进行识别处理【3 0 1 。二是统计的方法。利用重复串 的信息,提取高频的串,然后再利用语言知识排除不是新词语的垃圾串 【3 l 】【3 2 】【3 3 】1 3 4 】【3 5 】,或者是计算相关度,寻找相关度最大的字与字的组创3 6 1 。规则的 方法主要缺点在于局限于某个领域,并且需要建立规则库等等。统计的方法,一 般都是限于查找二字,三字和四字的新词语。本文中主要使用的是基于统计的方 法。 2 3 命名实体识别 命名实体是指文本中具有特定意义的专有名称和数量短语【删,主要包括字 符表达式、数字表达式、同期表达式、人名、地名、机构名和专有名词等。命名 实体是基本的信息元素,能够准确指示文本语义,在数值知识元、概念识别、本 体标引、个性化推荐服务、竞争情报系统等情报学研究领域中有广泛应用,而在 无规则中文文本中识别命名实体则是其应用的前提。 由于命名实体具有形式多样、构造自由、词典未登录等语法特点,使得其 无法根据标准词典匹配加以识别。目前参见的命名实体识别方法有: ( 1 ) 中文命名实体:在本文中主要指中文人名、地名、机构名以及专有名词等命 名实体。此类实体的识别主要有: 基于规则:即人为构建能够表达n e 组成规律的规则知识,再自动识别任意 文本中满足这些规则的命名实体,如n t u 系统【4 5 1 、f a c i l e 系统【4 6 1 、o k i 系统 【4 7 】生堡 寸。 基于统计:先对已经过标注的语料库进行训练,再根据训练获得的语言学规 律知识,采用一定的统计算法,识别满足指定阈值的命名实体。常用的统计算法 有n 元模型、隐马尔可夫模型( h i d d e nm a r k o vm o d e l ,h m m ) 4 引、最大熵模型 ( m a x i m u me n t r o p ym o d e l ,m e m ) t 4 9 】和条件随机域( c o n d i t i o n a lr a n d o mf i e l d s , c r f ) 5 0 】等。 规则和统计相结合:规则需要人为编制,依赖于具体领域,命名实体的开放 性也使得规则难以构建;而统计方法则在很大程度上受训练语料规模和领域的影 响。因此,更好的做法是结合规则和统计,提高命名实体识别的准确性。如文献 【删提出了相关模型。 ( 2 ) 表达式命名实体:目前对于此类实体的识别主要是基于规则匹配的方法,如 现在公认较好的分词系统i c t c l a s 。此外,在有些特殊应用研究中,研究人员 也会在规则匹配的基础上辅以统计模型( 如h m m 、m e m 等) 对抽取的命名实体加 以分类。 2 4中文分词 中文不同于英文,对中文文本的处理有其特殊的地方。中文文本是按句连写 的,词间无间隙,因而在中文文本处理中首先要进行中文分词,确定词的边界。 中文分词是中文信息处理的一项基础性工作,它是计算机科学研究的重要课题之 一,同时也是一大难题。所谓分词,就是把一句话逐个切分出来。近年来,在信 息产业需求的推动下,自动分词已经引起了多方面的关注。 目前中文自动分词算法可分为两大类:一类基于词典,另一类基于统计。这 两种方法各有优缺点。 3 7 1 3 8 】【3 9 】【删基于统计的方法有点屎使用范围比较过,它不 需要词典,但基于统计的方法需要建立一个合适的模型,训练这一模型通常需要 人为地对文档进行划分,而这一过程所耗费的时间往往比构造一个词典还要长。 s p r o a t 和s h i h 描述了一种纯粹的机遇统计的分词算法【37 1 ,这种方法依靠两个相 邻字符直接爱你联系的强弱来构造词,从而实现分词。该方法所使用的是相邻字 符的交互信息【4 ,方法简单,但由于它智能识别词的长度为一或者二的词,因 此分词效果不是非常理想。本文借鉴了这一思想,同时突破了对词的长度的限制。 基于词典的方法优点是简单、易实现。但是,这种方法要想得到好的分词结果, 需要一个前提词典必须是完全的【4 2 】【4 3 1 ,因此,未登录词就成为基于词典方 法的一大障碍。基于词典的方法中,最常用的是最大匹配算法( m m ) 。最大匹配 算法可以分为j 下向最大匹配( f m m ) 和逆向最大匹配( r m m ) ,正向最大匹配的基 本思想是:假设自动分词词库中最长的词所包含的汉字个数为n ,则取被处理字 符串的前n 个字符作为匹配字段,查找分词词库,若词库中存在该词,则匹配成 功,否则去掉一个字符,继续匹配,直到匹配成功。逆向最大匹配算法的分词过 程与正向最大匹配算法类似,不同的是每次处理都从句子的末尾开始,匹配不成 功时,去掉前面的一个字符。逆向最大匹配方法的监督比正向最大匹配要高,它 的错误切分率为1 2 4 5 。目前比较流行的分词算法是结合基于词典和基于统计两 种方法的分词方法。 2 5中文词性标注 词性标注是自然语言处理的重要内容之一,是其他信息处理技术的基础, 被广泛地应用于机器翻译、文字识别、语音识别、信息检索等领域。目前基 于统计的词性标注方法得到了广泛的应用并取得了很好的效果。 词性是词的句法功能类别。在各种自然语言处理过程中,几乎都有一个词性 标注的阶段。因此,词性标注的正确率将直接影响到后续的分析处理结果。基于 其很高的重要性。词性标注一直是自然语言处理的重要内容。词性标注的方法大 致可以分为3 类: ( 1 ) 基于规则的方法。基于规则的方法是最早提出的词性标注方法,它手工 编制包含繁杂的语法和或语义信息的词典和规则系统。这种方法不仅费 时费力,而且带有很大的主观性,难以保证规则的一致性。更大的问 题是处理歧义长句、生词、不规范句子的能力非常脆弱,词性标注准 确率不高。 ( 2 ) 基于变换的方法。该方法由e r i cb i l l 提出,用于标注英语的词性,其 基本思想是利用一个带词性标注的语料库来例示实现设计好的模板,从 一个已标注词性的语料库中统计每个词最可能的词性标记,然后用该标 记标注训练语料库,称为初始标注,然后通过规则学习的方法获取新 的规则。在进行文本标注时,先对文本进行初始标注,然后按照规则 获取的次序应用规则进行标注。该方法在英文词性标注上取得了很好的 效果。其主要问题是学习规则的时间过长。针对这一问题,周明等提出 一个快速学习算法,使训练速度大大提蒯删。 ( 3 ) 基于统计的方法。基于统计的方法是目前应用最广泛的词性标注方法。 白栓虎提出 基于统计的汉语词性自动标注方法,使用二元语法模型和动态规划的方 法进行汉语的词性标注。当前大部分汉语词性系统采用基于二元语法模 型或三元语法模型的隐马尔可夫模型,通过e m 训练的方法,给每个 词和词性标签对分配一个联合概率,通过维特比解码的动态规划方法来 获取一个句子对应的最佳的词性标注序列。隐马尔可夫模型的缺点是假 设词的词性只与词本身和它前面的n 个词有关,而与该词后面的词没有 关系。这个假设与实际情况并不吻合。基于最大熵模型的词性标注方法, 有效地利用了上下文信息,在一定的约束条件下可以得到与训练数据一 致的概率分布,得到了很好标注效果。但是最大熵模型存在一种称为 “l a b e lb i a s ”问题的弱剧4 引,在某些训练集上得到的模型可能会得到很差 的标注效果。常见的基于统计的方法还有神经元网络、决策树、 线性 分离网络标注模型等。 2 6 本章小结 本章首先介绍了进行产品评价对象的提取与分析前的预处理过程,产品评价 对象的抽取与分析师一个较为高层的自然语言处理内容,因此要完成这项任务首 先要对生语料进行加工,即前文中所说的高频字串抽取,分词等处理,命名实体 识别,词性标注等过程。在这一章中,我们对这些处理进行了简要的介绍,这些 步骤都是我们的课题的理论基础与实际基础。 第三章产品评价对象提取与分析的核心算法 本章将介绍本论文中的核心算法m u t u a ls c r e e n i n gg r a p ha l g o r i t h mb a s e d b o o t s t r a p p i n g ( m s g a - b o o t s t r a p p i n g ) m

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论