




已阅读5页,还剩53页未读, 继续免费阅读
(信号与信息处理专业论文)基于词汇语义色彩分析的文本倾向识别.pdf.pdf 免费下载
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
北京邮电大学硕i :学位论文 基于词汇语义色彩分析的文本倾向识别 摘要 文本倾向是指文本中所表达的对所描述主题的态度,从语言学上 来看属于语用信息的范畴,涉及作者的主观意图,如何让计算机能进 行自动识别是计算语言学的一个重要课题,高性能的自动识别系统对 于网络舆情监控等重要现实应用具有重要价值。 本文主要进行了两个方面的研究工作。 。 其一,设计了一个基于全信息的自动文本倾向识别系统。该系统 从语法,语义,语用三个层次出发,去进行文本中的信息标注与抽取。 最后将这些标注信息作为文本特征逐一添加到一个s v m 文本分类器 中去,进行文本分类计算,实验证明,当我们将语法、语义和语用三 层信息综合利用之时,系统性能是最好的。 其二,作者在上述实验过程中发现,通常作为语用信息使用的词 汇语义倾向度量值缺乏合适的解释性与验证方法。为此,本文引入聚 类算法,对词汇语义倾向度量值进行聚类,并将聚类结果重新作用于 原始的文本倾向识别系统中去,实验表明,系统文本倾向识别率得到 了提高。这一方面为词汇语义倾向度量提供了一个有效解释的途径, 同时也为系统的改进提出了一种新思路。 论文最后是结论和对未来进一步工作的展望。 关键词全信息理论自然语言处理倾向识别语义倾向性 k - m e a n s 聚类 北京邮电大学硕i :学位论文 w o r d s s e m t i co r i e n t a n 0 n a n a iy s i sb a s e d t e x to r i e n t f 盯i o ni d e n t i f i c a n o n s e m a n t i co r i e n t a t i o ni sm e a n st h ea t t i t u d et ot h es u b j e c te x p r e s s e d i nt h et e x t i ti sb e l o n g st ot h ec o n c e p t i o no fp r a g m a t i ci n f o r m a t i o ni nt h e l i n g u i s t i c sd o m a i n h o wt om a k et h ec o m p u t e ri d e n t i f yt h ei n t e n t i o no f t e x t sa u t h o ra u t o m a t i c a l l yi sa v e r yi m p o r t a n tt a s ki nc o m p u t a t i o n a l l i n g u i s t i c s ah i g hp e r f o r m a n c ea u t o m a t i c a l l yi d e n t i f i c a t i o ns y s t e mi s q u i t e v a l u a b l ef o r p r a c t i c a la p p l i c a t i o n s l i k ei n t e r a c t o p i n i o n s a n d i n f o r m a t i o nm o n i t o r s f o rt h i s ,t h e r ea r et w om a i nr e s e a r c h e si nt h i sp a p e h f i r s t ,t op r o v et h ev a l u ea n di m p o r t a n c eo ft h ec o m p r e h e n s i v e i n f o r m a t i o nt h e o r yi nn l pt a s k , w ed e s i g na na u t o m a t i ci d e n t i f i c a t i o no f t e x t s o r i e n t a t i o ns y s t e mb a s e do nt h ec o m p r e h e n s i v ei n f o r m a t i o nt h e o r y t h es y s t e ml a b e la n de x t r a c tt h ei n f o r m a t i o nf r o mt h et e x tb yt h r e e a s p e c t s :s y n t a c t i c ,s e m a n t i ca n dp r a g m a t i c f i n a l l y , w ea d dt h i sl a b e l e d i n f o r m a t i o nt oas v mt e x tc l a s s i f i e ro n eb yo n et oc a l c u l a t e i ti sp r o v e d t h a t ,t h es y s t e mp e r f o r m a n c ea c h i e v et h eh i g h e s tl e v e lw h e na l lt h et h r e e k i n do fi n f o r m a t i o n ( s y n t a c t i c ,s e m a n t i ca n dp r a g m a t i ci n f o r m a t i o n ) a r e u s e d s e c o n d ,t h ec a l c u l a t i o no fw o r d s s e m a n t i co r i e n t a t i o ni sr e s e a r c h e d d e e p l y , w h i c hi s u s e da st h ep r a g m a t i ci n f o r m a t i o np r o c e s s i n gi nt h e c o m p r e h e n s i v ep r o c e s s i n go ft e x t s i nt h ee x p e r i m e n t s ,w et h i n kt h a tt h e c a l c u l a t i o nr e s u l to fw o r d s s e m a n t i co r i e n t a t i o nn e e d sm o r ee f f e c t i v e e x p l a n a t i o na n dc e r t i f i c a t i o n t h e r e b y , w ei m p o r tt h ec l u s t e r i n ga l g o r i t h m t og e tf u r t h e rs t u d ya n da n a l y s e so nt h ew o r d ss e m a n t i co r i e n t a t i o n t h e n w er e u s et h ec l u s t e r i n gr e s u l tt oo u ro r i g i n a li d e n t i f i c a t i o ns y s t e m w h e n t h ed i f f e r e n c e a m o n gt h ew o r d c l a s s e st h a ti s g o t t e nt h r o u g h t h e 北京邮电大学硕十学位论文 c l u s t e r i n ga l g o r i t h mi sr e u s e dt ot h eo r i g i n a ls y s t e m ,t h ep e r f o r m a n c eo fi t i s i m p r o v e d i nt h i s w a y , w eg i v ea ne f f e c t i v ee x p l a n a t i o nt o t h e c a l c u l a t i o no fw o r d s s e m a n t i co r i e n t a t i o n o nt h eo t h e rh a n d ,i tp r o v i d e s a n o t h e rw a yt oi m p r o v et h es y s t e m a tt h ee n do ft h ep a p e r ,i ti st h ec o n c l u s i o no fo u rw o r ka n dt h e e x p e c t a t i o no ft h ef u r t h e rr e s e a r c hi nt h ef u t u r e k e yw o r d s c o m p r e h e n s i v e p r o c e s s i n g ( n l p ) ,o r i e n t a t i o n k - m e a n sc l u s t e r i n g i n f o r m a t i o nt h e o r y , n a t u r a ll a n g u a g e i d e n t i f i c a t i o n ,s e m a n t i co r i e n t a t i o n , 独创性( 或创新性) 声明 本人声明所呈交的论文是本人在导师指导下进行的研究工作及取得的研究 成果。尽我所知,除了文中特别加以标注和致谢中所罗列的内容以外,论文中不 包含其他人已经发表或撰写过的研究成果,也不包含为获得北京邮电大学或其他 教育机构的学位或证书而使用过的材料。与我一同工作的同志对本研究所做的任 何贡献均已在论文中作了明确的说明并表示了谢意。 申请学位论文与资料若有不实之处,本人承担一切相关责任。 本人签名:墨查日期: 邋:i :至鱼 关于论文使用授权的说明 学位论文作者完全了解北京邮电大学有关保留和使用学位论文的规定,即: 研究生在校攻读学位期间论文工作的知识产权单位属北京邮电大学。学校有权保 留并向国家有关部门或机构送交论文的复印件和磁盘,允许学位论文被查阅和借 阅;学校可以公布学位论文的全部或部分内容,可以允许采用影印、缩印或其它 复制手段保存、汇编学位论文。( 保密的学位论文在解密后遵守此规定) 保密论文注释:本学位论文属于保密在一年解密后适用本授权书。非保密论 文注释:本学位论文不属于保密范围,适用本授权书。 本人签名: 导师签名: e l 期: 望盟:王:至! 日期:旦蟹:耻 北京邮电人学硕上学位论文 1 1 论文背景 第一章绪论 随着w e b 2 0 技术的迅速发展,越来越多地人通过互联网发表他们对商品服 务的意见、交流对各种事件的看法,互联网已不仅仅是人们获取信息的仓库,更 成为人们发表观点、交流看法的园地。 人们对某样事物进行评论或者表达自己的观点的时候,常常是具有倾向性 的,这种倾向性信息具有很重要的应用价值。例如,当人们要购买一件商品时, 都希望能了解已经使用过该商品的人的倾向性意见作为参考,而作为商家,可以 通过客户偏好的研究来确定产品的信誉度,以制订新的产品营销策略,提高企业 收入i 。从网络信息管理的角度来看,网络管理人员可以迅速掌握网络信息的价 值及目的,根据需要判断出是否为垃圾信息或违法信息,以便及时作出相应处理。 当然,对于文本的倾向性识别作用还远远不仅于此,只要我们能够将文本中的信 息利用起来,相信其价值是不可限量的。 显然,由于网络信息的巨大以及分布性,靠人工来逐篇判断文档的语义倾向 性显然是不可取的。因此,如何自动地对文档进行语义倾向性判断也就成了一个 十分引人注目的重要的研究方向i z j 。 一般情况下,倾向性可以分为正向的( 即倾向肯定的) 和负面的( 即倾向否定 的) ,因而,倾向性识别也可以看成一个分类分体。即把一个评论文本分为具有 正或负倾向的文本。这样就可以利用文本分类工具进行倾向性识别。目前大多数 的文本分类工具都是基于词语间的相似度或文档中的词频数进行分析的,比如 n a i v eb a y e s i a n 和k - n e a r e s tn e i g h b o r 方法。这些方法通过对训练文本的训练, 统计出相关类别中词语的出现频度或概率,然后根据目标文本中相关词语的频度 信息判别出其类别。运用这些方法时,通常我们都有一个潜在的假设前提,即文 本类别取决于词语出现概率的分布,同时也假设文本中词语间是相互独立的。但 是对情感型文本而言,某些词语虽然出现的概率很大,但其有可能并不具有表达 任何倾向信息的能力,与倾向类别根本无关【l j 。 本文认为,从信息中提炼知识和利用知识求解复杂问题,不仅需要利用信息 的形式因素,而且要深入利用信息的含义和效用因素。我们把这种需要同时考虑 信息的形式因素、含义因素和效用因素的信息理论,称为“全信息理论 。在术 北京邮电大学硕十学位论文 语上,通常把与事物运动状态及其变化方式的形式因素相联系的认识论信息称 为语法信息,把与含义因素相联系的认识论信息称为语义信息,把与效用因素相 联系的认识论信息称为语用信息,而把语法、语义、语用信息的有机整体称为全 信息【3 1 。人们在获取信息的时候,不能只考查信息的形式因素( 语法信息) 和和 信息的内容( 语义信息) ,还必须考查信息的价值( 语用信息) 。现在流行的自 然语言处理方法,一般都仅仅局限于只利用了词汇的语法信息和语义信息,而忽 略了语用信息的作用与意义,这也是我们应该注意到并且努力去改进的方向。尤 其对于倾向性判定问题,从语言学来看,文本倾向由于涉及作者主观意图,本质 上属于语用层次的信息,而语用层次的信息又需再语法和语义信息的基础上进行 表达,因而,在词汇的倾向性分析中引入全信息进行分析就尤为重要了。 本研究将基于全信息理论对文本进行全方位的信息挖掘,即充分利用了文本 中的语法、语义和语用信息来对文本进行倾向性分析。在此基础上,本文进而重 点针对于目前研究较少的语用信息,也就是倾向性信息的处理方面,作了更深一 步的研究,在词汇语义倾向性分析中引入聚类方法,在为词汇语义倾向度量提供 了一个有效解释的途径的同时,也为系统的改进提出了一种新思路。 1 2 研究现状及分析 到目前为止,倾向分析算法主要分为机器学习的方法、基于统计测度的的方 法以及一些其他方法。机器学习算法方面,主流的算法有朴素贝叶斯仆m ) 、最大 熵( m e ) 1 4 1 、支持向量机( s v m ) 方法1 5 j ,k 一最近邻( k n n ) 算法等,一般基于语法层 信息来进行文本分类,有时还会加上一些语义层信息来提高系统性能。在基于统 计测度的方法中,t u m e y 提出了一种基于点态互信息的非监督倾向分类方法 6 1 。 它在语法层的基础上通过统计方法来实现词的倾向性分析,但是没有利用语义层 信息的因素。其他算法还有a n d r e 七v s k a i a 和b e r g l e 提出的利用模糊集( f u z z ys e 0 进行文本倾向判断的观点1 7 l ;以及t a k a m u r a 等使用l v m 模型来对短语进行语义 倾向识别等p 1 。 国外以语义倾向为基础的文本情感信息挖掘研究进行得比较早,应用的领域 中有针对p d a ,相机,汽车等商品。分析的方法主要是以关键词分析为基础。 通过从有代表性文档中提取关键词( 主要是形容词) 及领域的固定搭配词组( f i x e d e x p r e s s i o n s ) ,组成一个列表作为判断情感信息类别指示器。然后查找文本中含有 的列表词语,计算相应的指标,最终根据这些指标值得出文本的情感类别。其中 列表词语的提取,可以通过人工的方法( 即手工一个一个的对词语进行判别) , 或者也可以通过判断词语的相似度( 如w o r d n e t ,国内的知网) 来提取,或者我 2 北京邮电火学硕上学位论文 们还可以运用机器学习方法从有代表性的训练文本中训练提取【1 】。 国内关于这方面的研究开始得较晚。2 0 0 4 年上海大学计算机研究所的f e i z h o n g c h a o 曾做过这方面的研究,主要是通过分析文本中旬子的词性组成来进行 的1 9 j 。他通过提取有代表性的词语,利用这些词语构造句子词性组合模式对照表, 计算不同的词性组合模式在不同类别中的语义倾向度( 需要训练得到) ,然后对 测试文本中每个句子的词性模式根据对照表进行对号入座,得出该句子的语义倾 向得分进而判断出整个文本的情感类别。这个方法考虑到了词语间的相关性,但 是由于词性组合的复杂,且面对不同的领域需要提取不同的对照表,而对照表中 的模式是很复杂的,且涉及的代表性词组也非常的多,这些都加大了使用的困难, 通用性较差。国内其他的关于语义方面的研究主要是针对文本标注这一领域,应 用方法也主要是集中在语义相关度和语义相似度,而运用于文本分类领域的研究 则比较少。而哈工大的林斌在他的硕士论文中,运用了t u m e y 的理论,尝试了 对于中文信息的情感分析。另外,国内关于互联网信息的分类挖掘主要集中在文 本主题分类领域,即分析文本的主题,比如一段信息文本是属于计算机领域的、 军事领域的还是经济领域的,诸如此类【1 j 。 这些国内外主流的方法固然在这个问题上体现了一些自身的优势,也都能够 在一定程度上实现文本的倾向判断,但是不难发现,用这些方法实现的系统性能 都不算太高,精确度基本上在7 0 一8 0 之间浮动,很难取得更进一步的进展, 性能的提高上也似乎遇到了一个瓶颈。通过分析不难看出,绝大部分的这些算法, 都只是利用了文本的一部分信息来对其进行处理,但很少有人能够将信息的语 法,语义,语用三种成分全部利用起来,综合它们的价值来实现文本倾向识别的。 本文认为,只有将文章中的所有信息都尽可能多的提取出来,并将其加以利用, 才能最大程度地“理解一文章的含义。 我们知道,从商业应用的角度来看,商家可以通过客户偏好的研究来确定产 品的信誉度,以制订新的产品营销策略,提高企业收入。从信息搜索引擎的角度 来看,用户可以通过了解大众对于某商品或服务的评价,来决定自己的消费方向 及策略,避免盲目消费的可能。从网络信息管理的角度来看,网络管理人员可以 迅速掌握网络信息的价值及目的,根据需要判断出是否为垃圾信息或违法信息, 以便及时作出相应处理。当然,对于文本的倾向性识别作用还远远不仅于此,只 要我们能够将文本中的信息利用起来,相信其价值是不可限量的。 进行文本的倾向性分析是一个复杂的过程。由于网上的各类信息都是以无结 构的文本形式存在的,因此分析时需要借助文本挖掘技术。虽然国外在此领域有 较深入的研究,但由于中文文本在分词、文本特征表示等领域与英文都有较大差 别,因此给中文文本的信息提取增加了很大的困难。除此之外,还存在以下困难: 3 北京邮电大学硕:i 二学位论文 首先,数据( 即具有倾向性的文本) 搜集困难,由于大量的倾向性文本都是存在 于网上的,因此搜集时必须借助互联网信息挖掘技术、搜索引擎等【1 1 。其次,由 于文本在内容及形式上的多样性,使得难以直接用于分析处理,必须通过各种相 关技术对其进行预处理方可使用。比如由于文本中存在各种各样的信息,哪些信 息才是反映作者倾向性的信息,以及如何从纷繁的信息中分离出反映作者倾向性 的信息都是数据处理的关键。必须通过全信息的信息处理方法,对文本进行标注 及信息提取,以达到最优化的效果。 1 3 主要研究内容 1 3 1 全信息理论在文本倾向分类识别上的作用 自然语言处理是研究如何利用计算机来处理、理解和生成自然语言的学科。 为了使机器理解人类自然语言,人们在长期研究的基础上形成了两种基本的方 法:基于规则的方法和基于统计的方澍1 0 j 。前者从语言学和认知学的观念出发, 希望建立一组语言学规则,使机器可以按照这组规则来正确理解它面对的自然语 言;后者从统计学和计算机科学的观念出发,希望通过对大规模语料库的统计处 理,使机器可以正确理解所给定的自然语言。这两种方法各有千秋,且互为补充: 基于规则的方法在本质上是演绎的,基于统计的方法在本质上是归纳的;基于规 则的方法属于逻辑思维的方式,基于统计的方法属于经验思维的方式。在理想条 件下( 规则完备且具有全攫盖能力;语料绝对丰富且遍历) ,两种方法应当分别都 可以解决自然语言理解的问题。但是在实际情况下,上述理想条件很难成立,因 此事实上两种方法都难以独立解决问题。 自然语言包括语法、语义、语用三个互相联系又互相区别的层次。一般来说, 如果理解了全信息的“语法信息一,只能说是理解了它的“形式一;如果进一步 理解了它的“语义信息 ,就可以说理解了它的“内容 ;如果不仅理解了语法 信息和语义信息,而且还理解了它的“语用信息 ,就可以说理解了它( 相对于 主体的目标而言) 的“价值,l 引。 基于全信息的自然语言理解方法通过在语法、语义、语用三个层面上对规则 和统计两种方法的综合运用,即在整体框架上( 宏观上) 是。理解型”的,在全信 息的分析和全信息知识库的建构方面( 微观上) 是“统计型”的,为各种自然语言 理解的场合提供了一个在原理上通用的模型1 1 】。 4 北京邮电大学硕上学位论文 文本态度倾向性是相对于主体的目标而言的价值信息,按照这样的方式来 看,对于文本倾向性的研究应该属于对于文本语用层的信息的挖掘与分析。但同 时可以看出,它又与文本中词、句子的句法结构,也就是语法信息,以及词汇所 表达的含义,也就是语义信息密切相关。我们不能把这样一个有机整体切分开来 研究,否则所得到的结果只能是不完备不全面的。只有将所有这三种信息全部提 取出来,并加以综合分析与利用,才有可能得到准确的判断,同时也是最大程度 地去实现对自然语言的理解。这也就是为什么本文要提出利用全信息理论作为基 础,来对文本进行倾向性分析的原因。有关于全信息理论的详细内容将在第二章 中作详细的介绍。 在明确了要实现科学全面地进行文本倾向性识别研究工作,必须将全信息理 论作为理论基础这一点之后,文本研究的下一步,就是要对文本从语法,语义, 语用三个方面下手对文本进行处理和分析。为了充分利用上这三方面的信息,首 先需要对本文进行信息的标注与抽取。本文的研究中,在语法层,进行汉语切分、 词性标注和组块分析;在语义层,进行语义角色信息的标注;而在语用层,进行 词汇的语义倾向标注。最终,依据这些标注并抽取出来的信息来构造一个文本态 度倾向的识别系统。 1 3 2 词汇语义倾向对文本倾向的作用 在全信息三层文本信息标注的过程中,本文着重研究的是语用层信息的抽 取,也就是上面提到的语义倾向标注。我们认为,文本的态度倾向是与其所使用 的词汇的语义色彩( 倾向性) 密切相关的,文本所带有的倾向性一定会从它所使用 的词汇中体现出来【2 1 。这也就是国外较为通用的基于关键词的语义倾向性来分析 文本的语义倾向性的方法。 语义倾向性,是指一个词所代表的情感倾向。也就是说,它对于认识主体的 目的而言,代表了一定的效用信息,因此它在一定程度上表达了语言的效用度, 也就可以作为语用信息的一个方面被加以利用。本文将使用了“语义倾向点态互 信息厣( s o - p m i ( s e m a n t i co r i e n t a t i o nf r o mp o i n t w i s em u t u a li n f o r m a t i o n ) ) 的概念和方法1 1 2 l ,来对中文信息进行语义倾向性上的标注。 点态互信息,表示的是两个词之间的相关性。它们之间的互信息越大,这两 个词之间的相关性就越大。按照t u r n e y 2 0 0 2 和 2 0 0 3 提出的理论,一个词的 语义倾向性,可以通过比较它与正面的词( 例如“e x c e l l e n t ) 和以及负面的 词( 例如“p o o r 打) 之间的相关性,也就是点态互信息来得到。这个结果可以用 一个实数来表示,这个实数不仅表示了该词的语义倾向性,还能够进一步地说明 5 北京邮电人学硕十学位论文 这个倾向性的强弱程度。这里的一个基本假设是:一个词,如果它与表示j 下面倾 向性的词具有更高的相似性,就认为该词的语义倾向性为正;相反,如果它与表 示负面倾向性的词具有更高的相似性,则表示该词的语义倾向性为负。 基于这样的理论,可以根据一些已有的j 下负词汇的集合( 在进行语义倾向标 注之前通过某种方法得到) ,来计算文本中所有词的语义倾向点态互信息,也就 是p m i 值,将这个p m i 值作为语用层信息标注到文本中去,作为将来文本分类 时可以使用的一层信息。具体的理论分析过程内容将在第三章中作详细说明。 通过这样的方法计算出来的p m i 值是一个实值,然而这个实值是否具有实 际的意义还值得考证。大部分使用t u m e y 理论进行语义倾向性计算的研究中, 都将这个实值作为词汇语义倾向性的度量和测度,认为这个值表示了词汇的语义 倾向性及其倾向度【1 2 1 。虽然在t u m e y 的实验当中确实证明了这一点,然而放到 中文信息处理领域中来,实际生活中我们接触到的文本各式各样,而中文词汇的 丰富性及多样性更是增添了这种研究分析的难度。同样的一个词,放在不同领域, 不同语境中都有可能代表不同的含义,更不用说中文词汇本身所具有的多义性和 歧义性。仅仅用一个数值去说明一个词汇的语义倾向性的方法,在中文领域是否 还能和英文领域一样有效,尚未可知。如果说用这个实值的正负来判断中文词汇 的倾向性还能够有一定说服力的话,那么仅仅用这个实值的数值大小来说明该词 汇的倾向度这一点就实在很难令人信服了。而且,对于中文文本来说,它的类型 及内容变化范围都相当之大,使用词汇的手段与方式也各不相同,有时甚至连人 工都很难判断它的倾向性究竟如何。即使将研究范围缩小到确实具有一定倾向性 的文本上来,由于中文词汇使用方式及组合方式的灵活性实在太过强大,很难仅 仅使用一个p m i 值就判断它的倾向程度,更不用说凭借这些值去判断整篇文本 的倾向情况了。 为此,本文的实验中,仅仅将p m i 值作为文本信息中的一部分,添加到文 本分类器当中去。但是为了证明这个值是否真的能代表词汇的语义倾向性,以及 其对文本倾向性的贡献究竟如何,本文作者对此进行了深入的研究与探索,引入 聚类算法,对词汇语义倾向性作进一步分析和计算。用实验结果证明了p m i 值 的价值所在。在中文文本倾向性分析过程中,它虽然不能够表现的像t u m e y 的 实验中那么出色,但这个值确实还是包含了一定意义的。尽管不能够仅仅利用它 就得出文本的倾向性,但是将它作为一部分信息标注,是能够提高文本分类器的 性能的。而且,在使用聚类算法对词汇的语义倾向性标注进行加工之后,文本分 类系统性能的提高更说明了这种语义倾向性的价值。本文将在第四章中对这个实 验进行详细的介绍。 6 北京邮电大学硕上学位论文 第二章全信息方法论及语义倾向性理论 2 1 自然语言理解的全信息方法论 半个世纪以来,科学技术发生了飞跃的发展。特别是,在信息理论的指导下, 通信技术获得了突飞猛进的发展,使社会传递信息的能力得到了极大的加强。虽 然人们还在继续大力发展和完善自己的通信技术,通信的新技术仍是层出不穷, 但是,现在最令人发愁的事情已经不再是如何尽快尽好地传递信息,而是面对汪 洋大海般的信息,如何进行明智的加工并利用这些信息来聪明地解决各种复杂的 问题。换句话说,半个世纪以来最为重要和最有意义的发展之一,是社会在继续 推动通信快速发展的同时,对智能系统形成了日益强烈的需求。由于这个缘故, 智能系统的研究成为当代最引人注目的前沿之一1 3 l 。 一般来说,通信系统的作用是实现信息资源的传输与共享,智能系统的作用 则是要从信息资源中提炼知识,并利用这些提炼出来的知识解决各种复杂的问 题。可见,通信系统与智能系统都是属于信息领域的问题,都应当在信息理论指 导下求得发展;不过,两者又是属于信息领域不同层次的问题。因此,解决通信 系统问题可以利用s h a n n o n 信息论,解决智能系统问题则需要新的信息理论。 智能系统的研究之所以需要“新的信息理论一,主要的原因是由于信息传输 的实质是“波形复制 ,只需要利用信息的形式因素,完全排除信息的含义和效 用因素;而从信息中提炼知识和利用知识求解复杂问题,则不仅需要利用信息的 形式因素,而且要深入利用信息的含义和效用因素。我们把这种需要同时考虑信 息的形式因素、含义因素和效用因素的信息理论,称为“全信息理论一。这样,我 们可以把s h a n n o n 信息论称为“面向通信问题的信息理论一,而把全信息理论称 为。面向智能问题的信息理论 。 同s h a n n o n 信息论一样,全信息理论也把信息作为自己最基本的概念,只 是全信息理论的信息概念更为复杂而已。全信息理论认为,信息是一个复杂的研 究对象,需要划分层次来研究,其中最基本的层次是本体论层次和认识论层次。 本体论层次是纯客观的层次,不计主观因素的影响站在本体论层次来研究信 息,更便于把握信息本身的性质。认识论层次是主体认识的层次,站在认识主体 的立场来考察信息,更符合主体认识和利用信息的实际情况。因此,这两个研究 层次都是很基本而且很重要的:本体论信息概念是最基本的概念,而认识论信息 7 北京邮电大学硕i :学位论文 则是最有用的概念。 本体论层次的信息定义:事物的本体论信息,是事物“运动的状态及状态变 化的方式。认识论层次的信息定义:一个主体关于某个事物的认识论信息,是 这个主体所感受或所表述的关于该事物运动的“状态及其变化方式 的形式、含 义和效用。可以看出,本体论层次的信息定义与s h a n n o n 信息论的信息定义都是 形式化层次的概念,但本体论层次的信息不限于随机形式。然而,认识论层次的 信息定义就比它们丰富得多,也复杂得多。这是因为j 在任何实际的认识主体心 目中,信息都必然是“形式、含义和效用的三位一体。 在术语上,通常把与事物运动状态及其变化方式的形式因素相联系的认识 论信息称为语法信息,把与含义因素相联系的认识论信息称为语义信息,把与 效用因素相联系的认识论信息称为语用信息,而把语法、语义、语用信息的有机 整体称为全信息。它们之间的关系如图2 1 所示。 浯义信息 语法伯息 语用信息 图2 1 全信息概念的诠释嘲 如上所述,事物的“运动状态及其变化方式的形式是事物的语法信息,它 是可以直接观察到的结果。如果用某种符号来记录这些“状态 ,那么“状态及 其变化方式”就表现为符号及其转移的序列。这就是图l 的中间部分。一旦这种 “状态及其变化方式的形式 与它相应的实际“事物”联系起来,这种符号及其 转移序列就会具有具体的实际含义( 图1 的中间和左边部分) ,这就是语义信息, 它不再是抽象的符号,而成为十分具体的内容;进一步,如果“状态及其变化方 式的形式以及它的含义 一旦与特定的“认识主体”联系起来,它就会表现出对 主体目的的效用( 全图) ,这就是语用信息。 由此可见,语法信息是一个抽象的信息层次;语义信息是语法信息与其相应 事物互相关联的结果:语用信息则是语法信息、语义信息与认识主体相互关联的 结果,因而是最具体的层次。语法信息对于一切具有正常观察能力的主体来说是 一致的,语义信息对于一切具有相同理解能力的主体来说是一致的,它们只与 事物本身的情况有关。语用信息对于一切具有同样目的的主体来说也是一致的: 但是对于具有不同目的的主体,语用信息却不可能一致。可见,全信息概念是一 个有机的体系,从主体与客体联系的立场上全面刻画了信息问题。 8 北京邮电人学硕士学位论文 2 2 全信息理论与自然语言处理 2 2 1 自然语言理解与自然语言处理 要使机器能够理解人类的自然语言,显然是一个非常困难的问题。尤其,如 果要求机器达到像人一样的水平来理解人类的自然语言,就更是遥不可及;要使 无生命的机器系统同有智慧的人类一样理解人类的自然语言,几乎不可思议l 因 此,人们通常回避对自然语言进行“理解 的目标,退而求其次,希望利用一定 的方法和技术对自然语言进行某些“处理 。于是,在科学技术文献中就把这一 研究领域称为“自然语言处理( n l p ,n a t u r a ll a n g u a g ep r o c e s s i n g ) 一,而不是 “自然语言理解( n l u ,n a t u r a ll a n g u a g eu n d e r s t a n d i n g ) 一。 事实上,作为科学技术的研究目标,人们所追求的,不可能是具有与“人类 理解自然语言的能力 完全一样的机器,而是在“人类理解自然语言的机理 启 发下,实现机器对自然语言的搿一定意义上的 理解,正如飞机不同于飞鸟、雷 达也不同于蝙蝠那样1 1 1 j 。 一般而言,科学技术意义上的“自然语言处理”泛指对于人类自然语言所进 行的一切有意义的操作和分析,包括自然语言的分词操作、词性标注、词义标注、 搭配关系标注、语法分析、语义分析、语用分析、段落解析、篇章分析,以及与 此相应的各种语言学统计,如字频统计、词频统计、特征提取、关键词识别、短 语识别、专有名词识别、语言模型的统计和提取、虚词的识别、语句的表示、语 句的相关性计算,以及从大规模语料库的语料中提取各种典型的语句样本和语 言学规则等等,这些都是人们比较熟悉的内容。依据应用目标的不同,不同场合 所进行的自然语言处理的具体内容当然也会各不相同。 至于科学技术意义上的“自然语言理解 ,它是在“自然语言处理基础上 展开的一类操作目的是为了理解自然语言。可以认为,自然语言处理是实现自然 语言理解的必要基础:没有个基础,不可能实现自然语言理解l 所谓对于某种自 然语言实现了某种程度的“理解 ,可以过一些准则来判定l 以语句的理解为例, 这些准则可以包括: ( 1 ) 能够判断语句的结构是否合乎语法; ( 2 ) 能够判断语句的逻辑含义是否合理; ( 3 ) 能够以不同方式表达同一语句内容: ( 4 ) 能够把一种自然语言正确地表达为另一种自然语言: ( 5 ) 能够判断语句所表达的语言效用。 9 北京邮电人学硕上学位论文 满足其中的准则( 1 ) ,可以认为对语句实现了浅层的理解;满足准则( 1 ) ( 4 ) ,可以认为实现了中等程度的理解;如果5 个准则全部都能够得到满足,则 意味着实现了比较深层的理解,不仅把握了语句的语法结构和逻辑含义,而且了 解了它的效用价值。当然,机器对于自然语言的浅层理解相对比较容易实现,中 等程度的理解就比较困难,实现深层的理解就更为困难。但是,不同程度的理解 可以找到不同的用途i l 。 所谓“自然语言理解”,实际上是让机器理解人类自然语言所载荷的信息。 怎样才能对自然语言所载荷的信息实现某种程度的“理解 ? 首先需要了解信息 本身。因此,运用信息理论来研究自然语言的理解问题,应当是顺理成章的选 择。 2 2 2 自然语言中的全信息 按照信息科学的理论,自然语言所载荷的是一种“全信息 ,包括语法信息、 语义信息、语用信息几个互相联系又互相区别的层次。一般来说,如果理解了全 信息的“语法信息 ,只能说是理解了它的“形式”;如果进一步理解了它的“语 义信息 ,就可以说理解了它的“内容 :如果不仅理解了语法信息和语义信息, 而且还理解了它的“语用信息 ,就可以说理解了它( 相对于主体的目标而言) 的“价值 。对照上面列举的自然语言理解的5 个准则可以明白,准则( 1 ) 涉及的 是语法信息层次的问题:准则( 2 ) ( 4 ) 涉及的是语义信息层次的问题;准则( 5 ) 涉及的则是语用信息层次的问题。因此,为了理解自然语言所载荷的信息,就要 实现对它的语法、语义和语用信息的全面理解,即实现对“全信息 的理解。 联系上一节所介绍的全信息理论,可以知道,当面对某个事物( 比如自然语 言) ,如果通过分析它的语法信息了解了它的形式结构,通过分析它的语义信 息了解了它的逻辑内容,通过分析它的语用信息了解了它的效用价值,就可以 说“理解了这个事物 。或者更明确地说,如果了解了一个事物的语法信息,可 以认为对这个事物有了浅层的理解:如果了解了这个事物的语法信息和语义信 息,就可以认为对这个事物有了中等层次的理解;只有了解了这个事物的语法信 息、语义信息、语用信息( 即全信息) ,才可以认为对这个事物有了深层的理解。 这就是自然语言理解与全信息理论的关系。 在自然语言理解领域,当前还存在一种误解,即虽然承认仅仅进行语法分 析还远远不够,希望从语法分析的层次上升到语义分析的层次;但是认为只要把 语义问题分析清楚了,一切语言问题就都解决了。从全信息的观点来看,从语法 分析上升到语义分析当然是一个很大的进步;但是,语法信息、语义信息、语用 1 0 北京邮电大学硕十学位论文 信息是一个完整的系统,由语法层次上升到语义层次毕竟仍然是全信息的一部 分。“系统学 原理告诉我们,整体永远大于部分的“和 。因而不能满足于对 语法和语义层次的分析,一定要进入“语法、语义、语用三位一体的分析”,才 能达到深层理解的目的。道理很明显,由图1 的全信息概念就会明白,语义信息 只涉及符号及其相关事物,完全没有涉及到“认识主体”的因素。因此,凡是与 认识主体目的相关联的因素只有进入语用信息层次的分析才能得到澄清,而“语 用”往往j 下是自然语言理解最敏感、最要紧的因素。至于有些场合只要求对自然 语言进行浅层理解,自然就应另当别论。 2 2 3 全信息理论在自然语言处理方面的应用 2 2 3 1 明确具体问题所需要的理解深度 具体问题所需要的理解深度需要具体问题具体分析。全信息理论可以对认识 论层次信息给出全面的描述,这是其他理论不可比拟的优点。但是,也并非所有 语言问题都一定要同时涉及全信息的三要素。比如,语法检查只关心语句的语法 是否规范,只需要涉及语法信息;文本分类和机器翻译主要关心文本语义准确性 而不需要考虑主体因素,只需要涉及语法和语义信息;信息抽取或文本摘要问题 则需要区分文本中的主要部分和次要部分,而所谓主要和次要则与主体的目的 有关,于是就必须关注语用信息。信息内容安全监控的问题,因为需要分析文本 内容是否符合用户设定的安全目标,所以,需要利用文本的语用信息才能做出 判断l 一般来说,不同的语言问题需要利用不同深度的信息,应当在事先做出决 断l 根据实际的需要来利用相应层次的信息。诚然,在浅层理解的语言问题中应 用全信息理论并不会产生什么严重的错误,但是会带来不必要的计算复杂性和 资源浪费,这也是应当避免的。 2 2 3 2 设法在给定的自然语言序列中提取所需要的语法、语义和语用信息 按照定义,先要明确事物运动的“状态集合( 或状态矢量) 一及。状态变化的 方式。这里的“事物一就是自然语言序列,因此,这里的“状态矢量 实际上 就是表现自然语言序列基本特征的“特征矢量 ,“状态变化的方式一就是“特 征之间的衔接关系 ,也即状态矢量的具体构成方式。 北京邮电人学硕上学位论文 假定所关注的是自然语言的一个语句,这个语句可以看作是一个矢量,这 个语句的主语、谓语、宾语以及各种修饰成分可以看作是这个矢量的各个分量, 状态变化的方式就是这些成分之间的衔接关系。它们就描述了这个语句的语法信 息。如果所关注的层次是一个语言篇章,整个篇章也可以看作是一个篇章矢量, 它的分量就是满足某种要求的一些语句,状态变化的方式就是这些语句之间的 连接关系。它们描述了一个语言篇章的语法结构信息。 进一步,为了提取这些语句或篇章的语义和语用信息,就要在此基础上明 确这些“状态及其变化方式 的含义和效用。如果关注的层次是语句,那么“状 态及其变化方式 的含义和效用就是语句成分及其间的相互关系的含义和效用, 这可以从辞典( 全信息辞典) 中逐一检索出来,然后按照语句的语法规则由这些 “状态及其变化方式的语义和语用信息推断整个语句的语义和语用信息。如果 关注的层次是语言篇章,就需要在各个语句的语义和语用信息的基础上推断整 个语言篇章的语义和语用信息。 在不太严格的场合,可以用语句的“关键词矢量表征语句的语法信息和语 义信息,用篇章的“关键词矢量 表征整个篇章的语法信息和语义信息;用语句 的“词组矢量 表征语句的语用信息,用篇章的“词组矢量 表征整个篇章的语 用信息。由于“关键词 和“词组并不能全面地表达语句的信息,这种简化会 导致信息的丢失,导致自然语言理解水平的降级。本文中对文本的处理也是采用 的这种用“关键词矢量一表征整个篇章的做法。 2 3 全信息理论在本研究中的应用 根据前面的介绍,我们已经看到了在自然语言处理领域中全信息理论的价 值。本文中的研究课题是实现自动文本倾向性识别,首先可以明确的一点是,这 是一个典型的自然语言处理任务,按照全信息理论在自然语言处理中的应用中提 到,首先必须明确具体问题所需要对自然语言的理解深度。显然,要实现自动文 本倾向性识别,不仅仅是停留在对文本内容的简单理解,更是深入到了对其表达 的对于主体的效用信息的理解,属于深层次的自然语言理解任务,因此将全信息 理论用到我们的研究中来是毋庸置疑的。它其实就是想进一步扩大自然语言理解 的能力,在理解了其含义的基础上,去进一步深入理解其内在所表达的情感信息。 要做到这一点,无论是掌握全信息中的任何一种或者两种信息都是不够的,必须 要将语法,语义,语用信息三位一体地充分掌握,才能说有可能实现这样深层次 的文本理解。 因此,为了实现对文本的全信息理解,必须能够将文本中的三种信息都提取 1 2 北京邮电人学硕士学位论文 并表示出来。虽然说最好的方法是利用创建好的全信息辞典来完成这样的一种方 式来对文本中的三类信息进行表示,但是目前对于中文领域来说,尚未有完备的 成型的全信息辞典可供使用。在这样一个情况下,就需要我们采用其他可代替的 方法来实现这一过程。 在本课题研究中,我们将对语法、语义、语用信息的提取和表示分独立的三 步进行,一层层进行叠加,并将最终实现了三层信息标注后的文本放入文本分类 器中去实现根据其倾向性的分类。使用这样独立的三步标注方法的另一个好处还 在于,在实验的过程中,可以将三类信息标注过程简单地分割开来,甚至可以将 它们任意组合,通过
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 《茶壶》的读后感
- 2022年北京冬奥会闭幕式观后感
- 海水(咸水)淡化工程规划设计方案
- 供水管道换新改造项目可行性研究报告
- 幼儿故事文字排版设计
- 女性服装设计
- 山西省朔州市怀仁市第九中学高中部2023-2024学年高一上学期11月期中物理含解析
- 心理常识思维导图设计
- 大理护理职业学院《基础笔译》2023-2024学年第二学期期末试卷
- 吉林建筑大学《俄语口译》2023-2024学年第二学期期末试卷
- Qt 5 开发及实例(第5版) 课件 第9章 Qt 5模型-视图及实例
- 急性阑尾炎课件
- GB/T 45225-2025人工智能深度学习算法评估
- 2025年故宫博物院招聘事业编制工作人员历年高频重点模拟试卷提升(共500题附带答案详解)
- 全国高校辅导员素质能力大赛试题(谈心谈话、案例分析)
- 餐饮合伙人协议合同范本
- 2025年四川凉山州西昌市招聘事业单位工作人员119人历年高频重点提升(共500题)附带答案详解
- 2025高级会计师(四套全真模拟)《高级会计实务》案例分析及答案
- 蒙医学在肿瘤治疗中的应用
- 2025年全国保密知识竞赛题库及答案(共290题)
- 土石方工程施工安全责任协议书
评论
0/150
提交评论