(电力电子与电力传动专业论文)基于中文文字情感识别系统的研究.pdf_第1页
(电力电子与电力传动专业论文)基于中文文字情感识别系统的研究.pdf_第2页
(电力电子与电力传动专业论文)基于中文文字情感识别系统的研究.pdf_第3页
(电力电子与电力传动专业论文)基于中文文字情感识别系统的研究.pdf_第4页
(电力电子与电力传动专业论文)基于中文文字情感识别系统的研究.pdf_第5页
已阅读5页,还剩77页未读 继续免费阅读

(电力电子与电力传动专业论文)基于中文文字情感识别系统的研究.pdf.pdf 免费下载

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

西华大学硕士学位论文 实验证明了利用i n s i d e o u t s i d e 算法能够提高p c f g 规则集的概率参数值的精 确度,在保证识别效果的前提下,实现了系统对实时性的要求。最后对中文文 字情感识别的系统进行测试实验,并验证了其有效性。 关键词:情感计算,情感建模,情感识别,i n s i d e o u t s i d e 算法,嗍模型 西华大学硕士学位论文 r e s e a r c ho f e m o t i o n r e c o g n i t i o ns y s t e mb a s e do nc h i n e s et e x t p o w e re l e c t r o n i e sa n de l e c t r i c a id r i v e c a n d i d a t e :l u j i es u p e r v i s o r :w a n gj u n a b s t r a c t w i t ht h ed e v e l o p m e n to fc o m p u t e rn e t w o r kc o m m u n i c a t i o na n dm u l t i m e d i a t e c h n o l o g y , h u m a nm a c h i n ei n t e r a c t i o n ( h c i ) t e c h n o l o g yh a sb e c o m eaq u i t ea c t i v e r e s e a r c hi nt h ec o m p u t e rf i e l d t h er e s e a r c ho fa f f e c t i v ec o m p u t i n gc a ne n h a n c et h e c o m p u t e r si n t e l l i g e n c ea n dh u m a n i t yt od e v e l o pn e wm a n - m a c h i n ee n v i r o n m e n tt o p r o m o t et h ed e v e l o p m e n to fp s y c h o l o g y ,i n t e l l i g e n c ea n do t h e rs u b j e c t s i th a s i m p o r t a n tp r a c t i c a ls i g n i f i c a n c ea n dg r e a te c o n o m i ca n ds o c i a lb e n e f i t s u s i n gt h ec o m p u t e rt os i m u l a t et h eh u m a np s y c h o l o g i c a lb e h a v i o rh a sb e e n p u r s u e db yt h ep e o p l e a tp r e s e n t ,t h er e l e v a n tt e c h n i c a ls t u d i e sa r ef o r m i n gaf i e n d j a p a n ,t h eu n i t e ds t a t e sa n do t h e rd e v e l o p e dc o u n t r i e sh a v eb e g u nt od oe m o t i o n a l f i e l do fs c i e n c er e s e a r c ha n de x p l o r a t i o n t h e p u r p o s eo fa f f e c t i v ec o m p u t i n g r e s e a r c hi sm a k i n gm a c h i n e si d e n t i f y ,u n d e r s t a n d ,e x p r e s sa n da d a p tt op e o p l e s e m o t i o n i ft h ec o m p u t e ri s g i v e na b i l i t yo ff e e l i n g ss i m i l a rt oh u m a n ,s e n s ea n d e x p r e s s i o no fe m o t i o n ,m a n ,n a t u r ea n dm a c h i n ew o u l dr e a c hah a r m o n yo ft h e i n t e r a c t i o n f i r s t ,t h er e s e a r c hb a c k g r o u n do fa f f e c t i v ec o m p u t i n g ,t h ek e yt e c h n o l o g yo f a f f e c t i v ec o m p u t i n ga n dt h er e l e v a n ta f f e c t i v ec o m p u t i n ga r ei n t r o d u c e di n t h i s p a p e r a n dt h et e c h n o l o g yo fe m o t i o nr e c o g n i t i o n ,m o d e l i n ga n ds y n t a xa n a l y s i sa r e e l a b o r a t e di nd e t a i l b e s i d e s ,t h er e s e a r c ha n d d e v e l o p m e n to ft h i sf i e l di nd o m e s t i c 西华大学硕士学位论文 a n df o r e i g na r er e l a t e d s e c o n d ,t h em e t h o d so fa n a l y s i s ,t h ed e s i g nf o re m o t i o n r e c o g n i t i o no fc h i n e s et e x ta r es t u d i e d w ep a ym o r ea t t e n t i o nt ot h ep r o c e s so f a n a l y s i sa n dt h ei d e ao fd e s i g n t h ec o n t e n tm a i n l yi n c l u d e st h ef o l l o w i n g :s e t t i n g u po ft h ee m o t i o nd i c t i o n a r y , p a r t i c i p l ea n dl a b e l i n go fl e x i c a lc a t e g o r y , s e t t i n gu po f t h ec h i n e s ed i c t i o n a r y , e m o t i o nm o d e l i n ga n dr e c o g n i t i o na n dt h es y n t a xa n a l y z i n g o fp r o b a b i l i s t i cc o n t e x t - f r e eg r a m m e r w h e np a r t i c i p l i n ga n dl a b e l i n go fl e x i c a l c a t e g o r y , t h em e t h o do fh m m m o d e lw h i c hu s e st h en o t i n go fp a r to fs p e e c hi s s t u d i e d t h eh m mi sr e c o g n i z e da sav e r ye f f e c t i v ee m o t i o n a lm o d e l i n gm e t h o d w h e nd o i n ge x p e r i m e n tf o re m o t i o n a lm o d e l i n ga n dr e c o g n i z i n g e s p e c i a l l y , i t i m p r o v e st h ea c c u r a c yb yu s i n gt h ee m o t i o n a lm o d e l i n gm e t h o do fe m b e d d e d e - h m m a su s i n gt h es e n t e n c ea n a l y s i so fp r o b a b i l i s t i cc o n t e x t - f l e eg r a m m e r , t h e a l g o r i t h mo fi n s i d ea n do u t s i d ew h i c hi m p r o v e st h ea c c u r a c yo fp c f gr u l e sa b o u t s e t t i n gp r o b a b i l i t yp a r a m e t e rv a l u e si sp r o v e di nt h i sp a p e r , t h u sr e a l i z i n gt h es y s t e m d e m a n do fr e a l - t i m eu n d e rt h es i t u a t i o no fa s s u r a n c eo fr e c o g n i t i o ne f f e c t a tl a s t , t h ev a l i d i t yo ft h ec h i n e s ec h a r a c t e rr e c o g n i z i n gs y s t e mi sv e r i f i e dt h r o u g ht h e e x p e r i m e n t k e y w o r d s :a f f e c t i v ec o m p u t i n g ,e m o t i o n a lm o d e l i n g ,e m o t i o nr e c o g n i t i o n , t h ea l g o r i t h mo fi n s i d ea n do u t s i d e ,t h em o d e lo fh m m 西华火学硕士学位论文 声明 本人声明所呈交的学术论文是本人在导师指导下进行的研究工作及取得的研 究成果。除了文中特别加以标注和致谢的地方外,论文中不包含其他人已经发 表或撰写过的研究成果,也不包含为获得西华大学或其他教育机构的学位或证 书而使用过的材料。与我一同工作的同志对本研究所做的任何贡献均已在论文 中作了明确的说明并表示谢意。 本学位论文成果是本人在西华大学读书期间在导师指导下取得的,论文成果 归西华大学所有,特此声明。 作者签名: 导师签名: 7 8 h 幸壹, 1 研 i 码年s 月l d 日 。罗年 6 月甲日 西华大学硕士学位论文 1 绪论 1 1 研究背景 计算机科学技术的迅猛发展对人类社会产生了巨大的影响,一场信息革命 正在酝酿。在众多领域,计算机正逐渐代替人类完成一些极具挑战性的任务, 为了使人类与计算机能够更加智能更加自然的交互,新型的人机交互( h u m a n m a c h i n ei n t e r a c t i o n ,h c i ) 技术正逐渐成为研究热点。人类自然形成的认知习 惯和形式必定是人机交互的发展方向:一方面要求计算机能看、能说、能听、 能感觉,即能够智能的感知使用者的意图;另一方面,使用者可以不必坐在计 算机前通过鼠标和键盘操作计算机,而是可以在三维空间中以更加自然和人性 化的方式同计算机交流。总之,新型的人机交互环境具有自然化、智能化、人 性化等特点。 实时多媒体信息在新型人机交互环境中扮演着举足轻重的角色,计算机通过 采集图象信息和语音信息,形成计算机视觉和听觉,然后处理采集到的多媒体 信息进行识别,从而感知使用者的意图,完成人机自然交互。如何实现计算的 拟人化,使其能感知周围环境和气氛以及对象的态度、情感等内容,自适应的 为对话对象提供最舒适的对话环境,尽量消除使用者和机器间的障碍,已经成 为下代计算机发展的重要目标。研究表明,在人机交互中需要解决的重要问题 与人和人交流中的重要因素一致,关键都是“情感智能 的能力。计算机要能 够更加主动适应操作者的需要,首先必须能够识别操作者的情感,而后再根据 情感的判断来调整交互对话的方式。对于情感信息的处理技术的研究包括多个 方面,主要有情感特征分析、情感识别( 例如肢体情感识别、面部情感识别和 语音情感识别等) 、情感模拟( 例如情感语音的合成) 。目前,关于情感信息处 理的研究正处在不断深入之中,其中中文文字的情感信息处理的研究也越来 越受到人们的重视。 中文文字的情感信息是重要的信息资源,它是人们感知事物必不可少的部 分。例如同样一个词或者一句话,在不同的上下文中或者在不同的语句中所表 达的情感信息就有可能不同的。在操作者的感知上就会有较大的差别,然而, 传统的自然语言处理技术瞳1 把这部分信息作为模式的变动通过规则化处理给去 西华大学硕士学位论文 掉了。实际上,人们同时接受各种形式的信息,怎样有效的利用各种形式的信 息以达到最佳的信息传递和交流效果,是今后信息处理研究的发展方向。因此 中文文字情感信息的研究,分析中文文字中的情感特征、判断说话人的喜怒哀 乐是一个具有重大意义的研究课题。 目前对人类情感模型口4 儿5 3 的研究讨论正形成一个新的研究热点。 1 2 情感识别旧7 3 的研究领域及应用 文字情感识别,就是通过分析句子中文字对应的情感,利用计算机从文字 中准确的提取情感特征,并根据这些特征确定被测对象的情感状态。对于传统 的自然语言处理把文字中的非语义部分通过规则化给去掉了,然而这部分恰恰 是人们感知文字中所表达情感的必不可少的信息。因此对自然语言的处理在一 定程度上可以说是对这部分被去掉信息的复权研究。特别需要指出的是,文字 情感识别和人的情绪识别是两个不同概念。人的情绪是多种因素影响的结果, 这些因素的状态可能表现出来,也可能不表现出来,其表现的方式是多样的, 比如脸部表情、姿态、手势、眼睛凝视的方向,当然也包括情绪化的语音。情 绪一般能够完全体现人的意图,但由于文字情感与所处的情绪状态并不是一一 对应的,某些情绪并不通过可视的情感文字变化表现出来,即使人类自身也很 难十分准确地仅通过文字来理解一个人的情绪状态,往往要借助于当时特定的 环境以及上下文信息,这便对使用计算机进行人脸表情识别的研究提出了挑战。 另一方面,情感文字又和内在的情绪有着密切的联系,情绪是情感文字的重要 来源,大多数情感文字都由特定的情绪所支配。由此可见情感文字在人们交流 过程中起着重要的作用,使用计算进行文字情感识别进而确定人的内心情绪【8 】【9 】 的研究是完全可行的。 文字的情感识别是目前模式识别领域的一个新的研究热点,在许多领域有着 重要的意义,涉及的领域有:心理学研究、虚拟现实技术、新型的人机交互技 术、模式识别、人工智能等。 情感计算将有效地改变过去计算机呆板的交互服务,提高人机交互的亲切性 和准确性。一个拥有情感能力的计算机,能够对人类的情感进行获取、分类、 识别和响应,进而帮助使用者获得高效而又亲切的感觉并有效减轻人们使用 2 西华大学硕士学位论文 电脑的挫败感,甚至帮助人们便于理解自己和他人的情感世界。情感计算技术 将产生可穿戴的计算机系统。例如,通过接触式情感信号采集装置测量穿戴者 的呼吸、心率、血压、出汗、体温、肌肉反应、皮肤等信号,判断出穿戴者的 情感状态,为穿戴者记录状态数据,提出保健建议,或发布健康报警。它还能 帮助我们增加使用设备的安全性。例如可以对司机进行情感监测,当系统探测 到司机精力不集中或者情感发生变化时,可以随时提醒司机,并可根据结果自 动控制,及时改变车的状态和反应。情感计算技术还可以使经验人性化、使计 算机作为媒介进行学习的功能达到最佳化并从我们身上收集反馈信息。例如, 情感地毯可根据脚的压力自动生成各种音乐。情感计算和相关研究还能够给涉 及电子商务领域的企业带来实惠。例如,购物网站和股票交易网站在设计时研 究和考虑影响人的情绪的一些媒体因素。将对客流量的上升产生非常积极的影 响。在信息家电和智能仪器中,增加自动感知人们的情绪状态的功能。可以提 供更好的服务。例如,情感c d 可以根据人的情感播放乐曲,当人高兴时。它会 自动播放快乐的曲子,并可根据自己的口味,自动选曲。在远程教育平台中情 感计算技术的应用可以帮助教师监测到远程学生的情感变化,并适当调整自己 的状态和方法,使教学质量达到最佳。利用多模式的情感交互技术,可以构筑 更贴近人们生活的智能空间或虚拟场景等等。情感计算还能应用在机器人、智 能玩具、游戏等相关产业中,以构筑更加拟人化的风格和更加逼真的场景。例 如:目前的计算机棋类机不具备情感表达能力而应用情感计算技术的计算机 棋类机可以模拟各种情感类型棋手,如进攻型或防御型棋手的情感行为。 1 3 研究现状旧剐 1 3 1 国外研究概况 在国外,实力雄厚的科研机构、企事业单位都投入到了情感信息处理研究 中。例如,在欧洲和美国,各大信息技术实验室正加紧进行情感计算系统的研 究。“环境智能”、“环境识别”、“智能家庭”、“情感鼠标”和“瑞士军 刀等科研项目成为剑桥大学、麻省理工学院、飞利浦公司等开辟这一领域的 敲门砖。其中,m i t 对情感计算进行全方位研究,正在开发研究情感机器人,最 西华大学硕士学位论文 终有可能人机融合。其媒体实验室通过记录人面部表情的摄像机和连接在人身 体上的生物传感器来收集数据,然后由一个“情感助理”来调节程序以识别人 的情感。i b m 公司的“蓝眼计划”,可使计算机知道人想干什么。如当人的眼瞄 向电视时,它竞知道人想打开电视机。它便发出指令打开电视机。此外该公司 还研究了情感鼠标。可根据手部的血压及温度等传感器感知用户的情感。c m u 主要研究可穿戴计算机。日本新开发的情感机器人取名“小i f ”可从对方的声 音中发现感情的微妙变化,然后通过自己表情的变化在对话时表达喜怒哀乐, 还能通过对话模仿对方的性格和癖好。 1 3 2 国内研究概况 国内研究主要侧重于单元理论与技术的研究与实现哈尔滨工业大学以高文 教授为主,研究多功能情感机,主要包括表情识别,人脸识别,人脸检测与跟 踪、手语识别、手语合成、表情合成、唇读等内容,并与海尔公司合作研究服 务机器人。东南大学的学者寻找不同情感信号特征的构造特点和分布规律,并 提出了基于删d 进行情感特征识别的方法;此外,他们还开发了“表情识别系统”。 测试者在该系统中做出喜、怒、哀、乐、厌恶、害怕等6 种表情中任何一个表情, 计算机可以确认是何种表情。中国科学院计算技术研究所王兆其的研究组正在 研究带有表情和动作的虚拟人。北京工业大学正进行多功能感知机同情感计算 的融合研究。中国科学院自动化研究所主要研究基于生物特征的身份验证。南 京航空航天大学、南京机械高等专科学校研究语音情感计算。重庆大学主要研 究智能服务、增强现实、环境感知、智能手表等。注重软件方面的研究。海南 大学主要研究军用无线局域网结构中的可穿戴计算机。中科院心理学所、生物 所主要注重人生理学、心理学方面的研究。特别是中科院计算所高文教授提出 的多功能感知技术。为情感计算的研究提供了很好的知识积累。这说明,情感 计算的研究在我国也正在如火如荼的开展起来。就目前而言,国内的研究大多 停留在理论上面,因为存在着许多难点未能攻克,总的说来分为以下几点: 1 情绪心理学理论的多样性导致情感计算理论的方法不一致,以至于很难找到 适用于信息科学的情感计算的统一理论的方法。 2 目前几乎还没有符合人类情感规律并适于机器实现的情感计算自动生成模 4 西华大学硕+ 学位论文 型,并且在近期内能否构造出这种模型令人怀疑( p i c a r d 与e v ah u d lic k a 进行批 判与反批判的主要内容之一) 。 3 没有帮助情感计算研究者的计算机仿真平台和情感计算库。 4 如何从多模态角度进行情感信息融合、识别与理解实现自然和谐的人机交 互平台环境。 5 情感计算的研究成果如何与较成熟的人机交互环境相结合,实现和谐人机交 互技术应用的重大突破。 1 4 课题主要内容 本文主要从情感计算和自然语言理解两个方面对以中文文字情感识别系统 的应用进行分析研究,并构建了系统实验平台。具体内容如下: 1 ) 结合情感计算的实际情况和要求对情感识别系统的分析能力和影响因素 进行了分析,并提出了改善和提高识别率的一些措施。同时针对情感建模、句 法分析等问题给出了一些初步解决方法。 2 ) 研究了汉语感性词典的构筑方法,同时还研究了词性标注的模型及其算 法。该工作作为中文文字情感预料库的构建的基础。 3 ) 研究了基于隐马尔可夫情感建模方法。根据隐马尔可夫模型h m m 的基本 理论和算法研究设计了一个e h m m 情感模型。该模型的构成:子层( 即低层) h m m 由3 个h m m 组成,分别对应3 种心理情绪状态。外部刺激经过子层初步识 别,其输出组成高级层h m m 的观察向量,经过高层h m m ,确定情感输出,从 而提高了模型的准确性。 4 ) 在句法分析算法方面,本文研究了p c f g 独立性假设的局限性,并针对这一 局限性研究分析了句法结构共现的概念以引入上下文信息,给出了计算方法; 为了打破中文树库规模过小的局限性,对于句法规则参数的获取,本文利用 i n s i d e o u t s i d e 算法进行迭代,最后研究分析了一个基于统计模型的自顶向下 的汉语句法分析器。在封闭测试下,其标记精确率和标记召回率分别为8 8 1 和8 6 8 。实验结果表明,这种方法能够提高标记的精确率和召回率,值得 继续深入研究。 西华大学硕士学位论文 1 5 论文结构概要 论文共分为八章,主要内容概要如下: 第一章介绍了课题的研究意义、研究现状,概述了情感计算所涉及的研究领域 及其潜在的应用范围,同时分析和提出本文的主要研究工作。 第二章简要介绍基于语言理解的处理方法中的主要问题,借助现有的词法分析 和句法分析技术,阐述了语料库自动多级加工的方法、意义和应用。 第三章介绍了情感计算概念、研究内容、关键技术及其应用领域。 第四章研究分析了e h m m 模型。此模型可较好的模拟情感状态自发转移的动 态过程,可用于情感机器人的情感模拟计算。 第五章研究分析了中国汉语词典的构筑过程,为情感语料库的建成打下基础。 第六章研究基于概率上下文无关文法的汉语句法分析,并通过实验进行验证。 第七章系统的实验部分,对文字进行情感测试。 第八章对全文进行了总结,并对后续研究工作进行了展望。 6 西华大学硕士学位论文 2 自然语言理解2 m 0 3 的概念与技术 2 1 引言 为了使计算机能够真正的理解语言,必须以某种语言模型描述自然语言的 规律。常用的语言模型分为两种:一种是以基于知识的方法为代表的理性主义 方法,该方法以语言学理论为基础,强调语言学家对语言现象的认识,采用非 歧义的规则形式描述或解释歧义行为或歧义特性。另一种是以基于语料库的统 计分析为基础的经验主义方法,该方法更注重数学方法,从能代表自然语言规 律的大规模真实文本中发现知识,抽取语言现象或统计规律。 所有计算语言的方法必须依托于一定的语言学资源,而不同的语言学资源 往往带有不同的标注集。这些资源的不同完全来源于语言学家对语言现象的不 同理解。本章主要介绍目前在中文信息处理中比较通用的分类方法和标准,那 些标准都是语言学家依据这种分类建立的一些语言学资源,包括北京大学的现 代汉语语法信息词典、同义词词林、“知网( h o w n e t ) 等n n 2 儿4 刚h 9 1 。 句法分析是语言学理论和自然语言应用的一个重要桥梁。一个实用、完备、 准确的句法分析是计算机真正理解自然语言的基础,而自然语言中存在的大量 歧义现象是对句法分析的巨大挑战。随着语料库语言学的发展,句法分析的研 究方向正在转向大覆盖度的分析。本文将介绍基本的中文句法分析中常用的文 法和算法一概率上下文无关文法( p r o b a b i l i s t i c c o n t e x tf r e eg r a m m e r ) 。 随着计算语言学界从理性主义向经验主义的转移,语料库语言学和语料库 的自动大规模加工越来越受到人们的重视。1 9 9 0 年8 月在赫尔辛基举行了第1 3 届国际计算语言学大会( c o l i n g 9 0 ) ,会前讲座的主题是“处理大规模真实文 本的理论、方法和工具”,它确定了计算语言学今后一个时期的主要战略目标。 英语语料库的建设比较早,相继出现了不同规模和加工深度的语料库,如2 0 世纪6 0 年代的百万次的b r o w n 语料库、7 0 年代的千万次的b i r m i n g h 锄语料 库及9 0 年代几百万次的p e n n 树库,目前研究的重点已从词性标注向句法分析、 词义标注方向转移。这些语料库及其加工方法极大地推动了英语的自然语言处 理的发展。相比之下,汉语语料库的研究相对欠缺,无论是语料规模、加工深 7 西华大学硕士学位论文 度,还是加工方法、工具和基于语料库的知识获取等语料库的语言学理论,都 落后于英语,这在一定程度上制约了汉语自然语言处理的发展。 在本章主要研究汉语语料的获取、自动a n t 及切分词的技术。对词性标注 的h m m 模型进行了研究,同时对v i t e r b i 词性标注算法进行了分析。 2 2 语言理解的分类标注体系n 叩n 3 1 2 2 1 词性分类体系 词的词性分类是以语言学界的分类为基础的,可分为名词、时间词、处所 词、方位词、动词、形容词、状态词、区别词、数词、量词、代词、介词、副 词、连词、助词、语气词、象声词、叹词【1 0 】等。 目前常见的比较有影响的词性标注集有北京大学计算语言研究所的现代汉 语语法信息词典关于3 9 个词类的定义。 2 3 语言理解的语法理论n 们 2 3 1 浅层语法分析技术 浅层语法分析( s h a l l o wp a r s i n g ) 也叫组块分析( c h u n k i n g ) ,或者成为 局部语法分析( p r a t i a lp a r s i n g ) 。这种分析技术的提出源于下面的这种情况, 自然语言处理层次可分为词、短语和句子3 个不同的层次单位。而有的语法理 论可直接从词生成语法分析结果,并没有通过短语这个层次。这就不可避免的 有大量的歧义问题,这些问题不仅会降低算法的运行效率,而且常常因此得不 到正确的结果。实践证明,有必要将组块分析与语法分析分开处理,使基本的 组块分析能够象词性标注一样取得较好的正确率,从而为后续的语法分析打下 坚实的基础。 常见的浅层语法分析主要有两类:一类是基于统计的,另外一类是基于规则 的。在这里我们介绍的是基于统计的隐马尔科夫模型的方法n 们口钔n 5 1 。 隐马尔科夫模型( h 涮) 是从语音识别中发展起来的种统计技术。c h u r c h 进一步把h m m 用于识别英语中简单的非递归的名词短语,他把短语边界识别问 西华大学硕士学位论文 题划为在词类标记对之间插入n p 的左边界“ “和n p 右边界的问题” 。一对 词类标记之间只有 , , ,空等4 种情况,最后一种情况可以进一步分为在 n p 内和在n p 外两种情况。首先在有词性标注的语料中人工或半自动标注n p 边 界,以此作为训练数据;然后统计出任意一对词类标记之间出现以上5 种状态 的概率。统计得到的概率就成为短语边界标注的根据。这实际上把短语边界识 别问题变成了一个与词性标注类似的问题。 2 4 语料库多级加工 2 4 1 语料库的多级加工 所谓语料库标注或加工就是对电子语料进行不同层次的语言学分析,并添 加相应的“显性解释性语言学信息的过程。语料库是否能成为一个名副其实 的语言知识库,不仅与其本身规模、分布的多样性和均衡性有关,更重要的是 与其加工的深度层次有关系。通常只有经过不同层次加工的“熟语料才可真 正用于自然语言处理系统的训练、测试和评价。对于未经加工的生语料( r a w c o r p o r a ) ,由于语言学信息是“隐性”存在,所以能直接获取的是非常初级的有 关字或词的统计知识,只有在对语料库进行一层一层的标注之后,使语料库由 “生 到“熟”,使生语料中“隐性”语言学知识“显性化,方能从语料库中 获取更多、更有用的语言学知识。层次越高,所能获取的语言学知识越丰富, n i 难度越大。 与不同层次的自然语言分析相对应,语料库的加工主要包括词性标注、句 法标注、语义标注和语用标注等口0 。,由于汉语书写的特殊性,汉语的语料加工 还包括分词。如表1 1 所示,目前大多数的语料库力n - f _ 集中在词性标注上。句 法标注正处于一个迅速发展时期,而其他层次的语料加工还处于起步阶段。 9 西华大学硕士学位论文 表1 1英语和汉语语料库标注情况对比 t a b l e l 一1 c o m p a r i s o nb e t w e e ne n g l i s ha n dc h i n e s ew o r d b o o kl a b e l l i n g 语言层英语标注情况汉语标注情况 词性( p a r to fs p e e c h )基本实用化迅速发展 句法( s y n t a c t i c )迅速发展大多在发展 语义( s e m a n t i c )存在一些,大多在发展 起步 言语( d i s c o u r s e ) 很少,起步无 语用( p r a g m a t i c l 很少,起步无 目前,语料库的j n - r 方式主要有3 种,即人工、自动和人机结合的半自动 方式。由于自然语言处理技术的限制,自动加工方式会给语料库标注带来一些 错误,而人工加工方式非常昂贵,需要大量的人力资源。相比之下,半自动加 工方式则兼顾两者的优点。人机结合的方式有两种:一种是由计算机自动选择 语料库中需要人干预的自动加工方式不能解决的部分,从而减少人的工作;另 一种则是先由计算机对加工的语料进行自动加工,然后由人工校对。 歧义消解研究与语料库的多级加工关系紧密,如图卜2 所示。一方面,高 性能的歧义消解技术是实现语料库加工自动化的关键技术。 1 0 西华大学硕士学位论文 f i 9 1 - 2r e l a t i o nb e t w e e nw o r d b o o kp r o c e s sm u l t i l e v e l l ya n dd i f f e r e n tm e a n i n g sr e s o l u t i o n 图卜2 语料库多级加工与歧义消解的关系 2 5 分词 词是自然语言理解中有意义的最小构成单位,但是汉语文本是基于字的, 词与词之间没有显性的界限标志,因此词语边界识别是汉语语法分析中首先要 解决的问题之一。汉语自动分词就是把没有分割标记的汉语字串转换到符合语 言实际的词串。目前困扰分词的两个主要的问题就是歧义消解和未登录词的识 别问题。汉语自动分词是所有中文信息处理的基础,同时也是语料库自动加工 的基础。它的准确性也会直接影响到语料库加工的所有后续步骤,包括词性标 注和句法分析层次。 2 5 1 中文分词面临的关键问题1 6 3 1 ) 汉语分词的通用词表 西华大学硕士学位论文 词是最小的能够独立活动的有意义的语言成分,但是汉语句子的连写使汉 语的语素和短语之间没有清晰的界限,因此词界限的界定缺乏自然标准,这给 词典的编撰造成了极大的困难。 分词需要有一个通用的且与领域无关的核心词典,分词时词典中的词应该 被切分出来。在建立词典时,对于哪些词应当被收录,己提出各种规则,但这 些规则难以操作,使得收词的标准难以把握。至今为止,分词系统仍然没有一 个统一的具有权威性的分词词表作为分词依据。 2 ) 汉语分词的切分规范 计算机对输入的文本进行处理后,输出的词串我们称之为“切分单位”或 “分词单位。信息处理用现代汉语分词规范中对于“分词单位 定义如下: 汉语信息处理使用的、具有确定的语义或语法功能的基本单位。分词系统可以 面向解决实际问题的需求和真实语料中使用的频繁程度来规定分词单位。分词 单位可以是同词表中词完全一致,也可以是包含未登录词识别以及一些词法分 析的切分单位。因此,对于一个分词系统而言,制定一个一致性的分词单位切 分规范无疑也是一个重要的问题。 3 ) 汉语分词的分词算法 在将一个句子分词的过程中,会出现几个合法的词串,就会产生歧义,即 会出现歧义切分的问题:随着语言不断的发展和变化,新词和衍生词会不断的出 现,这些词不可能全部被囊括到词典中,即会出现未登录词识别的问题。因此, 在编写汉语分词算法时,就需要排除歧义,识别出未登录词,从多个合法词串 中选择出正确的切分方式。 2 5 1 中文自动分词方法n 7 3 我们可以将常用的中文自动方法分为以下两种:基于机械切分的分词方法、 基于统计的分词方法。 1 ) 基于机械切分的分词方法 机械分词又称为形式分词,是基于字符串匹配的原理进行的,它按照基本的 切分规则将待切分的汉字串与分词词典进行匹配,若在词典中找到某个字符串, 则匹配成功,即可以切分出一个词。其主要的分类方法有以下几种:分词时按照 西华大学硕士学位论文 扫描方向的不同,机械分词法可以分为正向匹配法和逆向匹配法:分词时按 照不同长度优先匹配的情况,可以分为最大匹配法和最小匹配法:匹配不成功时 按照重新切取的策略不同,可以分为增字法和减字法。 为机械分词法建立一个结构模型,其函数形式表示为a s m ( d ,a ,m ) ,其中, d d + l ,一1 :表示匹配方向,+ 1 表示正向,1 表示逆向; 口彳 + 1 ,一1 ) :表示匹配失败后增加或减少字符串长度,+ 1 为增字,1 为减 字; 柳m + 1 ,一1 :表示最大或最小匹配,+ 1 为最大匹配,1 为最小匹配。 常用的几种机械分词方法有:正向最大匹配法、逆向最大匹配法、双向扫描 法、最少切分法、二次切分法等。 2 ) 基于统计的分词方法 在文本中,相邻的字同时出现的次数越多,就越有可能构成一个词,所以字 与字相邻共现的频率能较好的反映成词的可信度。基于统计的分词方法就是通 过采用字串的统计频率信息实现分词,适用于大规模开放性语料。它是以概率 论为理论基础,将汉语文本中汉字串的出现抽象为一个随机过程,其参数可以 通过大规模的汉语语料库来训练得出。基于统计的分词方法只需对语料中的字 组频度进行统计,不需要切分词典,因而又叫做无词典分词法。但这种方法经 常会抽出一些共现频度高、但并不是词的常用字组,并且对常用词的识别精度 差,时空开销大。 2 5 2 分词中歧义处理与未登陆词识别 1 ) 分词过程中的歧义处理n 鲫 分词过程中歧义产生的根源可以归结为三个方面:1 由自然语言的二义性引 起2 由计算机自动分词产生的特有歧义3 由于分词词典的大小而引起的歧义。 歧义切分字段从构成形式上主要有:交集型歧义切分字段和组合型歧义切分 字段,其中交集型歧义切分字段又占全部歧义切分字段的绝大多数( 约占全部歧 义的8 5 以上) 。目前歧义识别的方法大致有三种:基于规则的方法、基于统计 的方法以及基于句法一语法分析的方法。 交集型歧义切分字段:在字段s = a b c 中,a b 和b c 都是词,则字段s 称 两华大学硕士学位论文 为交集型歧义切分字段,b 称为交段,其中a ,b ,c 为字串。例如“不满意” 和“不满意两种切分结果。 对于交集型歧义切分字段,当对大规模真实文本处理时,在大多数场合下, 不需要考虑上下文,仅从交集型歧义字段分身就能得到该切分字段所需要的自 足信息。所以,一般采用基于统计的方法或者基于规则的方法就可以较好的处 理歧义切分,效果明显。 组合型歧义切分字段:在字段s = a b 中,s ,a 和b 三者都分别成词,则a b 为组合型歧义切分字段,其中a ,b 为字串。例如:“马上”在以下两个句子中 的切分,“我马上走。和“他骑在马上。” 组合型歧义字段的发现比交集型歧义字段要容易,但是解决却要比交集型 歧义字段困难的多。因为组合型歧义字段本身就是歧义词,非歧义词包含在歧 义词中,所以无法通过歧义字段本身来获得正确切分的特征信息,只有通过考 虑确定的上下文环境,用其前后汉语字或词的句法、语义和语用信息来判断推 理,才能得到正确的切分形式。对组合型歧义字段的处理可以在规则解释时与 句子分析同时进行,因为在分析过程中可以获得更多的词的信息及相关的上下 文信息。 2 ) 分词算法中的未登录词识别n 町 在实际文本处理中,会遇到许多分词词典不能识别的词汇,我们称之为未 登录词。未登录词包括专有名词和非专有名词两大类。专有名词包括人名、地 名译名、机构组织名、商标号等:非专有名词包括新词、简略语、方言、行业用 语等。面前关于未登录词识别的研究,一般集中在专名上。 如何识别未登录名词短语,现在有两种解决策略:个别解决和整体解决。 个别解决通过建立专名资料库和利用上下文信息法针对某一类未登录词进行识 别,而整体解决通过语料库统计、词性标注等方法对未登录词进行处理。 2 5 3 几种典型的中文自动分词系统啪3 自从8 0 年代初中文信息处理领域提出了自动分词以来,一些实用性的分词 系统逐步得以开发,其中几个比较有代表性的自动分词系统在当时产生了较大 的影响: 1 4 西华大学硕士学位论文 1 c d w s 分词系统:它是我国第一个实用的自动分词系统,是1 9 8 3 年由北京 航空航天大学计算机系设计实现的,它采用删方法,辅助以词尾字构词检错技 术,使用知识库进行纠错。其分词速度为5 1 0 字秒,切分精度约为1 6 2 5 。 2 清华大学s e g t a g 系统:此系统使用有向图将各类的信息进行综合,从有 向图上搜索最佳路径,使用评价函数以获得最佳分词方法。通过实验,该系统 的切分精度基本上可达到9 9 左右,切分速度约为3 0 字秒。 3 哈工大统计分词系统:该系统是一种运用统计方法的纯分词系统,将串频 统计和词匹配结合起来。此系统能够利用上下文识别大部分生词,解决一部分 切分歧义,但是统计分词方法对常用词识别精度差的缺点还仍然存在。经测试, 此系统的分词错误率为1 5 ,速度为2 3 6 字秒。 4 北大计算语言所分词系统:该系统属于分词和词类标注相结合的分词系 统。系统的算法综合了多种数据组织和搜索技术,以很低的时空开销实现了高 速匹配和查找,同时采用了当代计算语言学的统计方法,运用隐m a r k o v 过程进 行词类标注和排歧,对算法的效率和稳固性都作了尽可能的优化。该分词连同 标注的速度高达每秒5 千词以上。 5 i c t c l a s 词法分析系统:i c t c l a s 系统是基于层叠隐马尔可夫模型的汉语 词法分析系统,其功能有:中文分词、词性标注、未登录词识别等。它的分词正 确率高达9 7 5 8 0 7 0 ,分词和词性标注处理速度为3 1 5 k b s 。 2 6 词性标注 2 6 1 词性标注的隐马尔可夫模型2 1 3 h m m 作为一种简单而有效的数学模型,在自然语言处理、语音识别、生 物信息学很多领域得到了广泛的应用。 原理: 定义:一个隐马尔可夫模型是一个五元组:( q x ,q d ,彳,b ,刀) 其中: q x = q 曰v ) :状态的有限集合。 西华大学硕士学位论文 q d = 1 ,l ,吖) :观察值的有限集合。 a = 扣i ) ,口 = 尸( x 川= g ,ix ,= g ,) :转移概率。 b = k ) ,b 珐= hd ,- - v ki x ,= g ,) :输出概率。 词性标注是在给定词( 观察值) 序列,求可能性最大的词性( 状态) 序列。 现在假设形是分词后的词序列,t 是形某个可能的词性标注序列,其中丁“ 为最终的标注结果,即概率最大的词性序列,则有 w = ( w l ,w 2 ,w 用) ,t = ( f l ,f 2 ,t 聊) ,m 0 ,t 样= a r gm a xp ( rw ) 根据贝叶斯 从卉【2 2 】【2 3 】【2 4 】 , p ( t ir v ) = 尸( 丁) 尸( 形i 丁) p ( 形) 对于一个特定的词序列来说,p ( w ) 是一个常数,因此根据上面两个公式,我们 可以得到 t “= a r g m a xp ( t ) p ( wi 丁) ( 2 1 ) 引入h m m 来计算尸( 丁) 尸( 形l 丁) ,得 p ( t ) p ( wt ) = n p ( it , 汩( f ,it ,- 1 ) ,= 】 故儿a r g 峄珥盹批,i t i _ 1 ) ( 2 2 ) ( 2 3 ) p ( w jt , ) 和p ( t ,t h ) 是式( 2 3 ) 中两个关键的参数。其中p ( 嵋li ) 指的是词性 为f f 的中词w f 的概率;p ( t ,t h ) 表示的是词性f h 的转移概率。 在大规模熟语料库中,根据大数定理,我们可以得到: p ( it ,) zc ( w j ,t ,) c ( t ,) 其中c ( w ,) 表示w f 的词性为t f 时出现

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论