(教育技术学专业论文)基于儿童心理调适的对话系统研究.pdf_第1页
(教育技术学专业论文)基于儿童心理调适的对话系统研究.pdf_第2页
(教育技术学专业论文)基于儿童心理调适的对话系统研究.pdf_第3页
(教育技术学专业论文)基于儿童心理调适的对话系统研究.pdf_第4页
(教育技术学专业论文)基于儿童心理调适的对话系统研究.pdf_第5页
已阅读5页,还剩55页未读 继续免费阅读

(教育技术学专业论文)基于儿童心理调适的对话系统研究.pdf.pdf 免费下载

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

基于儿童心理调适的对话系统研究 教育技术学专业 研究生宋德洪指导教师王玲 教育技术的目的是为了促进学习和提高绩效,在一个信息技术高速发展的 时代,如何有效获取信息和传递信息是值得关注的两大问题。人机对话系统的 研究正是聚焦在这两大问题上,力图使信息的获取和传递变得更加轻松自然, 使人们可以更加方便自如地与计算机进行信息交互 现代社会中,人们在工作、学习、生活压力增大的情况下,几乎都会遇到 心理烦恼问题,这一般可以自我调整,也可找朋友、亲戚、心理医生帮助调整, 即借助社会支持体系来解决,只需聊天式的心理咨询。现在的儿童与他人的沟 通却越来越少,心中积压的烦恼越来越多,以至影响到儿童正常的学习和生活。 如果能够开发一款基于儿童心理调适的对话系统,儿童在与其聊天的过程中, 倾述心中烦恼,减轻心理压力,告诉儿童一般的心理卫生知识和调解方法以及 一些建议,帮助培养儿童自我调适能力。 本文的目标是在对人机对话系统所需技术进行深入研究的基础上,实现一 个儿童心理调适的汉语人机对话系统,研究重点是系统框架的构建、语言处理 技术的应用以及对话管理方法的选择。 本文在结合分析了汉语的句法、语义、语用等多种知识源后,实现了一个 适用于儿童心理调适的对话系统。作者收集了领域内的v 1 语语料,并分析了儿 童会话中的各种语言现象,从中提取出基于言语行为的儿童语言类型,并提出 了基于事件的儿童心理状态分析的方法。该方法可以记录儿童在一定事件中的 心理状态变化,并追溯其原因。通过实验验证是有一定效果的。 关键词:人机对话系统,自然语言处理,词法分析,句法分析,语义语用分析 r e s e a r c ho np s y c h o l o g i c a l a d j u s t m e n to fc h i l d r e nd i a l o g u es y s t e m g r a d u a t es t u d e n t :s o n gd e - h o n g t u t o r :w a n gl i n g e d u c a t i o n a lt e c h n o l o g yi st h es l u d ya n de t h i c a lp r a c t i c eo ff a c i l i t a t i n gl e a r n i n g a n di m p r o v i n g p e r f o r m a n c eb ya e a t i n g , u s i n g a n d m a n a g i n ga p p r o p r i a t e t e c h n o l o g i c a lp r o c e s s e sa n dr e s o u n :e s w i t ht h e h i g h - s p e e dd e v e l o p m e n to f i n f o r m a t i o nt e c h n o l o g y , h o wt or e c e i v ea n ds e n di n f o r m a t i o ne f f i c i e n t l yh a s b e c o m e :a l lu r g e n tr e q u i r e m e n t t h er e s e a r c ho nh u m a n - m a c h i n ed i a l o g u es y s t e m i sj u s tf o c u s e do ns u c hq u e s t i o n t h ea i mo ft h er e s e a r c hi st om a k et h e c o m m u n i c a t i o nb e t w e e nh u m a na n dm a c h i n ee a s i e r ,t og a i na n dt r a n s f e r i n f o r m a t i o nm o r fc o m f o r t a b l ya n dn a t u r a l l y , t oi n t e r a c t i v e l ye x c h a n g ei n f o r m a t i o n w i t hc o m p u t e rm o r ec o n v e n i e n t l ya n dm o r e e f f i c i e n t l y w i t ht h ei n c r e a s e dp r e s s u r eo fw o r k , s t u d ya n dl i f ei nm o d e ms o c i e t y , a l m o s t e v e r y o n ew i l le n c o u n t e rp s y c h o l o g i c a lt r o u b l e s t h i su s u a l l yw i l lb es o l v e db y s e l f - a d j n s t m e n to re x t e m a l a d j u s t m e n t , s u c ha sf r o mt h e i rf r i e n d s ,r e l a t i v e sa n d p s y c h o l o g i c a l ,i e ,t a k i n ga d v a n t a g e o fs o c i a l s u p p o r ts y s t e m ,t h eo n l y c h a t - p s y c h o l o g i c a lc o u n s e l i n gw i t h o u tt a k i n gm e d i c i n e b u tn o w , c h i l d r e nh a v e m o l ea n dm o r eh e a r tt r o u b l e b a c k l o gr e s u l t i n g f r o ml e s sa n dl e s st h e i r c o m m u n i c a t i o n s 祈t ho t h e r s ,w h a t sw o r s e ,t h i se v e na f f e c t sc h i l d r e n sl e a r n i n ga n d n o r m a ll i f e t h e r e f o r e , w ec a nd e v e l o pad i a l o g u es y s t e mb a s e do nt h ec h i l d s m p s y c h o l o g i c a la d j u s t m e n t c h i l d r e n 啪t e l lt h e i rh e a r tt r o u b l ei nt h ep r o c e s so f c h a t t i n gw i t ht h ed i a l o g u es y s t e m ,t h es y s t e mc a nt e l l t h eg e n e r a lm e n t a lh e a l t h k n o w l e d g e ;m e d i a t i o nm e t h o d sa n ds o m es u g g e s t i o n i tw i l lh e l pc h i l d r e nd e v e l o p s e l f - a d j u s t m e n ta b i l i t y i ts h o u l d b ea c e r t a i nr e a l i t y i nt h i sp a p e r , ac h i n e s ed i a l o g u es y s t e mb e t w e e nh u m a na n dm a c h i n ei n s p e c i a l i z e dd o m a i ni sr e a l i z e db a s e do nt h ed e e pr e s e a r c h o ft h en e c e s s a r ya n d p o s s i b l et e c h n i q u ei nad i a l o g u es y s t e m t h ee m p h a s e so ft h e r e s e a r c ha r e t h e a r c h i t e c t u r eo fd i a l o g u es y s t e m ,t h ea p p l i c a t i o no ft h et e c h n i q u ed e a l i n gw i t h l a n g u a g ea n dt h ec h o i c eo ft h em e t h o do fd i a l o g u em a n a g e m e n t b a s e do i lt h ec o m b i n e da n a l y s i so ft h ec h i n e s el a n g u a g es y n t a x ,s e m a n t i c s , p r a g m a t i e sa n do t h e rk n o w l e d g es o u r c e s ,t h i sp a p e rr e a l i z e dad i a l o g u es y s t e m a d a p t e dt op s y c h o l o g i c a la d j u s t m e n to fc h i l d r e n t h ea u t h o rc o l l e c t e dt h ef i e l do ft h e s p o k e nw o r d ,a n da n a l y z e dav a r i e t yo fc o n v e r s a t i o n a ll a n g u a g e ,e x t r a c t e dl a n g u a g e t y p e sf r o mt h eb a s eo fs p e e c h ,a n dp r e s e n t e dam e t h o db a s e do nt h ea n a l y s i so ft h e p s y c h o l o g i c a ls t a t eo ft h ei n c i d e n t t h em e t h o dc a nr e c o r dc h i l d r e n t sp s y c h o l o g i c a l s t a t ei nac e t a i ni n c i d e n tc h a n g e s ,a n dt r a c et h er e a s o n sf o ri t sc h a n g e t h ed i a l o g u e s y s t e mh a dap r a c t i c a le f f e c tt h r o u g he x p e r i m e n t s k e y w o r d s :h u m a n - m a c h i n ed i a l o g u es y s t e m ,n a t u r a ll a n g u a g ep r o c e s s i n g ,l e x i e a l a n a l y s i s ,p a r s i n g ,s e m a n t i c , p r a g m a t i ca n a l y s i s i v 四川师范大学学位论文独创性及 使用授权声明 本人声明:所呈交学位论文,是本人在导师王硷指导一f ,独立 进行研究工作所取得的成果。除文中已经注明引用的内容外,本论文不含任何 其他个人或集体已经发表或撰写过的作品或成果。对本文的研究做出重要贡献 的个人和集体,均已在文中以明确方式标明。 本人承诺:已提交的学位论文电子版与论文纸本的内容一致。如因不符而 引起的学术声誉上的损失由本人自负。 本人同意所撰写学位论文的使用授权遵照学校的管理规定: 学校作为申请学位的条件之一,学位论文著作权拥有者须授权所在大学拥 有学位论文的部分使用权,叩:1 ) 已获学位的研究生必须按学校规定提交印刷 版和电子版学位论文,可以将学位论文的全部或部分内容编入有关数据库进行 检索;2 ) 为教学和科研目的,学校可以将公开的学位论文或解密后的学位论文 作为资料在图书馆、资料室等场所或在校园网上供校内师生阅读、浏览。 论文作者虢髟协j 芎 z ,井歹月习日 |t 第一章绪论 1 1 自然语言理解 现在的许多影视作品中,有很多有智能的机器人,可以和人类进行流畅的 无障碍交流。这是人类多年的梦想。自从1 9 4 6 年计算机问世以来,人类为实现 这个目标,进行了许多卓有成效的研究。5 0 年代,一门新兴的以计算机为手段 研究自然语言的学科一自然语言理解( n a t u r a ll a n g u a g e u n d e r s t a n d i n g ,n l u ) , 也称为计算语言学( c o m p u t a t i o n a ll i n g u i s t i c s ) 问世了,它是专门研究如何 利用计算机来理解以及生成自然语言的理论和方法的学科。并通过形式化的定 义和计算模型来分析、理解以及处理自然语言【1 】1 3 】。它是计算机科学、数学、 语言学、逻辑学、心理学、哲学、人工智能等多个相关学科发展结合而成的一 门交叉综合的学科随着社会信息化程度的提高和海量信息的出现,人们越来 越重视n l u 技术的研究和发展,它广泛应用于智能计算机人机接口、机器人语 音对话、电话翻译系统、大型数据库自然语言查询、专家系统自然语言接口、 c a d 和c a i 等人机交互系统等方面。 自然语言理解的研究首先是从机器翻译系统的研究开始的。从1 9 5 4 年 g e o r g e t o w n 大学第一个机器翻译系统的问世至今,自然语言理解的研究大体上 经历了如下三个时期【廿 1 1 4 1 1 1 q 1 1 司【1 9 1 : ( 1 ) 萌芽阶段( 5 0 年代初一7 0 年代初) 1 9 5 4 年,美国g e o r g e t o w n 大学与i b m 公司合作,在i b m 7 0 1 计算机上进行 了第一次机器翻译试验,将俄语翻译成英语。尽管这次试验用的机器词汇仅仅 包含了2 5 0 个俄语单词,机器语法规则也只有6 条,但是,它第一次向公众和 科学界展示了机器翻译的可行性。此后,机器翻译作为自然语言处理的核心研 究领域,潮起潮落,经历了不平坦的发展道路。新生事物的发展总是不可能一 帆风顺。第一代机器翻译系统设计上的粗糙带来翻译质量的低劣。随着研究的 深入,人们看到不是机器翻译的成功,而是一个又一个它无法克服的局限。1 9 6 6 年1 1 月,美国科学院下属的语言自动处理咨询委员会( a u t o m a t i cl a n g u a g e p r o c e s s i n ga d v i s o r yc o m m i t t e e ) 向美国国家基金会提交了一份关于机器翻译 的咨询报告。该报告对机器翻译下了一个否定性的结论,称机器翻译的目标是 不现实的,在可预见的将来没有成功的希望。此后一段时间内,机器翻译的研 究跌到低谷。在这段时期,研究人员开始反思机器翻译失败的原因,由此也引 发了对自然语言的性质本身更深刻的关注。 ( 2 ) 复苏阶段( 7 0 年代初一8 0 年代初) 尽管机器翻译研究困难重重,但是各国仍有研究者坚持着机器翻译研究。 7 0 年代先后提出了一些有关自然语言知识表示和处理的理论和方法。这些理论 和方法除了在机器翻译研究中进行尝试,还将自然语言处理的研究扩展到了更 广阔的应用领域,如智能计算机人机接口、专家系统自然语言接口、人机对话 等。 ( 3 ) 繁荣阶段( s o 年代初至今) 由于计算机软硬件技术本身的发展,从8 0 年代开始,个人计算机系统( p c ) 迅速普及,机器翻译软件、自然语言人机接口软件等陆续从实验室走向市场。 如果说从5 0 年代到7 0 年代,自然语言理解的应用主要还停留在实验室阶段, 那么从8 0 年代开始,自然语言理解的应用就可以算是开始步入社会生活了。2 0 世纪9 0 年代以后,随着网络技术和i n t e r n e t 在全球范围内的飞速发展,开始 出现互联网上的在线机器翻译、跨语言的信息检索、多语通信系统、机助人译 系统、计算机辅助写作系统等。随着无线网络的发展,出现了面向移动设备的 自然语言语音接口( 包括语音输入、语音识别、口语翻译等) 。 自然语言理解实际上是把语句的一种表现形式转换为另一种表现形式,即 由自然语言表现的形式转换为计算机能够理解的某种表现形式。每个转换对应 着一组动作,为了得到关于理解的总体描述,通常是将语言看成是源语言和目 标语言的二元组,二者存在着映射。 1 2 人机会话系统介绍 自然语言理解技术大致可分为机器翻译、语义理解及人机会话技术几个方 面。近年来,基于自然语言理解的自动人机会话系统研究呈蓬勃兴起之势,国 内、外已很多基于自然语言理解的人机会话系统。 自然语言人机会话系统就是指人和计算机通过自然语言交流的计算机系 统,主要研究如何能让计算机理解并生成人们日常所使用的语言,使得计算机 2 懂得自然语言的含义,并对人给计算机提出的问题,通过对话的方式,用自然 语言进行回答,其目的是让人同计算机的交流更方便,让计算机具有类似人类 的思维从而帮助人们完成更多的工作。这里的对话应当是交互的,只有交互的 双方都可以在应当的时候说话,这样的言语活动才可以称为对话,如果只有一 方独占谈话,不能称这样的语言活动为对话。 自然语言对话系统的主要功能是在用户和计算机应用任务这间提供一个交 互界面。它包括很多类系统,从一次回答一个问题的“问一一答”系统,到可 与用户进行较长交谈的“对话”系统。通信方式也从最小自然语言到大词汇表 系统。最小自然语言也许只由一套很少的词汇( 如简单的数字或单词) 组成, 大词汇表系统支持近似自由的输入方法。输入本身可用口语或文字,而输出也 可用口语讲话或以文本的方式显示在屏幕上,还可有表格或图像形式的视觉输 出伴随。 1 3 久机对话系统的演化 自从2 0 世纪6 0 年代第一个对话系统e l i z a 诞生以来,由于采用的对话管 理策略不同,对话管理系统经历了三代的演化: 第一代是基于关键字匹配和句型匹配为特征的系统,其代表是h i t 的j o s p h w e i z e n b a u m 所开发的e l i z a 系统。e l i z a 采用的模式是关键字匹配和置换的方 法。例如有句型模式:“ v 1 y o u v 2 ”和相应的置换规则:“w h a tm a k e sy o u t h i n kii v 2 y o u ? ”,那么当输入句为:“y e s t e r d a yy o uh u r tm e ”,根据 上面的句型模式和置换规则,输出句就为:“w h a tm a k e sy o ut h i n kih u r ty o u ? ”。 第二代是基于规划的对话系统。其特点是面向特定应用,对话主题受限, 正确率高,机器在对话过程中起主导作用,按照规划的基础不同,分为三类: 基于对话脚本:对于每个谈话主题,事先组织相当的句子按照一定的顺序 构成一棵主题树,多个主题的集合构成主题森林。 基于调用流c a l l - - f l o w ( 结构化控制) 的对话系统。列举所有的对话状态, 以及所有的对话状态之间可能的变迁及触发条件,建立一张状态转移表。它的 主要缺点是适应力不强,缺乏灵活性,当对话者改变谈话主题时,系统往往不 能及时做出反应。 基于框架的对话系统。在这类系统中,问题表现在对表单的填充,对话系 统从对话者的言语中提取信息填充到事先定义好的框架中,利用尚未填充的空 槽结构问题向对话者提问。 第三代是基于大规模常识库的对话系统。大规模常识库使得对话系统拥有 和对话者相似的常识背景,从而使得对话自然、流畅。其具有的自我学习能力 可以动态地扩充常识库,丰富常识库的内容。 1 4 国内外人机对话系统研究 人机对话系统的研究可以追溯到国外的2 0 世纪6 0 年代,该时期的系统功 能简单,计算机只能应答格式固定的、有限的输入语句。语言分析方法主要是 关键字方法和模板匹配方法。这个时期具有代表性的系统是美国卡内基技术学 院林德塞( r l i n d s a y ) 在1 9 6 3 年设计的s a d s a i i 和美国麻省理工学院波布洛 ( d b o b r o w ) 在1 9 6 8 年设计的s t u d e n t 等系统。s a d s a m 是基于英语的亲属 关系的人机对话系统;s t u d e n t 系统关于美国高中代数应用题并求解的人机对 话系统。 2 0 世纪7 0 年代,人机对话系统的研究取得了很大的进展,输入语句的格 式不受限制,语言分析技术也得到很大的提高。这个时期具有代表性的系统是 伍兹( w w o o d s ) 在1 9 7 2 年设计的l u n a r 系统和维诺格拉德( t w i n o g r a d ) 在 1 9 7 2 年设计的s h d r l u 系统。l u n a r t 系统是一个用于情报检索的对话系统,它 采用扩充转移网络( a n t ) 进行一定的句法分析,采用形式提问语言表示所提问 题的语义,最后根据形式提问语言所表示的语义执行数据库操作,给出所提问 题的答案;s h d r l u 是一个用自然语言指挥机器人动作的系统,它把句法分析、 语义分析、逻辑推理结合起来,大大提高了系统在语言分析方面的能力。 到了2 0 世纪9 0 年代,基于文本的传统人机对话系统取得了很大的进展, 同时语音识别技术开始成熟,基于语音的人机对话系统也得到了很大的发展, 语言分析技术也得到了进一步的提高,基于规则的方法不断改进,基于统计的 方法被越来越多的系统所采用。这个时期的代表性的系统有:航空信息查询系 统a t i s 、天气查询系统j u p i t e r 、铁路信息系统a r i s e 等。 上面介绍的都是国外的人机对话系统,我国的人机对话系统的研究起步相 4 对较晚,到2 0 世纪8 0 年代自然语言处理与理解研究才得到了应有的重视,并 取得了一批科技成果。心理研究所李家治、陈家明在1 9 8 0 年建立的“机器理解 汉语实验1 :a c l u s ”,该系统以动物常识为主题,存储单词7 0 余条,句型2 0 多个;中国社科院语言研究所范继淹、徐志敏在1 9 8 1 年设计开发的r j d 一8 0 汉语人机对话系统,该系统以中国文学作品常识为主题,存储单词2 5 0 余条, 句型3 0 多个;1 9 8 4 年,中国社科院语言研究所又研究设计了。t k 一8 4 汉语铁 路客运问答系统”,以中国北京至东北某几条铁路客运咨询为主题,存储单词 2 0 0 余条,句型3 0 多个。现在中科院自动化研究所、声学研究所、清华大学、 北方交通大学等科研机构也在进行相关的研究并且有相应的系统问世1 4 j 。 1 5 人机对话系统的分类 根据系统在应用领域是否受限可以分为受限领域和非受限领域系统: 根据系统输入输出的不同分为基于文本的对话系统和基于语音的对话系 统; : 根据系统在对话过程中的主动程度可以分机器主导系统、用户主导系统以 及混合主导系统:机器主导系统会主动询问用户一系歹i j 问题,目的是从用户的 简短回答中得到有用信息,以保证系统有较高的正确率:用户主导的系统用户 完全不受系统的限制,以用户为主,这是一种最为理想的系统;而在混合主导 的系统中,系统能够处理用户的复杂语句,当系统不能理解用户输入的语句时, 代之以主动询问的方法。 1 6 本文研究的目的和意义 当前中国各个调查小组进行的心理健康调查报告中,我国青少年的心理健 康形势不容乐观,如山东近期一项抽样调查表明,每8 个儿童中就有一个存在 心理与行为问题。众多的调查表明,现在的青少年与他人的沟通越来越少,在 一项网上调查【3 3 l ,关于在工作学习中遇到困难挫折以及心理上问题,你会通过 何种方法解决这一问题有3 8 4 7 的人是一个人闷在心里:在江苏省2 0 0 5 年的 小学生健康调查报告【3 2 】中,有2 6 6 的小学生从来不与他人交流内心的烦恼。 专家认为:一个人心理健康的标准是:智力正常+ 良好的性格+ 良好的适应 5 能力。现在儿童在巨大的学习压力和其他的因素影响下,心理健康存在着很多 问题,有很多又与他人沟通交流太少形成的。心理问题是分层的,它是心理问 题、心理障碍、心理疾病这样一个递进的过程。其中心理问题人人都会遇到, 一般可以自我调整,也可找朋友、亲戚、心理医生帮助调整,即借助社会支持 体系来解决,不用打针吃药,只需聊天式的心理咨询。如果能够开发一款基于 儿童心理调适的对话系统,儿童在与其聊天的过程中,倾述心中烦优,减轻心 理压力,告诉一般的心理卫生知识和调解方法以及一些建议,帮助培养儿童自 我调适能力,这应该是有一定现实意义的。首先,现在的小孩由于生活的环境 不同,从小就有很多的机会接触电脑,对于计算机应有相当的熟悉度和认同感; 其次,现在有很多人上网聊天,除了结识朋友外,一个更重要的原因是:网络 是个虚拟的世界,人们在网上相互聊天的时候,在多数情况下都对对方不认 识或熟悉,所以可以相互间无话不说,甚至是一些平时不愿对家人、朋友和老 师述说的话。我们的系统也正是想利用这一点。 1 7 本文研究的任务 本文的主要工作是研究和实现一个对话系统的整体框架,一个自然语言对 话系统大致包括词词法分析、句法分析、语义与语用分析、对话管理、自然语 言生成等组成部分。语义分析和表示是自然语言处理的中心问题,语义表示是 系统内部数据流中计算机唯一能够理解并进行意义计算的形式。言语行为理论 认为语句的意义是由使用者在某种语境下,为了某种目的而产生的,只有理解 了使用者使用语句的意图时,才能理解语句的真正意义。设计基于儿童心理调 适系统的言语行为的格框架语义表示,既作为语言理解的内部表达式,又作为 语言生成的内部表达式,是我们的研究重点。同时我们用基于事件的心理状态 改变的方法进行篇章理解和对话语言生成。 受时间精力所限,我们研究的是基于文本输入输出的受限领域对话系统。 词法分析和句法分析虽不是我们工作的重点,但它们是自然语言理解的最基本 的内容,这方面的内容也是不可或缺的,所以本文也在这方面作一定的学习研 究。 1 8 本文的组织结构 第一章绪论,主要介绍了自然语言理解和人机会话系统的介绍、人机会话 系统的演化、国内外人机对话系统的研究现状及人机对话系统的分类,也介绍 了本文的研究目的、意义、任务和组织结构。 第二章词法分析,主要介绍了词法分析的作用以及汉语词法分析的方法。 本系统所运用的逆向最大匹配分词法和词性标注。 第三章句法分析,主要介绍了句法分析的作用,汉语句法结构的类型,句 法分析的方法,和本文所使用的基于概率上下无关语法的句法分析方法。 第四章语义和语用分析,主要介绍了语义分析的作用、理论和心理动词句 的语义分析,也介绍语用分析的作用、理论,详细介绍了言语行为理论和本文 中使用的基于言语行为的格框架语义表示。 第五章篇章分析,主要介绍了篇章分析的作用、拉波夫的分析模式和篇章 分析的主要方法简介,和本系统所使用的基于事件的心理状态分析法。 第六章基于模板的儿童自然语言生成,主要介绍了本系统中使用的自然语 言生成的原贝i 和策略。 第七章系统实现及测评,主要介绍本系统的开发环境、设计原则、总体框 架流程图及部分模块的实现、实现结果及系统评价。 第八章总结和展望。 7 第二章词法分析 “词”是组成句子的基础单位,要对自然语言的句子进行分析,首先得对 它的基本组成单位一词进行分析,只有在对词进行分析的基础上,才能进一步 作其他的处理。这是由词在自然语言中的基础地位决定的:而且,计算机中有 关自然语言的知识很大一部分是以机器词典的形式储存的。 跟西方的书写方式不同,现代汉语的书面形式是分词连写的,只有字、旬、 段有明显的分界符,词与词之间没有明显的分隔标记。我们所讨论的汉语分词, 就是将连续的汉语字符序列按照一定的规范重薪组合成词序列的过程。 。 2 1 汉语分词法分类 汉语自动分词算法主要可以分成以下几种:基于字符串匹配的分词方法、 基于理解的分词方法和基于统计的分词方法。 2 1 1 基于字符串匹配的分词方法 基于字符串匹配的分词方法是按照一定的策略将待分析的字符串与一定规 模的电子词典中的词条进行匹配,若在电子词典中找到某个字符串,则识别出 一个词。常用的基于字符串匹配的分词方法有正向最大匹配、逆向最大匹配、 最小切分;正向最大匹配和逆向最大匹配相结合的双向最大匹配;特征扫描或 标志切分,即是在待切分的字符串中,识别和切分出带有明显特征的词,以此 词作为断点,将原字符串分为更小的字符串,再进行切分;还有一种方法,是 将分词和词类标注结合起来,利用标注对分词结果进行检验、调整,从而提高 分词的准确率。 2 1 2 基于理解的分词方法 通常的自然语言理解系统,大都力图在分词阶段消除歧义现象,而基于理 解的分词方法,是在分词的同时进行句法分析、语义分析,利用句法和语义信 息,消除歧义现象,提高分词的准确率。不过这种分析方法需要大量的语言知 识和信息,而汉语语言知识的笼统性和复杂性,难以将各种语言知识和信息组 织成机器可以直接读取的形式,所以目前基于理解的分词系统还不完善。 2 1 3 基于统计的分词方法 这种分词方法的思想是:从形式上看,词是稳定的字的组合,因此在上下 文中,相邻的字同时出现的越多,越在可能构成一个词,因此相邻字共现的频 率或概率能够较好的反映成词的可信度。 这种方法只需要对语料库中字组频率进行统计,不需要切分词典,因此又 叫做无切分词典法或统计取词方法,但这种方法也有其局限性,会经常抽取一 些共现频率高但并不是词的常用词组,如;“我的”、“这一”等。所以实际的分 词系统是将串频统计和串词匹配结合起来。 2 2 最大匹配法 最大匹配法分词的过程很简单,就是先准备一个分词词表,顺序扫描等分 词的字符串,将字符串中候选词按照词长从大到小的顺序依次跟词表中的词进 行匹配,匹配成功即作为一个词输出。这样就使得每次输出的词是长度最大的 ,( 相比已知的确定的词表而言) 。也就是说用尽可能长的词来匹配句子中的汉字 串,使得切出来的词尽可能长,切出来的词的数量尽可能少。 最大匹配法在一定程度上模拟了人工分词的心理过程【3 6 l 。根据心理语言学 的研究,人脑中也存有一部词典,虽然每个人的脑子中的内部词典不一样,但 是操同一种语言的人,他们的内部词典有很大共性的。对于汉语而言,人工分 词时,碰到一个汉字串,说汉语的人必然也要去查自己内部的词典,只不过这 个过程很快,人们一般没有察觉到有这么一个查词典的过程,但是碰到有选择 判断该如何分词时,人们会有些踌躇,这时我们就能明显地感觉到有一个查词 典的过程。这里所说的只是在一定程度上模拟了人工分词的心理过程,因为人 们在人工分词的过程中还会用到其它的语言知识,如:词形、词长、语义等。 2 2 1 最大匹配算法描述 设词表中最大词长( 汉字字数乘以2 ) 为m a x l e n ,最大匹配算法可描述如 ( 1 ) 待切分的汉字串s 1 ,已切分的汉字串s 2 ( s 2 初始为空串) ; ( 2 ) 如果s 1 为空串,转( 6 ) ; 9 ( 3 ) 从s 1 的左边复制一个字串w 作为候选词,w 尽可能长,但是长度不 超过m a x l e n : ( 4 ) 如果在词表中能够找到w ,或w 的长度为2 ,那么将w 和一个词标界 ( 如“- ) 一起加到s 2 的右边,并且从s 1 的左边去掉w ,转( 2 ) ; ( 5 ) 去掉w 中最后一个汉字,转( 4 ) ; ( 6 ) 结束: 图2 - 1 最大匹配算法 1 0 在词法分析中,一般把一个待切分字串存在多种分词可能性,称作分词歧 义。分词歧义主要包括交集型歧义和组合型歧义。 。 设a b 和b c 都是词典中的词,如果待切分字串中包含“a b c ”这个子串,就 尽然会赞成两种可能的切分:“a b c ”和“a b c ”。这种类型的歧义就是 交集型歧义。比如“网球场”就可能赞成交集型歧义( 网球场;网球场) 。 设a b 和a ,b 都是词典中的词,如果待切分字串中包含“a b ”这个子串, 就必然会造成两种可能的切分:“a b ”和“a b ”。这种类型的歧义就是组合 型歧义。比如“个人”就可能造成组合型歧义,如:“( 我) 个人”和“( 两) 个 |k p 。 到目前为止,人们已经设计出很多算法来解决分词歧义,其中多是依靠一 些策略来对最大匹配法分出的结果进行改进。据统计,在汉语的文本中,单纯 用逆向扫描的正确率比单纯用正向扫描的正确率高。所以在本系统中,我们用 的是逆向最大匹配法。前面介绍的正向最大匹配法,每次都是从汉字串左边取 一个候选词,候选词不止一个汉字而且不在词典中时,将字符串最右边的一个 汉字去掉。而逆向扫描是每次从右边取一个候选词,候选词不止一个汉字而且 不在词典中时,将字符串最左边的一个汉字去掉。 2 3 词性标注 词性标注就是给词标记词性,如果一个词只有一个词性,就直接标上该词 性标记;如果一个词在词典中有两个以上的词性,就会面临选择问题。所以词 性自动标注,主要就是解决如何判定兼类词在具体语境中词性的问题。给定一 个词串w :孵兄羁厩,如果t - 如如如厶。在给定w 和带词性标记信息的词表 条件下,词性标注就是求t 的过程。如果w 中包含的所有词在词表中分别都只 对应着惟一的一个词性标记,那么t 就是惟一确定的。如果w 中有一些词在词 表中有1 个以上的词性标记,w 就存在多个可能的词性标记结果五,疋,五。对 胃进行词性标记,从概率的角度看。就是求已知w 的条件下,使得p ( t i w ) 概率 最高的那个词性标注串t 一a r g m a x 即i 聊。人们一般是用隐马尔可夫模型 ( 删) 来描述词性标注问题,以及以v i t e r b i 算法来高效率求解z ,但在实际的 词性标注系统中,一般引入s p a n 的概念,减少m 锄是字符串长度) 的长度。一 1 1 个s p a n 是指这样一个词串“昕眩眄昕”,其中断和町的词性都无歧义,而 吩孵。”都是两个以上词性标记的词。这样,就可以将长度为m 的词串转换为 几个s p a n ,来对每个s p a n 进行词性标记。 本系统词性标注算法如下: ( 1 ) 从待分析词串中取一个s p a n :对词串中的每个词,查词库,如果查到, 将该词所有词性标记取出,记录在数组t a g s i j 中,i 代表词的序号,j 代表词性标记序号,将该词该标记的出现次数记录在f r e q s g i j 数组中; 如果没有查到,将开放类词性标记赋给该词,登记在t a g s i j 中,将 f r e q s i j 均置1 。 ( 2 ) 对s p a n 中的每个词的每个可能的词性标记,计算该标记的累计费用;记 录该标记的最佳前驱标记 ( 3 ) 当s p a n 中最后一个词的词性标记确定下来后,顺次取出各词的最佳前驱 标记,即得到词性标注结果。 ( 4 ) 将s p a n 类数据重新初始化,准备下一个s p a n 的标注。 下图中红色圈中所示为程序分词及词性标注结果。 h l 瞅,c 疵耐 ,一、。 甲芝兰”? ” 7 医蚕圜 墅 图2 - 2 分词结果 第三章句法分析 3 1 句法分析的作用 句子是由词组成的。然而,句子并不是词的随意排列,词在组成句子时, 需要遵守一定的规则和约束。句法分析( p a r s i n g ) 研究如何通过计算机算法得 到自然语言句子的句法结构。句法分析器的主要作用是判断输入的自然语言句 子是否是一个句法上正确的句子,如果是句法上正确的句子,则输出它的句法 结构。 句法分析的作用只有在真实世界中面对一般的自然语言理解来说才是需要 的。这是因为真实世界中旬子中所处地位或充当什么角色,不经过句法分析是 难以确定的 在我们的这个系统中,设计的主要使用对象是儿童,我们发现儿童有他们 的语言特点,主要的是他们说话时主要以简单句为主,尤其是不完整句;他们 用的完整句都比较规范,一般是主谓、谓宾或主谓宾以及主谓双宾结构。他们 用的复合句很少,一般不用连词,有些只是简单句意义上的结合陋】。所以分析 汉语句法结构的类型是很必要的。下面我们就分析一下汉语句法结构的类型。 3 2 汉语句法结构的类型 短语结构语法认为,句子中多个词通常首先组成一个个短语,短语再进一 步组成句子。它被有效地运用于各种语言的句法分析,对于汉语句法分析而言, 它也能被有效地运用当然,各种语言都有自己的特点,其中汉语的句法结构 类型就相当复杂,不过仍可以大致归纳为以下几类:偏正结构、后补结构、动 宾结构、主谓结构、联合结构、连动结构、介词结构、数量结构、方位结构等 【埘【2 2 l 。 ( 1 ) 偏正结构它们由两部分组成,前一部分是定语或状语,后一部分是中 心语。两个部分之问有修饰和被修饰的关系。一般来说,中心语如果由名词或 名词性短语充当,整个偏正结构便是名词性的,它的修饰语便是定语,如:一 朵花等。中心语如果由动词、形容词或动词性、形容词性短语充当,整个偏正 结构便是动词性的,如:立刻出发、非常努力等。 ( 2 ) 后补结构。它们由两部分组成,后一部分补充说明前一部分。补补充说 明的部分是核心部分,一般由动词( 动词性短语) 或形容词( 形容词性短语) 充当,它们的词性或功能决定整个结构的功能。核心部分由动词( 动词性短语) 充当,整个结构便是动词性的,如:干的好、听清楚、走出去、去一趟、打得 屁滚尿流、睡在床上等。由形容词( 形容词性短语) 充当,整个结构便是形容 词性的,如:高兴得跳起来、愉快得很、激动万分、累坏了、热起来等。 ( 3 ) 动宾结构。动宾结构都是动词性的,由动词和后面的宾语两个部分组成, 它们之间有支配和被支配等关系。如:感到苦恼、爱打扮、喜欢唱歌、有点儿 冷等。 ( 4 ) 主谓结构。主谓结构都是动词性的,由主语和谓语两个部分组成,它们 之间有陈述和被陈述的关系。充当主语的大都是名词( 名词性短语) ,如:狗吠、 个性顽强等。不过动词( 动词性短语) 和形容词( 形容词短语) 有时也充当主 语,如:狡猾是狐狸的本性、开电动车很安全等。充当谓语的一般是动词( 动 词性短语) 、或形容词( 形容词性短语) ,但也有名词( 名词性短语) 充当谓语 的,主要作用是从肯定方面对主语加以说明或判断,如:今天晴天、这书图书 馆的,等。 ( 5 ) 联合结构。它们是由两个或更多部分组成,组成部分之间的关系,有的 是并列的如:调查研究、伟大而平凡等;有的是选择关系,如:今天或明天等。 ( 6 ) 连动结构。连动结构由两个以上的动词连用,它们之间没有主谓、联合、 动宾、偏正、补充等关系。如:拿笔写字、走过来开门等。 ( 7 ) 介词结构。是由介词和它后面的名词( 名词性短语) 组成。在黑板上、 从早晨等,介词结构常常跟动词同现,表示它是动词的一个主义成分。 ( 8 ) 数量结构。一般由数词和量词两个部分组成,如:十个、三遍、五年等, 也有在数词和量词中嵌入一个形容词,如:一大个、或者在数词前加上一个代 词的,如:这十个。数词前加上代词,而这时数词又为“一”时,还可省去这 这个数词,如:“那一个”就可省成“那个”。 ( 9 ) 方位结构。有两个部分组成,前一部分是一个名词( 名词性短语) ,如: 国内、车下、门前,或动词( 动词性短语) ,后一部分是一个方位词,如:上学 前、开会后。 1 4 3 3 句法分析的方法 3 3 1 句法分析分类 句法分析是许多自然语言处理系统中的一个重要环节,根据句法分析所依 据的句法理论体系的不同,句法分析可以被分成词汇主义和非词汇主义的句法 分析技术,如面向链语法的分析和面向依存语法的分析属于词汇主义的句法分 析;线图分析和广义l r 分析属于非词汇主义的句法分析。根据是否建立在大规 模语料库上,句法分析可分为基于统计的和非统计的句法分析。句法分析从分 析进行的深度不同,分为完全句法分析和部分句法分析。儿童说话时主要以简 单旬为主,尤其是不完整句;他们用的完整句都比较规范,一般是主谓、谓宾 或主谓宾以及主谓双宾结构。他们用的复合旬很少,一般不用连词,有些只是 简单句意义上的结合。所以我们的句法分析用基于概率的上下文无关语法的句 法分析。基于概率的上下文无关语法的句法分析其实就是上下文无关语法的句 法分析外加一部概率词典。关于上下文无关语法的句法分析的有关算法详见文 献中相关的内容。 3 3 2 基于概率上下文无关语法的句法分析 句法分析,从形式语言理论和短语结构语法的观点看,就是一个从初始符 号开始,不断运用改写规则,最后推导出终极符号串的过程句法分析是自然 语言理解系统中的一个基础技术,但同时也是十分困难的问题。在自然语言语 句的句法分析中,歧义是一个很难处理的问题,对于句法歧义消解,广义l r 分析算法和线图分析算法是利用扩展的上下文无关语法和合一技术,来有效限 制句法分析结果的数量。随着大规模语料库的建立,基于统计的句法分析技术 得到了越来越多的研究和关注,本文的句法分析就是基于统计的概率上下文无 关语法。 3 3 2 1 规则的概率 概率上下文无关语法是对上下文无关语法的拓展,给每条句法规则加上一 个概率值,便得到一部概率上下文无关

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论