基于心理学原理的自然语言理解ppt课件.pptx_第1页
基于心理学原理的自然语言理解ppt课件.pptx_第2页
基于心理学原理的自然语言理解ppt课件.pptx_第3页
基于心理学原理的自然语言理解ppt课件.pptx_第4页
基于心理学原理的自然语言理解ppt课件.pptx_第5页
已阅读5页,还剩29页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

基于心理学原理的自然语言理解 演讲 佟毅 计日1002班 2013年11月15日 引言 自然语言是人类千百年来智慧的结晶 它的产生和现今成为人们交际的必要工具 这些都与人们的心理过程密切相关 通过对语言的运用 人的感觉 知觉 记忆 注意 思维 想象等各种心理过程都不可避免地出现了许多新特点 因而 基于心理学的原理实现对自然语言的理解 不仅是自然语言理解在人工智能方面的一种体现 也对于自然语言研究提供了新的研究途径 目录 1 2 3 4 文字知觉加工与文字识别 词语加工 句法剖析的递归转移网络 结论 一 文字知觉加工与文字识别 关于文字知觉加工的心理学理论大致包含有 模板匹配说 原型说 特征说 群魔殿理论 知觉加工理论 组块理论和语音知觉的心里模型等 这里主要讲述一下前三种学说在计算机领域中的应用 模板匹配说 原型说特征说 模板匹配说 人的文字知觉加工 是由于作用于人的视网膜的字母或汉字的刺激 激活了相应的视细胞 继而激活了相应的视觉神经元 每个这样的细胞只有一个 点 因此人的文字知觉是从 点 开始的 相比之下 计算机扫描到的信息 也是分解到 点 的 而人眼所接受的文字信息其大小是不会完全一致 所以在进行匹配之前 不得不对接受的文字信息进行归一化的预处理 这种预处理 对于计算机的文字识别来说是相当必要的 归一化处理 重心归一化计算出汉字的重心后将重心移到汉字点阵的规定位置 这样大多数汉字笔画分布比较匀称 因此重心归一化不会造成字形的失真 因为重心是全局性的 所以抗干扰能力强 外框归一化根据汉字点阵的外围边框进行的 先判断汉字点阵的外围外框 然后按比例将汉字进行放大或缩小 显然 边框搜索是局部性的 受外围边框的确定影响很大 为减少外围边框影响 可以用由外向内的累加笔画像素数达到一定阈值判为外的位置 原型说 原型是指一类客体的所有成员的概括的内部表征 反映其中的基本特征 由于原型是一种概括的表征 所以这种比较不要求严格的表针匹配 只需近似的匹配就行 在信息的与处理中 平滑去噪处理大致与此相同 对文字图形来说 文字笔画附近的斑点 笔画中的空洞对于文字的匹配是有一定的影响 平滑去噪处理 平滑去噪处理是采用临域投票的方法 其原理是对数字图像中的每个点 i j 分别以该点为中心 考查该点周围领域内各点的值 从而确定该点的取值为邻域内多数点的取值情况 特征说 特征与特征分析在客体的知觉中起着关键的作用 并且外部客体在人的长时记忆中是以各种特征来表征的 所以 在知觉的过程中 首先要对刺激的特征进行分析 然后将这些特征加以合并 再同长时记忆中的各种刺激的特征进行比较 特征分析说最符合人的知觉特点 因而得到了广泛应用 其中包括周边特征 网格特征 像素密度特征 笔画密度特征和复杂指数等方法 复杂指数 复杂指数反映了文字x方向和y方向笔画的复杂程度 该特征对文字的位置 大小不敏感 x方向和y方向黑像素的总数 水平散度和垂直散度 质心位置 二 词语加工 关于词语的加工 大致包括了词法处理与分词 心理词典的结构以及词义的通达 这里重点介绍一下后两者 心理词典的结构词义通达词义消歧 心理词典的结构 心理词典指的是句法与单词语义信息的词典 语义就是单词代表的概念 这些概念彼此之间通过各种关系连接起来 当前心理词典的组织结构的主流观点是将该词典视为一部有各个概念相互连接而成的语义网络 其结构有如下三种模型 层次网络模型 激活扩展模型和语义特征模型 层次网络模型 1969年 Collins与Quillian首次提出了心理词典的层次网络模型 这个模型成为关于语义记忆的第一个心理模型 层次网络模型的结构是由结点与连线构成的一个网络 其中节点表示概念 连线连接结点 表示节点间的关系 当一个概念被激活 先到相应节点提取相关信息 如有必要还要沿着连线向上搜索 直到找到需要的结点 激活扩展模型 Collins与Loftus一道 1975 提出激活扩展模型 该模型保留了网络的结构 但没有层次的结构 用节点来表示概念 用连线来表示概念之间的关系 而连线的长短则代表联系的强弱关系 词义通达 单词识别之后 通过查阅词典可以获得其意义 可以说 词义是单词识别的标志性变量 人如何获得词义的过程是人对言语理解的中心环节 而对于词义的理解的心理模型有两种 自动搜寻模型和联结主义的痕迹模型 自动搜寻模型 Forster 1976 提出了一个自动搜寻模型 该模型主张 词义的通达具有自主性 不受自上而下的加工影响 语境对词义的通达既不起促进作用 也不起抑制作用 即利用知识本体自身来实现对于词汇的理解 这里介绍冯志伟设计的一个知识本体系统ONTOL MT 其初始概念有事物 时间 空间 数量 行为状态和属性6个 ONTOL MT ONTOL MT知识本体系统中的概念 实际上也就是单词本身所固有的语义特征 它们是独立于上下文而存在的 因此 可以用这些概念来表示机器翻译词典中的单词的古有语义特征 在日汉机器翻译中 利用单词固有的这些语义特征在机器翻译系统中进行日与分析同形词的判别效果良好 ONTOL MT 例如 在日语中 包含三种含义 而在句子 其中三个 存储的信息如下 如果语义特征是 HUMAN 则为 记者 如果语义特征是 VEHICLE 则为 火车 如果语义特征是 MOVEMENT 则为 回公司 并且有语义框架 HUMAN VEHICLE MOVEMENT 则根据相关助词 就可正确翻译同形词的词义 词义消歧 在词义的理解当中 对于歧义词的处理是最难解决的 作为语言的接受者 一般利用上下文信息来对歧义词进行解歧 在计算机当中 早期的词义消歧是采用基于规则的分析方法 而20世纪80年代后 机器学习方法也被用于语义消歧 这里介绍下基于互信息的消歧方法和基于贝叶斯分类器的消歧方法 基于互信息的消歧方法 该方法是P F Brown等人 1991a 受到统计机器翻译模型的启发而提出的 其基本思想是对每个需要消歧的多义词寻找一个上下文特征 这个特征能够可靠地提示该多义词在特定上下文语境中使用的是哪种语义 而这个特征可以看作是语义指示器 P F Brown等人利用Flip Flop算法来解决指示器分类问题 Flip Flop算法 假设T1 T2 Tm是一个多义单词的翻译 V1 V2 Vn是指示器可能的取值 那么 可将Flip Flop算法简要描述如下 随机地将T1 T2 Tm划分为两个集合 P1和P2 即P P1 P2 执行如下循环 找到V1 V2 Vn的一种划分Q Q1 Q2 使其与P之间的互信息最大 找到T1 T2 Tm的一种改进的划分 使其与Q的互信息最大 根据互信息的定义 I P Q 由公式可以看出 每次迭代互信息I P Q 都应该单调增加 因此 算法终止条件是其函数值不再增加 基于贝叶斯分类器的消歧方法 W A Gale等人 1992 提出了基于贝叶斯分类器的词义消歧方法 其基本思想 在双语语料库中多义词的翻译取决于该词所处的上下文语境c 如果某个多义词w有多个翻译si i 2 可以通过计算确定w的词义 根据贝叶斯公式和独立性假设可以得到公式 基于贝叶斯分类器的消歧方法 算法描述如下 训练过程对于多义词w的每一个语义si执行如下循环 对于词典中所有词vk计算对于多义词vk的每一个语义si计算消歧过程对于多义词w的每一个语义si计算P si 并根据上下文中的每个词vk计算P vk si 选择 三 句法剖析的递归转移网络 一是不依赖于语义的知识而 自主 地进行的 Forster1979 Frazier1982 该理论认为 句法剖析子系统在一定的原则的基础上自主地得出句子或短语的结构剖析 然后又语义分析子系统对这些结构分析进行语义匹配 如果匹配不成功 则再转回到句法剖析子系统中重新进行结构剖析 另一种是Tyler与Marslen Wilson 1986 以及Altmann与Steedman 1988 提出的相互作用理论 该理论认为在句法剖析同语义分析之间始终存在着很强的 即使的信息交换 语义信息既可限制 指导句法剖析得出正确的结构分析 也可以对句法剖析得到多种结果进行即时选择 从而影响下一步的句法剖析方向 三 句法剖析的递归转移网络 两种理论在句法剖析的过程中 在遇到歧义性的句子时 测试者的视线都会暂时停留在当前的位置或者回到之前的句子中 这实际上是人在文字知觉时的眼动行为 例如读下列句子时 Themansings Themanwhothewomanseessings Themanwhothewomanwhothegirlseesseessings 从上述例子中我们可以发现 语言符号是按同样的方式不扩张的性质 就是语言符号的递归性 所以在计算机中 我们可以利用一种递归转移网络来实现句法的剖析 递归转移网络 递归转移网络 RecursiveTransitionNetwork 简称RTN 的建立可以如下图 例如 ThetablethatlacksaleghitsJack 转移状态是 0 1 2 3 4 5 2 6 f 递归转移网络 把这些相似的子网络分离出来 构成单独的子网络S 网络 VP 子网络 NP 子网络 递归转移网络 进一步化简NP 子网络 VP 子网络 递归转移网络 为了方便阅读 我们规定网络中的状态用如下方式表示 S 0表示S 网络中状态0 VP 1表示VP 子网络中的1 NP 2表示NP 子网络中的2 PUSH表示下推到下一个子网络 POP表示上托到上一个子网络 ThetablethatlacksaleghitsJack 四 结论 综合自然语言理解中关于文字识别 词语加工以及句法剖析等的心理学原理在机器理解自然语言中的应用 我们不难发现 对于机器理解自然语言的处理中 许多都是基于人本身对于自然语言理解过程的而进一步的模型化 所以 对于未来机器理解自然语言的进一步扩展与完善中 不是单一盲目去构造抽象的算法与程序 而是结合人在理解自然语言过程中的心理模型 以促进自然语言理解的进一步发展 而对于已有所应用的模型 也有待做进一步的优化处理 达到更为实用的理想效果 参考文献 李伯约 赛丹 2007 自然语言理解的心理学原理 学林出版社宗成庆 2008 统计自然语言处理 清华大学出版社杨宪泽等 2007 自然

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论