《自然语言》PPT课件.ppt_第1页
《自然语言》PPT课件.ppt_第2页
《自然语言》PPT课件.ppt_第3页
《自然语言》PPT课件.ppt_第4页
《自然语言》PPT课件.ppt_第5页
已阅读5页,还剩82页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1,第四章 自然语言与信息组织,2,4.1 自然语言是一种发展趋势 4.2 自然语言的应用方式 4.3 汉语自然语言的特殊问题及分词技术 4.4 单汉字检索 4.5 后控词表 4.6 自然语言检索的效率问题 4.7 自然语言与分类主题语言的比较 4.8 大众分类法TAG,3,4.1 概述,自然语言在信息组织与检索方面的应用是以计算机检索为前提的; 自然语言本身有突出的优点; 研究广泛; 汉语分词技术的发展; 节省时间,建检索系统速度快; 多数数据库都具有自然语言检索功能。,4,4.2 自然语言的应用方式,自然语言在信息组织与检索中大致有三种应用方式: 不标引(无标引)方式 自动抽词标引方式 人工标引方式,5,4.2 自然语言的应用方式,不标引(无标引)方式 文本关键词匹配检索 单汉字检索 文本检索作为辅助检索途径,标引 对信息单元的内容进行调查,形成其相应概念概念标引,主题分析; 将概念转换为检索语言标识符号标引,6,文本关键词匹配,数据库中存储的是文本(全文、摘要、标题),不进行任何标引,检索时用关键词进行匹配,多称为文本检索; 如果是针对全文数据库,则称为全文检索; 检索表达式可以是词、词的组配; 最普通的应用方式。,7,字符串匹配检索算法,精确匹配检索 假设两个串t和p: t=t0t1t2tn-1 目标 p=p0p1pm-1 模式 其中,1mn(通常mn)。从目标t中查找与模式p完全相同的子串的过程叫做模式匹配。匹配结果有两种:如果t中存在等于p的子串,就指出该子串在t中的位置,称为匹配成功;否则称为匹配失败。,8,(1)朴素模式匹配 用p中的字符依次与t中的字符比较。每次顺序比较p和t的对应字符,如果所有得字符都相同,就说明发现了一个匹配。 这种算法效率不高,主要原因在于执行中有回溯,一旦比较不等,就将p所指的串右移一个字符,并从p0开始比较。最坏的情况是,每次比较都在最后出现不等,最多比较n-m1趟,总比较次数为m*(n-m+1)。,9,(2)KMP算法 每当匹配过程中出现字符串比较不等时,不需回溯i指针,而是利用已经得到的“部分匹配”结果将模式向右“滑动”尽可能远的一段距离后,继续进行比较。,10,(3)BM算法,11,模糊匹配 模糊匹配检索的效率与精确匹配检索相比要低很多,当进行二叉树搜索时耗费时间将随着数据库的增长呈现出对数增长; 模糊检索提高了检全率; 其原理简单来说就是给定两个字符串,如何找到一个最经济的操纵序列,使得一个字符串可以转换为另一个字符串。这组操作的成本就是两个字符串的相似度。也就是说,转换成本越低,两个字符串的相似度就越高;反之就相似度越低。基本的转换操作是插入、删除和替换。,12,13,单汉字检索,汉语自然语言检索的特有方式; 原理类似与文本关键词匹配;处理单位是“字”,不是“词”; 数据库采用“全标引”,即所有汉字(除禁用词)都做倒排索引; 单个汉字表达概念能力较弱,因此几乎等同于不标引。,14,15,文本检索作为辅助途径,信息单元用检索语言进行标引; 但是题名,摘要等用自然语言提供自由匹配检索。,16,全文检索是指计算机索引程序通过扫描文章中的每一个词,对每一个词建立一个索引,指明该词在文章中出现的次数和位置,当用户查询时,检索程序就根据事先建立的索引进行查找,并将查找的结果反馈给用户的检索方式。这个过程类似于通过字典中的检索字表查字的过程。 全文检索的方法主要分为按字检索和按词检索两种。 按字检索是指对于文章中的每一个字都建立索引,检索时将词分解为字的组合。 按词检索指对文章中的词,即语义单位建立索引,检索时按词检索,并且可以处理同义项等。,17,18,4.2 自然语言的应用方式,2. 自动抽词标引方式 自动抽词标引 自动赋词标引 自动赋分类号标引 自动聚类标引 人机结合抽词标引,19,自动抽词标引,最早出现的自动标引方式; 从标题摘要全文中抽词; 拼写文字中,从空格识别词;而汉语则存在分词问题; 根据非关键词表筛选抽取出的词; 抽取出的关键词做倒排索引。,20,自动赋词标引,在自动抽词的基础上,根据自然语言词与规范的检索词之间的对应关系,将自然语言词转换为规范词,并建立倒排索引; 是自然语言与检索语言的结合; 检索时可以从自然语言词、规范词入手。,21,自动赋分类号,一种自动分类方法; 根据自动抽词结果,对照自然语言词与分类号的对照关系以及自动分类规则,将抽取出的自然语言词转换为分类号,并建立倒排文件; 两种语言的结合; 检索有两个入口:分类号和自然语言词。,22,自动聚类,自动分类的一种方法; 这里的类是语义上描述同一类事物的一组词的语词类集; 在自动抽词的基础上,进行词频分析和语词共现频率的统计分析,判别出若干最能表达信息单元内容的词; 与语词类集进行相似性比较,确定信息单元属于那个类;从而实现相关文献的聚集,23,人机结合抽词标引,采取一定措施,提高自动抽词的质量。 人工鉴别抽词结果; 对文本添加抽词标识; ,24,4.2 自然语言的应用方式,3. 人工标引方式 自由标引 标引人员根据信息单元内容分析结果,按照一定规则自拟标引词;快、准、低成本、质量高 自由词补充标引 一个信息单元,首先使用规范词标引,然后有自由词补充,多为专指词,25,4.3 汉语自然语言检索的特殊问题汉语分词技术(扩展知识),基于词典和规则的方法 切分标记分词法 基于大规模语料库的统计方法 规则和统计结合的方法 基于字的切分法,跳转至46页,26,分词的提出和定义,汉语文本是基于单字的,汉语的书面表达方式也是以汉字作为最小单位的,词与词之间没有显性的界限标志,因此分词是汉语文本分析处理中首先要解决的问题 添加合适的显性的词语边界标志使得所形成的词串反映句子的本意,这个过程就是通常所说的分词,27,分词的意义,正确的机器自动分词是正确的中文信息处理的基础 文本检索 和服 | 务 | 于三日后裁制完毕,并呈送将军府中。 王府饭店的设施 | 和 | 服务 | 是一流的。 如果不分词或者“和服务”分词有误,都会导致荒谬的检索结果。 文语转换 他们是来 | 查 | 金泰 | 撞人那件事的。(“查”读音为cha) 行侠仗义的 | 查金泰 | 远近闻名。(“查”读音为zha),28,交集型切分歧义,汉字串AJB被称作交集型切分歧义,如果满足AJ、JB同时为词(A、J、B分别为汉字串)。此时汉字串J被称作交集串。 例 “结合成分子” 结合 | 成 分|子 | 结合|成|分子| 结 | 合成 |分子| 例 “美国会通过对台售武法案” 例 “乒乓球拍卖完了”,29,组合型切分歧义,汉字串AB被称作组合型切分歧义,如果满足条件:A、B、AB同时为词 例组合型切分歧义:“起身” 他站 | 起 | 身 | 来。 他明天 | 起身 | 去北京。,30,下雨天留客天留我不留,下雨天留客,天留,我不留。 下雨天留客,天留我不留。 下雨天,留客,天留,我不留。 下雨天,留客,天留我,不留。 下雨天留客,天留我不?留! 下雨天,留客天,留我不留? 下雨天,留客天,留我?不留! 下雨天留客,天!留我不?留! 下雨天,留客!天!留我不留?,31,“真歧义”和“伪歧义”,真歧义指存在两种或两种以上的可实现的切分形式,如句子“必须/加强/企业/中/国有/资产/的/管理/”和“中国/有/能力/解决/香港/问题/”中的字段“中国有”是一种真歧义 伪歧义一般只有一种正确的切分形式,如“建设/有”、“中国/人民”、“各/地方”、 “本/地区”等,32,未登录词,虽然一般的词典都能覆盖大多数的词语,但有相当一部分的词语不可能穷尽地收入系统词典中,这些词语称为未登录词或新词 分类: 专有名词:中文人名、地名、机构名称、外国译名、时间词 重叠词:“高高兴兴”、“研究研究” 派生词:“电脑化” 与领域相关的术语:“互联网” 缩略词:“日韩”,33,分词规范,词是自然语言的一种客观存在 汉语书写过程中并不分词连写,对词组和词、单字语素和单字词的划分因人而异,甚至因时而异 汉语信息处理现在需要制订统一的分词标准,否则将严重影响计算机的处理 信息处理用现代汉语分词规范及自动分词方法:结合紧密、使用频繁,34,基于词典和规则的方法,最大匹配 正向最大匹配、反向最大匹配和双向最大匹配 实现简单,而且切分速度快。但无法发现覆盖歧义,对于某些复杂的交叉歧义也会遗漏。 全切分 利用词典匹配,获得一个句子所有可能的切分结果。 时空开销非常大。 基于理解的分词算法 模拟人的理解过程,在分词过程中加入句法和语义分析来处理歧义问题。 难以将各种语言信息组织成机器可直接读取的形式,还处在试验阶段,35,基于词典和规则的方法,基于规则的消歧和未登录词识别 规则消歧 CONDITION FIND(R,NEXT,X)%X.ccat=wSELECT 1 CONDITION FIND(L,NEAR,X)%X.yx=听|相信|同意SELECT 1 CONDITION FIND(L,NEAR,X)%X.yx=假如|如果|假设|要是|若SELECT 2 OTHERWISE SELECT 1 用规则识别未登录词 LocationName Person Name LocationNameKeyWord LocationName Location Name LocationNameKeyWord OrganizationName Organization Name OrganizationNameKeyWord OrganizationName Country Name D|DD OrganizationNameKeyWord,36,基于大规模语料库的统计方法,N元语法(N-gram)模型 隐马尔可夫模型(HMM) 对于一个随机事件,有一个状态序列X1X2,Xn,还有一个观察值序列Y1Y2,Yn。隐马模型可以形式化为一个五元组(S,O,A,B),其中: S =q1,q2,qn:状态值的有限集合 O=v1,v2,vm:观察值的有限集合 A=aij,aij =p(Xt+1=qj|Xt=qi):转移概率 B=bik,bik =p(Ot=vk| Xt=qi):输出概率 = , =p(X1=qi):初始状态分布,37,基于大规模语料库的统计方法,互信息(MI, Mutual Information) MI越大,表示两个字之间的结合越紧密。反之,断开的可能性越大。当x 与y 关系强时,MI(x , y )= 0;x与y关系弱时,MI (x , y )0;而当MI(x , y ) 0时,x与y称为“互补分布”。 最大熵模型(ME, Max Entropy) 在已知条件下选择一个合适的概率分布来预测事件。,38,规则和统计结合的方法,通常利用词典进行初切分,然后用其它的概率统计方法和简单规则消歧和进行未登录词识别。 比如: 利用词典匹配进行初切分得到一个切分词图,然后利用词频信息求词图N条最短路径的N-最短路径法。 最大匹配算法、state-of-the-art分类器和支持向量机的结合。 通过词典匹配找出所有交叉歧义,利用Bigram语言模型或其变形来消除歧义。,39,基于字的切分方法,N元切分法(N-gram) :对一个字符串序列以N为一个切分单位进行切分。 如二元切分法: “ABCDEFG” “ABCDEFG” 交叉二元切分法(Overlapping Bigram):“ABCDEFG” “ABBCCDDEEFFG” 简单快速,但会产生大量无意义的标引词,导致标引产生的索引文件的空间,以及检索和进行标引的时间都大大增加。同时,因为它的切分单位并非语言学意义上的词语,所以也会导致检索的查准率下降。,40,中文自然语言处理开放平台(CNLP),/,41,42,43,44,45,输入句子: 信息组织与检索是信息管理专业的专业基础课程之一。 分析结果: $ S ( IP ( NP ( n(信息) n(组织) ) VP ( ADVP ( c(与) ) VP ( v(检索) NP ( CP ( IP ( VP ( vl(是) NP ( n(信息) vn(管理) n(专业) ) ) ) dec(的) ) ADJP ( n(专业) ) NP ( n(基础) n(课程) r(之一) ) ) ) ) w。(。) ) ),46,4.1 自然语言是一种发展趋势 4.2 自然语言的应用方式 4.3 汉语自然语言的特殊问题及分词技术 4.4 单汉字检索 4.5 后控词表 4.6 自然语言检索的效率问题 4.7 自然语言与分类主题语言的比较 4.8 大众分类法folksonomy & TAG,47,4.4 单汉字检索,适应汉语的特点 字面成族 专指度极其高的汉字 单汉字检索的优缺点 速度快,查全率高,如“西电科大”和“西安电子科技大学”; 回避分词问题,模糊检索性好;,长跑,短跑,慢跑,变速跑,铊,48,与文本字词匹配检索相比,占用存储空间大 无标引用词,因此在构造检索式时,不能提供浏览词汇的条件 关于单汉字检索系统配备后控制词表的问题,49,4.5 后控制词表,“后控制”与“后控制词表” 控制:对语词规范化;显示概念之间关系。 组织阶段控制与检索阶段控制 标引控制检索控制 (检索语言检索语言) 标引控制检索不控制 (检索语言检索/自然语言) 标引不控制检索控制 (自然语言自然语言/词表) 标引不控制检索不控制 (自然语言自然语言),后控制词表,50,后控制词表是提供自然语言检索效率的有效措施 自然语言检索存在构造检索策略困难,检全率低的问题; 自然语言表达概念的自由度大,同义词、近义词;无概念关系显示 对检准率的影响 选词与真实内容之间的差异 后控制方法:截词检索,后控制词表,51,控制机理 类似于入口词(非规范词到规范词); 一种转换工具; 一种扩检工具; 一种罗列自然语言检索标识供选择的工具。 检索词 新检索词 匹配,后控制 词表,52,控制程度 对检索系统中自然语言标识的覆盖率 因此后控制词表的通用性不大 显示自然语言标识间概念关系的深入程度和显示的系统性 显示等同关系/等级关系、字顺显示/分类显示,53,编制特点 词表不断增长; 分类体系是逐步细化的; 分类体系变化灵活; 显示方式多样,可以逐步增加; 可以同时配备入口词表; 可以区分控制词与自然语词; 词间关系应该由人工判定。,54,后控制词表的编制 在被抽出的词的基础上编制, 将自然语言检索标识与某种词表或分类表对应 利用计算机自动收集检索表达式中的用词加以积累, 然后由人工判别整理成词表 方式与方式的结合, 或方式与方式的结合 利用现成的、词量较多的一般词表作为后控制词表的代用品,55,AA 大类 AAaa 小类 AAaa01 控制词 AAaa01.01 Y 自然语言1 AAaa01.02 F 自然语言2 AAaa01.03 C 自然语言3 AAaa03 控制词 AAaa03.01 Y 自然语言 AAaa03.02 F 自然语言 AAaa03.03 Y 自然语言 AAac 小类,56,后控制词表的应用 数据库检索 例如,在Dialog系统中,通过“Expand”命令,可以实现词表辅助功能。 后控制技术在网络检索中的应用 Excite的Zoom In概念检索助手; AltaVista检索系统,57,58,Dialog:expand,EXPAND Use the EXPAND command to display the indexes of searchable terms associated with a particular database. This is one of the most valuable commands available, particularly when you are unsure about how a particular term might be listed. EXPAND works like a window into a database: it allows you to see exactly how a term (word, phrase, author, journal, etc.) is indexed, and lets you SELECT your term directly out of the index.,59,To view the Basic Index: ?expand exponential Ref Items Index-term E1 5 EXPONENTIABILITY E2 20 EXPONENTIABLE E3 19414 *EXPONENTIAL E4 1 EXPONENTIAL ACCURACY Enter P or PAGE for more,60, To view an Additional Index: ?expand au=einstein, a Ref Items Index-term E1 7 AU=EINSPRUCH, NORMAN G. E2 1 AU=EINSTEIN KRAHN, DOROTHEE E3 0 *AU=EINSTEIN, A E4 33 AU=EINSTEIN, A ,61,4.6 自然语言检索中的效率问题,作为检索依据的文本类型 标题、小标题、章节名、摘要、正文 检准 检全,62,检索用语的专指度 无标引系统 单汉字检索,检全率高,单检准率有时极其低; 汉字词检索,检准率提高,但检索结果可能极少 自然语言词标引 词标引,单个词检索,则高检全,低检准; 词标引,多词组配检索,则高检准,低检全; 若标引词非常专指,则保证检准,影响检全,63,在不同范围内进行组配检索 句、段、节、篇 随着范围扩大,误组配率增加 文本用词的不规范性 不同标引方式 不标引、自动抽词标引、人机结合抽词、自动赋词、自由标引 对自然语言进行词表控制,64,4.7 自然语言 VS 人工语言,65,66,总之,应用自然语言进行信息内容的组织与检索,应该注意: 对文本的不同部分(标题、小标题、章节、摘要、正文),应该予以标注; 对文本抽词,尽量选择专指词; 检索时,优先使用专指词;一般不用单汉字检索; 组配尽量在一定范围内; 构造检索式,尽量罗列同义词、近义词、反义词; 后控制词表注意与特定系统相结合; 如果要求较高的质量,采用自由标引文本字词匹配检索。,67,4.8 folksonomy,2005年初,自由分类法,大众分类法,民俗分类法(folksonomy)作为一种由用户参与和主导的信息组织方式,在Yahoo等门户网站迅速流行,与长尾(The Long Tail)、简单信息同步(RSS)、博客、Ajax和播客共同构成下一代因特网Web2.0的核心要素。,68,长尾理论VS二八定律(帕雷托法则),只要存储和流通的渠道足够大,需求不旺或销量不佳的产品共同占据的市场份额就可以和那些数量不多的热卖品所占据的市场份额相匹敌甚至更大。 Google AdSense,69,RSS,RSS是基于XML标准,用以实现站点之间共享内容的数据交换规范。这一技术起源于网景通讯公司。目前对这一技术有三种解释:(1)Really Simple Syndication (真正简单聚合);(2)RDF(Resource Description Framework)Site Summary (资源描述架构站点摘要);Rich Site Summary(丰富站点摘要),70,blog,Blog是目前最受关注、使用人数最多的一种Web2.0应用。Blog是个人或群体以时间顺序所作的一种不断更新的记录。Blog之间的交流主要是通过回溯引用(TrackBack)和广播/留言/评论的方式来进行的。,71,Podcast,发布声音和图像的“博客”,在Web2.0家族中被称为播客(Podcast)。 是收音机、iPod、博客和宽带互联网的集体产物。用最简单的方式描述,播客就是用嘴写,用耳朵看的博客。播客与网络电台最大的不同在于,它采用rss2.0可以订阅模式,不再是单纯地音频文件,任何p2p文件都可以成为播客,任何个人都可以制作节目发布广播,任何拥有mp3、智能手机的人都可以自由的收听播客节目。,72,AJAX,Asynchronous JavaScript and XML(异步JavaScript和XML),是指一种创建交互式网页应用的网页开发技术。 主要包含了以下几种技术: Ajax(Asynchronous JavaScript + XML)的定义 基于web标准(standards-based presentation

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论