第七章-自然语言在信息组织中的应用.ppt_第1页
第七章-自然语言在信息组织中的应用.ppt_第2页
第七章-自然语言在信息组织中的应用.ppt_第3页
第七章-自然语言在信息组织中的应用.ppt_第4页
第七章-自然语言在信息组织中的应用.ppt_第5页
免费预览已结束,剩余189页可下载查看

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

第七章信息组织中的自然语言应用,第一节自然语言在信息组织中的应用概述,本节内容,一.自然语言的演化与发展二.自然语言的优缺点三.自然语言与自然语言处理,一、自然语言的演化与发展,检索语言广义而言,检索语言包括受控语言(人工语言)和自然语言语言两类语言系统。狭义而言,检索语言包括规范的受控语言。,检索语言的演化与发展,前信息检索阶段的自然语言原生态的自然语言是前信息检索阶段的原始的“检索语言”规范的受控语言如分类表、标题表、单元词表、叙词表、分类主题一体化词表受控语言向自然语言“回归”自然语言的应用是以计算机为前提的;在对词汇控制的科学性上、规范化程度上以及方法等方面的进步,使自然语言成为现代信息检索,尤其是网络信息检索的主流保障语言。,一、自然语言的演化与发展,检索系统中检索语言的应用变化,基于印刷型文献的手工检索以受控语言(分类法、主题法)为主基于数据库的计算机检索受控语言和自然语言结合基于网络的信息检索以自然语言为主,一、自然语言的演化与发展,二、自然语言的优缺点,优点(VS受控语言)缺点(VS受控语言)结论,优点,可以降低标引难度及成本,从而提高标引速度;采用用户熟悉的自然语言,符合用户检索习惯,减少了概念转换中产生的失真现象,专指度强;由于自然语言标引检索多采用自动处理方式,省略了编制词表和词汇的智力负担;操作简单方便,灵活,比较适合没有专业知识的广大网络用户使用等。,二、自然语言的优缺点,缺点,由于自然语言对标引用词不加严格控制,必然会形成非关键性词语的大量出现,影响检准率的提高;由于不能反映概念词间的一一对应关系,也不能反映概念关系的隐含性,无法排除同义词(漏检)、近义词、多义词(误检)等词间的模糊现象,势必也会直接影响到检全率的提高。,二、自然语言的优缺点,结论,自然语言和受控语言都有各自独特的优点和缺点,不能简单彼此替代,而应当相互补充、交融。针对上述自然语言及其检索中存在的这些问题一方面要依靠计算机技术和自然语言处理技术的突破发展;另一方面受控语言的基本原理对词汇的控制,是永远不会被省略的,变化的只是词汇控制的方式、方法和手段。,二、自然语言的优缺点,三、自然语言与自然语言处理,(一)自然语言处理(二)自然语言在信息组织和检索中的应用,(一)自然语言处理,自然语言处理是自然语言得以应用所要解决的首要的核心问题。自然语言处理是人工智能领域的一个重要分支,它主要研究计算机对输入的自然语言文本的分析、理解和生成,旨在建立人与计算机之间友好的交流通道,实现更高层次的信息交互。自然语言处理(naturallanguageprocessing,简称NLP)是实现自然语言理解的核心基础,是语言信息处理的一个重要分支。自然语言处理追求的目标是计算机是如何来理解一个句子和领会一个文档所要表述的意思。,三、自然语言与自然语言处理,Cont.,由于自然语言十分复杂,人是如何理解语言的,也还是个谜,因此给“理解”下一个定义极其困难。从信息处理的角度看,语言既然是信息的载体,如果计算机实现了机器翻译、自动文摘以及人机会话等语言信息处理功能,则认为计算机具备了理解自然语言的能力。自然语言处理的核心技术主要是解决自然语言的歧义问题。关键问题:如何建立大规模知识库。,三、自然语言与自然语言处理,语言学上对语言的层次划分,第一层次语音和文字,即基本语言信号的构成;第二层次词法和句法(合称“语法”),即语言基本运用单位的构成和组合的形式规律;第三层次语义,即语言所要表达的概念结构;第四层次语用,即语言与语言使用环境的相互作用。,三、自然语言与自然语言处理,自然语言处理研究内容的基础部分,语法分析(SyntacticUnderstanding)语义分析(SemanticUnderstanding)语用分析(PragmaticUnderstanding)例如:“汤姆给了玛丽一本大书。”,三、自然语言与自然语言处理,语法层分析,根据语言的语法,单词可以组成不同的词组,词组可以包含不同的角色。,三、自然语言与自然语言处理,等级表示语法结构,三、自然语言与自然语言处理,语义层分析,语义结构(句子各个部分之间的联系),三、自然语言与自然语言处理,知识装饰下的丰富的语法结构,三、自然语言与自然语言处理,扩展的语义结构,三、自然语言与自然语言处理,计算机产生的语义结构,三、自然语言与自然语言处理,语境层分析,例1:“Couldyouturnthelighton?”,“语境语义”“Pressthelightswitch.”,“句子的语义”“Areyoucapableofachievingtoincreasetheamountoflight?”。(句子脱离语言环境,本身的所表示的语义),三、自然语言与自然语言处理,例2:“Itisdarkinhere.”,语境语义“Lightisweakhere.”,句子语义“Pressthelightswitch.”,三、自然语言与自然语言处理,语义和语境含义之间的匹配,三、自然语言与自然语言处理,(二)自然语言在信息组织和检索中的应用,自然语言检索,从技术上讲,就是将自然语言处理技术应用于信息检索系统的信息的组织、标引和输出。具体地,汉语自动分词和自动标引、单汉字标引、自动文摘、全文检索等都是自然语言在信息组织和检索中的具体应用。汉语的机械分词法、单汉字标引(未介入自然语言理解的成份)基于理解的自动标引技术、自动文摘技术(应用了自然语言理解技术),三、自然语言与自然语言处理,小结,自然语言的演化自然语言与受控语言的优缺点自然语言理解自然语言在信息组织和检索中的具体应用有哪些?,第二节自动分词与自然语言标引,第七章信息组织中的自然语言,本节内容,汉语分词一.汉语分词及其障碍概述二.汉语分词方法三.汉语分词系统演示四.汉语分词系统测评自然语言标引一.自由标引二.自动标引三.单汉字索引与全文索引,汉语分词,一、汉语分词及其障碍概述,(一)汉语的语言特点(二)汉语切分中的难点(三)汉语分词方法,(一)汉语的语言特点,汉语属于黏着性语言,较之于属于屈折型语言的西语系(如英语、法语、德语等)语言,词与词之间缺乏任何形式上的标志;汉语特有的书写形式、灵活多变的构词方式以及不同的分词形式代表着不同含义克服制约中文信息处理发展的最大瓶颈“英语文本的信息处理天然地就在词平面上。而汉语文本起步是在字平面上,落后英文一个层次。这一个层次的差异是本质上的、全局性的,如果解决不好,中文信息处理将在整体上永远困顿于低水平,无法向高级形态发展”,汉语切分中的难点,汉字之间存在着不同的组词方式;如“发展中国家兔的饲养”一句,现有的汉语词就可能导致有两组语词分隔结果:发展中国家/兔/的/饲养,发展/中国/家兔/的/饲养。从标引的角度分析,交集型的标引词汇难以处理。如,“并行程序设计语言”,其标引词应为,并行程序设计/程序设计语言,而不应从任一处简单分开。汉语虚词众多,而且绝大多数汉字当与不同的汉字组词时,其词可能为关键词,也可能为非用词。如,“非”与“家”、“常”、“洲”分别组成不同意义的词“是非”、“非常”(非用词)和“非用词”(关键词)。新词的频繁出现也给汉语分词增添了难度。,(二)汉语自动分词的困难,分词歧义未登录词识别,1.分词歧义的类型,交集型歧义如果AB和BC都是词典中的词,那么如果待切分字串中包含“ABC”这个子串,就必然会造成两种可能的切分:“AB/C/”和“A/BC/”。这种类型的歧义就是交集型歧义。比如“网球场”就可能造成交集型歧义(网球/场/:网/球场/)。组合型歧义如果AB和A、B都是词典中的词,那么如果待切分字串中包含AB这个子串,就必然会造成两种可能的切分:AB/和A/B/。这种类型的歧义就是组合型歧义。比如个人就可能造成组合型歧义(我)个人/:(三)个/人/)。,分词歧义,2.汉语真实文本中的分词歧义情况,真歧义确实能在真实语料中发现多种切分形式比如“应用于”、“地面积”伪歧义虽然有多种切分可能性,但在真实语料中往往取其中一种切分形式比如“挨批评”、“市政府”,分词歧义,汉语真实文本中的分词歧义情况(续),材料一:孙茂松等1999一个1亿字真实汉语语料库中抽取出的前4,619个高频交集型歧义切分覆盖了该语料库中全部交集型歧义切分的59.20%,其中4279个属伪歧义(占92.63%,如“和软件”、“充分发挥”、“情不自禁地”),覆盖率高达53.35%。材料二:刘开瑛2000,第4章78248个交集型歧义字段中,伪歧义:94%真歧义:6%,分词歧义,分词歧义的四个层级(何克抗等1991,50883字语料)词法歧义:84.1%(“用方块图形式加以描述”)句法歧义:10.8%(“他一阵风似的跑了”)语义歧义:3.4%(“学生会写文章”)语用歧义:1.7%(“美国会采取措施制裁伊拉克”),基于句法和语义处理技术的歧义分析精度的上限(语义级理想切分精度1/6250),所谓切分精度,即指错误率,汉语真实文本中的分词歧义情况(续),分词歧义,3.切分歧义的解决策略,汉语文本中含有许多歧义切分字段,典型的歧义有交集型歧义(约占全部歧义的85%以上)和组合型歧义。只有向分词系统提供进一步的语法、语义知识才有可能作出正确的决策。排除歧义常常用词频、词长、词间关系等信息比如“真正在”中,“真”作为单字词的频率大大低于“在”作为单字词的频率,即“在”常常单独使用而“真”作为单字词使用的可能性较小,所以应切成“真正/在”。有时切分歧义发生在一小段文字中,但为了排除歧义,需要看较长的一段文字。如学生会既可能是一个名词,指一种学生组织,也可能是学生/会,其中会为可能或能够的意思。在“学生会主席”中只能是前者,在学生会去中只能是后者,在“学生会组织义演活动”中歧义仍然排除不了,则需要看更多的语境信息。,分词歧义,1.未登录词(unknownword),中外的人名,地名“雪村”,“老张”,“莎士比亚”,“叙利亚”;中外组织机构单位名称和商品品牌名希望电脑,国际乒联,非常可乐;专业领域的大量术语线性回归,韦特比算法;新词语,缩略语“卡拉OK”,“E时代”,“打假”;“超女”、“非典”、“去离子水”、“酱紫”汉语重叠形式、离合词的分析看看家家打听打听高高兴兴乐呵呵看一看看了看黑不溜逑古里古怪游了一会儿泳发理了没有担什么心,未登陆词,2.未登录词识别,“于大海发明爱尔肤护肤液”需要切分成“于大海/发明/爱尔肤/护肤液”,并需要识别出“于大海”是人名,“爱尔肤”是商标名,“护肤液”是术语名词。如“斯普林菲尔德是伊里诺州首府”,“丹增嘉措70多岁了”,其中的美国地名、藏族人名都需识别。比如,一个分词系统若不做中外人名识别,分词后进行词频统计,可能会发现“张”、“王”、“李”、“刘”、“尔”、“斯”的频率比“却”、“如”、“你”的频率还要高,用这样的统计结果做汉语处理,其效果肯定有问题。,未登陆词,3.识别未登录词的策略,尽可能多地收集词汇,以降低碰到未登录词的机会;通过构词规则和上下文特征规则来识别;“雪村先生创作了很多歌曲”通过统计的方法来猜测经过一般的分词过程后剩下的“连续单字词碎片”是人名、地名等的可能性,从而识别出未登录词。,未登陆词,二、汉语分词方法,(一)基于词典匹配的分词方法(二)基于理解的分词方法(三)基于统计的分词方法,(一)基于词典匹配的分词方法,这种方法又叫做机械分词方法,它是按照一定的策略将待分析的汉字串与一个“充分大的”机器词典中的词条进行配,若在词典中找到某个字符串,则匹配成功(识别出一个词)。分类:按照扫描方向的不同:正向匹配和逆向匹配按照不同长度优先匹配的情况:最大匹配和最小匹配;按照是否与词性标注过程相结合:单纯分词方法和分词与标注的一体化方法。常用的几种机械分词方法如下:正向最大匹配(MM)逆向最大匹配(RMM)最少切分(使每一句中切出的词数最小)双向匹配法。(MM+RMM),机械分词方法一般模型,对于机械分词方法,可以建立一个一般的模型,形式地表示为:ASM(d,a,m),即AutomaticSegmentationModel。其中,d:匹配方向,+1表示正向,-1表示逆向;a:每次匹配失败后增加/减少字串长度(字符数),+1为增字,-1为减字;m:最大/最小匹配标识,+1为最大匹配,1为最小匹配。例如:ASM(+,-,+)就是正向减字最大匹配(即MM方法);ASM(-,-,+)就是逆向减字最大匹配法(即RMM方法)。对于现代汉语来说,只有m=+1是实用的方法。,(一)基于词典匹配的分词方法,机械分词系统采用的改进方法,实际使用的分词系统,都是把机械分词作为一种初分手段,还需通过利用各种其它的语言信息来进一步提高切分的准确率。改进扫描方式标点符号、表示汉字之间联系关系的汉字具体切分方法:用切分标记先将文本分割成词组或短语,再将它们按一定的分解模式分割成单词或专用词。将分词和词类标注结合起来利用丰富的词类信息对分词决策提供帮助,并且在标注过程中又反过来对分词结果进行检验、调整,从而极大地提高切分的准确率。,(一)基于词典匹配的分词方法,(一)基于词典匹配的分词方法,最大匹配法,最大匹配法分词示例,设定最大词长MaxLen=5S2=,分词词表,S1=计算语言学课程是三个课时,(一)基于词典匹配的分词方法,最大匹配法切词过程演示,输入字串:时间就是生命,TmpWord:,时间就是,输出词串:,时间/,就是生命,就/,是/,生命/,(一)基于词典匹配的分词方法,最大匹配法分词存在的问题,最大词长的确定A.词长过短,长词就会被切错(“中华人民共和国”)B.词长过长,效率就比较低(算法的时间复杂度太高)掩盖了分词歧义A.“有意见分歧”(正向最大匹配和逆向最大匹配结果不同)有意/见/分歧/有/意见/分歧/B.“结合成分子时”(正向最大匹配和逆向最大匹配结果相同)结合/成分/子时/,(一)基于词典匹配的分词方法,最大匹配法解决分词歧义的能力,对最大匹配法进行扩展:增加歧义词表,规则等知识库,(一)基于词典匹配的分词方法,最大匹配法解决分词歧义的能力(续),对于某些交集型歧义,可以通过增加回溯机制来改进最大匹配法的分词结果。例如:“学历史知识”顺向扫描的结果是:“学历/史/知识/”,(一)基于词典匹配的分词方法,最大概率法分词,基本思想是:(1)一个待切分的汉字串可能包含多种分词结果(2)将其中概率最大的那个作为该字串的分词结果,路径1:0135路径2:0235,该走哪条路呢?,(一)基于词典匹配的分词方法,最大概率法分词,S:有意见分歧W1:有/意见/分歧/W2:有意/见/分歧/,Max(P(W1|S),P(W2|S)?,独立性假设,一元语法,(一)基于词典匹配的分词方法,最大概率法分词,P(W1)=P(有)*P(意见)*P(分歧)=1.810-9P(W2)=P(有意)*P(见)*P(分歧)=110-11P(W1)P(W2),(一)基于词典匹配的分词方法,提高计算效率,到达候选词wi时的累计概率,公式1,如何尽快找到概率最大的词串(路径)?,(一)基于词典匹配的分词方法,最大概率法切分过程演示,S,(一)基于词典匹配的分词方法,最大概率法分词的问题,并不能解决所有的交集型歧义问题“这事的确定不下来”W1=这/事/的确/定/不/下来/W2=这/事/的/确定/不/下来/无法解决组合型歧义问题“做完作业才能看电视”W1=做/完/作业/才能/看/电视/W2=做/完/作业/才/能/看/电视/,P(W1)P(W2),(一)基于词典匹配的分词方法,(二)基于理解的分词方法,其基本思想:就是在分词的同时进行句法、语义分析,利用句法信息和语义信息来处理歧义现象。它通常包括三个部分:分词子系统、句法语义子系统、总控部分。在总控部分的协调下,分词子系统可以获得有关词、句子等的句法和语义信息来对分词歧义进行判断,即它模拟了人对句子的理解过程。这种分词方法需要使用大量的语言知识和信息。由于汉语语言知识的笼统、复杂性,难以将各种语言信息组织成机器可直接读取的形式,因此目前基于理解的分词系统还处在试验阶段。,(三)基于统计的分词方法,从形式上看,词是稳定的字的组合,因此在上下文中,相邻的字同时出现的次数越多,就越有可能构成一个词。因此字与字相邻共现的频率或概率能够较好的反映成词的可信度。可以对语料中相邻共现的各个字的组合的频度进行统计,计算它们的同现信息。同现信息体现了汉字之间结合关系的紧密程度。当紧密程度高于某一个阈值时,便可认为此字组可能构成了一个词。这种方法只需对语料中的字组频度进行统计,不需要切分词典,因而又叫做无词典分词法或统计取词方法。但这种方法也有一定的局限性,会经常抽出一些共现频度高、但并不是词的常用字组,例如“这一”、“之一”、“有的”、“我的”、“许多的”等,并且对常用词的识别精度差,时空开销大。实际应用的统计分词系统都要使用一部基本的分词词典(常用词词典)进行串匹配分词,同时使用统计方法识别一些新的词,即将串频统计和串匹配结合起来,既发挥匹配分词切分速度快、效率高的特点,又利用了无词典分词结合上下文识别生词、自动消除歧义的优点。,三.自动分词系统演示,CEIRS汉语切分系统()ICTCLAS切词标注系统海量科技分词在线演示(),四.汉语分词系统的评测,评估一个分词和词性标注系统的优劣有多方面的指标分词正确率分词速度歧义字段识别率未登录词识别率词性标注正确率词性标注速度人工干预性能分词软件的易使用性和易维护性等。,汉语自动分词的现状,基本实现了从实验室走向大规模真实文本的应用。1995年12月,国家科委组织了863智能机专题自动分词评测,国内有几个系统参加。开放测试条件下的评测结果是:分词精度最高为89.4;交集型切分歧义处理的正确率最高为78.0,覆盖型切分歧义处理的正确率最高为59.0;而未登录词识别的正确率,人名最高为58.0,地名最高为65.0(刘开瑛1997),四.汉语分词系统的评测,2003年测评结果,四.汉语分词系统的评测,自然语言标引,自然语言标引,一.自然语言标引概述二.自由标引三.自动标引四.单汉字索引与全文索引,一.自然语言标引概述,自然语言标引是指采用原文中的信息作为标引源,从中选取能够有效表征信息内容的特征词的过程。计算机自动标引,是由Luhn先生在1957年率先提出的。1956、1958年Luhn先后撰文提出自动抽词标引的基本思想:一篇文章中一个词再现的频率是这个词的重要性的有效测试。一个句子中具有给定重要测试的词的相关状态,成为该句子重要性的有效测试。按照词的出现频率,以一定的标准排除高频词与低频词,剩下的就是最能代表文献内容的词。,自然语言标引方式,(一)自由标引(二)自动标引西文自动标引中文自动标引自动抽词标引自动赋词标引自动赋分类号标引单汉字索引与全文索引,(一)自由标引,自由标引即人工关键词标引。是指将那些出现在文献的标题(篇名、章节名)以及摘要、正文中,对表征文献主题内容具有实质意义的语词,亦即对揭示和描述文献主题内容来说是重要的、带关键性的(可以作为检索入口的)那些语词抽取,抽取时不加规范或只做少量规范化处理。“自由标引主要适用于报纸文献、期刊文献的大型篇名数据库等的标引。,自由标引的优点,由于不使用词表控制,标引速度要比使用词表的主题标引快许多倍,这还意味着标引成本的降低;可用与文献主题专指度一致的词进行标引,保证较高的检准率;标引过程是标引人员进行主题分析的过程,如果标引人员具有一定的业务水平,则其标引质量可大大高于自动抽词标引。,(一)自由标引,(二)自动标引,自动标引(AutomaticIndexing),又称计算机辅助标引(ComputerAidedIndexing),是根据文献内容,依靠计算机系统全部或部分地自动给出标引符号的过程。换句话说,就是利用计算机系统模仿人的标引活动并自动生成情报检索所需的索引符号的过程。,自动标引的意义,(1)适应信息资源快速增长的需要信息资源的快速增长,造成信息相对过剩。只有提高信息组织的效率,才能摆脱信息相对过剩带来的困惑,因此信息标引显得非常重要。自动标引适应了这一需要。,(二)自动标引,(2)相对手工标引存在很大优势,克服了手工标引难以克服的缺点。与熟练标引人员相比,自动标引的准确性不如手工标引,但在其他指标方面自动标引具有无可比拟的优势:处理能力强处理速度快成本低一致性好,稳定性好,(二)自动标引,(3)自动标引一致性好美国的Cleverton曾作过一些试验,结果:两组人员为同一主题编出的叙词表中词的同一率仅60%;两位有经验的标引员用同一叙词表对同一篇文献进行标引,其标引词的同一率仅有30%左右;两个在同一数据库中用同一检索系统检索同一问题的用户,检索出的结果同一率仅40%;两位科研人员根据同一提问判断一组指定文献的相关性,其同一率不会超过60%。,(二)自动标引,(4)自动标引不受标引人员状态和情绪的影响,稳定性好。美国学者伦兹作过两个试验,6名标引人员在不同时间标引同一文献,一致率为15.8%;由同一标引人员在不同时间标引同一文献,一致率为16.19%。采用计算机自动标引,无论何时对同一篇文献总能标引出相同的主题词。,(二)自动标引,(5)实验比较:美国学者Salton对受控人工标引系统MEDLARS和自动标引系统SMART做了一些比较,结论是:相对简单的自动文本分析系统在文献检索环境中产生的检索结果,其质量不亚于受控标引通常所能达到的水平。,(二)自动标引,自动标引分类“狭义”的自动标引包括主题标引的自动抽词标引和自动赋词标引两种方式。“广义”的自动标引还指在主题自动标引基础上的自动赋分类号标引。自动标引自动主题标引自动分类标引自动主题标引关键在于:词语抽取;对所识别出的主题词进行优选,以最终产生能表达文献主题内容的标引词。,自动标引的分类,(二)自动标引,自动标引方式及其关系,(二)自动标引,自动抽词标引,自动抽词标引的大体过程如下:第一,使用计算机分析文献正文或者文摘;第二,对照停用词表,从正文或者文摘中删除高频的语法功能词;第三,分析保留词的出现频率,再按加权函数导出各词的权值;第四,将权值大于特定阈值的词选作标引用的关键词。,(二)自动标引,自动赋词标引是在自动抽词的基础上,引入预先编制的词表来规范自动抽取的词,利用计算机的自动换词功能,将关键词转换成规范词,赋予文献主题概念。自动赋词标引的主要过程如下:第一,为每一个控制词编制一个词间关系文档(也称词情文档,相当于词表);第二,分析文献正文或者摘要,找出其中的重要关键词(自动分词);第三,将重要关键词与词间关系文档进行比较;第四,如果文献中出现了与词间关系文档中匹配的语词,则该语词是相关的,并确定将该词用于标引。,(二)自动标引,自动赋词标引,自动赋分类号标引,自动赋分类号必须以自动抽词为基础。将自动抽词的基础上,根据自然语言词与分类号的对应表和自动分类规则,利用计算机的自动换词功能,将关键词转换成分类号,建立倒排索引文档。,(二)自动标引,1.西文自动标引,(1)文本的词汇分析(2)非用词的去除(3)词干提取(4)索引项的选择,(二)自动标引,(二)自动标引,西文自动标引算法流程,2.中文自动标引,中文自动标引流程单汉字标引,(二)自动标引,中文自动标引的基本流程,(1)确定标引源(2)预处理(3)分词处理(4)确定关键词(5)转换为受控词(6)给出主题标识符,(二)自动标引,(1)确定标引源,即确定标引所依据的文献内容(标引源)。标引源的选择是影响标引质量的一个重要因素。标题是自动标引的主要标引源,大多数研究是基于标题进行的。但仅以标题为标引源,信息量少,标引质量差,难以推广使用。如果对全文进行扫描,则存在数据量大和截取词汇太多等问题,为标引带来许多杂音,影响标引质量和速度。,(二)自动标引,标引源,一般选择以下内容作为标引源:1.标题:包括文章的主标题、章节标题、小结标题等。这是首选标引源。2.文摘:较标题而言,信息量较大,一般能够完全反应文献讨论的主题,但仅利用文摘难以确定5-6个最重要的词。3.首尾章节:科技论文首章节(引言、问题的提出等)常提出主要内容,尾章节常作总结。4.章节的首尾段:常反映章节讨论的主题,替代整个章节,节省大量无效劳动。5.段落的首尾句:国外有学者对科技文献的200个段落进行了主题句的分析,结果:85%的段落主题句是段落的第一句,7%的段落主题句是最后一句。用段落首尾句替代整个段落,节省工作量,免除许多“杂音”。,(二)自动标引,(2)文档的预处理,字符内码的检测与转换:BIG5码与GB码的自动检测与转换。文档格式的检测与转换:去掉DOC、XML、RTF等格式的文件夹杂的许多无意义的格式符号,即将不同格式文件转换成适于自动标引的纯文本格式。,(二)自动标引,(3)分词处理,在确定关键词之前,必须对文档进行切分,即将语句切分成由词组成的集合。西方文字有分隔符,切分容易实现。而汉语采用连写方式,词之间没有自然分隔符,词语的准确切分较为困难(研究相当长时间),目前自动切分已基本能满足实际需要。,(二)自动标引,(4)确定关键词,根据文本词语切分结果,以词语在文本中出现的频次、位置及词的词性等因素为依据,确定可表达文档中心内容的词作为该文档的关键词。,(二)自动标引,确定关键词的主要方法,主要方法:绝对词频统计法:以词在文章中出现的绝对频次为根本依据确定文章的中心关键词,理论基础是齐夫定律。词频权重法:除考虑词频外,还考虑词的位置、词的词性、词本身的价值、词的长度等因素,对词进行加权,然后根据权值大小确定关键词。,(二)自动标引,(5)转换为受控词,关键词与受控词(主题词、副主题词、特征词)之间存在着一定的关系(如同义词关系、上位关系、下位关系等)。使用一定的方法,将以上提取的关键词转换为受控词。,(二)自动标引,(二)自动标引,转换为受控词的方法,目前有效可行的方法包括:使用关键词-受控词对照表:该表含有关键词与规范化的主题词、副主题词、特征词之间的对照关系,由此对应转换。利用词汇相似度:大多数意义相同或相近的词之间字符全部或部分相同,关键词与主题词之间存在一定程度的相似性,可通过某些算法计算出来,根据相似性确定相应的主题词。两种算法:基于词素的相似度算法;基于单汉字的字面相似度算法。,(二)自动标引,(6)给出主题标识符,根据确定的主题词、副主题词、特征词,进行组配,给出主题标引符号,完成自动标引。,(二)自动标引,四、单汉字标引,单汉字索引(也称为“字表法”),是对每个单字的出现位置进行索引,并依据单字的位置信息进行检索的文本检索方法。单汉字索引库的主要部分是每个字的位置信息。单汉字索引:避免切词字标引的实现方法与步骤:构造停用字表单字索引,单汉字索引库的建立过程,建立字表索引时,需要扫描整个源文档,对出现的每一个有效字符,计算其在文档中出现的位置,并将该位置的值加入到对应的字表中。,四、单汉字标引,单汉字索引文档结构,如:0001信息传播与检索0015信息检索自动化,单汉字索引结构,字表记录了对应字符在源文档中的所有位置信息。其中字符i对应的字表记录了该字符在源文档中所出现的位置Pix,出现位置通常用字符相对于文档头的偏移字节数表示。例如两个字的字符串XY(其中X、Y表示任意的汉字字符),假设X的位置为Px,如果字符串XY在源文档中出现,则Y的位置Py必定等于Px2(2为两个汉字间的字节距离)。在索引库中,X的字表中将包含Px,而Y的字表中也必然包含Px2。,基于单汉字索引的检索,检索时扫描X和Y各自对应的字表,若文档中有该词出现,则必定有X对应的字表中存在位置值Px,Y对应的字表中存在位置值Py,使得Py=Px2成立,每查到一对这样的位置值,就是检索到了字串XY一次。扫描完两字字表,就可以检索出字符串的所有。,单汉字索引的优点,单字索引法以单汉字为“标引”单位,成功地绕过了汉语自动切分这一难题,实现比较容易;不存在词典构造问题,自动化的适用程度高,大大节约了人工标引的大量劳动,避免标引的主观性和不一致性;单字索引的建立效率很高,一百万字文本作单汉字索引只需要二分种左右;对于新兴的概念词也能即时处理,也解决了汉语交集型字符串标引的问题。就检索性能而言,单汉字检索可以实现全方位、彻底的检索;单汉字检索模式是最彻底的后组配模式,可通过调整检索字的数量来任意调整检索专指度。此外,单汉字检索还可用于文献内容的统计、分析和研究。,单汉字索引的缺点,将词汇控制负担转嫁给了用户,加重了检索者构造检索策略时的智力负担;基于单汉字的检索只能实现物理字面上的匹配运算,难于处理文本中的隐含概念主题;单汉字自动标引会使无检索价值的虚词或分辨力很差的常用字在索引中占很大比例。同时在具体实现上还存在下列不足之处:检索的后组方式导致其响应时间慢于其他方法;以单汉字为索引单元,导致字频率的跨度很大,索引(倒排)文档的构造必须要解决好存储空间与检索时间这两个矛盾关系;单字组配检索将会产生许多假组配现象,影响查准率。,小结,汉语自动分词对中文文本处理的重要意义。汉语语言的特点及其对自动分词所造成的障碍?汉语自动分词的常用分词方法,词典分词(最大匹配法分词;最大概率法)。汉语自动标引的流程与方法。单汉字索引,课后练习,将最大匹配分词例子程序改为逆向最大匹配。思考如何改进汉语自动分词的方法;自动标引的方法。,第七章信息组织中的自然语言,第三节自然语言检索,一.自然语言检索系统概述二.自然语言检索三.全文检索四.搜索引擎的自然语言检索问题,本节内容,一.自然语言检索系统,自然语言检索系统自然语言检索系统就是指对文献作者或文摘提要的编写者原来使用的语言进行一定的序化组织、处理并提供自然语言检索接口供用户查询使用的检索系统。,自然语言检索系统的关键性技术:文本信息的自动标引索引技术自然语言检索技术,一.自然语言检索系统,就与信息组织的关系而言,检索系统的成功与否在很大程度上依赖于数据库中信息表征的方式、标引和索引的质量如何。系统采用的信息标引方式所选取的索引的颗粒度在很大程度上就决定了系统的检索匹配方式,检索的效率。,一.自然语言检索系统,二.自然语言检索,自然语言概念界定从检索语言来讲,自然语言检索就是在为文献检索标识时,使用文献作者、文摘编写者原来所用的语词或标引人员自拟的语词,而不是取自受控词表中的语词;从技术上讲,就是将自然语言处理技术应用于信息检索系统的信息组织、标引与输出;从用户方面讲,就是用自然语言作为提问输入的检索方式。,从用户输入检索词形式的角度区分:关键词检索;自然语言语句的提问式输入检索从检索内容或检索对象角度区分:基于标引字段的检索方式;全文检索方式,二.自然语言检索,自然语言检索的类型,三.全文检索,全文检索技术所谓全文检索(Full-TextRetrieval),是指以全部文本信息作为检索对象的一种信息检索技术。全文检索的核心技术就是维护一个高效的索引(主要是倒排文档)。全文检索技术的新颖之处在于,全文检索技术是一种面向全文、提供全文的新型检索技术。它可以使用原文中任何一个有实际意义的字、词作为检索入口,而且得到的检索结果是源文献而不是文献线索。,全文检索的深入理解,从技术层面的角度来分析,全文检索是全文索引和建立在全文索引基础上的一定的信息检索模型相结合的一种检索技术。全文检索的基础是全文索引,在全文索引基础上,根据系统所采用的某种检索模型,有各种不同的检索方法和技术。从检索内容或对象上来理解,与标引词检索相对。从用户输入检索词形式的层面上来分析,全文检索主要采用自然语言语词作为检索单位,即我们常说的关键词(关键性语词)。,三.全文检索,全文检索系统实现技术,(1)自动标引技术(2)全文数据库文档索引技术(3)停用词表(4)优化查询算法(5)数据压缩技术,三.全文检索,全文检索的索引问题,全文检索的关键是文档的索引,即如何将源文档中所有基本元素的信息以适当的形式记录到索引库中。中文索引的三种索引策略:1.单汉字索引方式2.词索引方式3.N元语法(N-Gram法),三.全文检索,各种索引方式的优缺点,三.全文检索,中文信息索引的合理方式,词索引+BI-Gram(混合索引方式)首先采用基于词典的分词技术将汉语中的常用词切分出来;在此基础上,对没有出现在词典中的未登录词采用基于N-Gram的技术进行提取。,三.全文检索,全文检索系统优缺点,优点:系统制作效率高词汇自然更新专指性强查全率高,三.全文检索,缺点:存贮空间开销大检索者智力负担重误检率较高文本匹配的算法需优化中文全文检索受汉语切分的影响,四.搜索引擎的自然语言检索问题,(一)搜索引擎的检索理论(二)搜索引擎的检索技术,(一)搜索引擎的检索理论,搜索引擎的检索思想起源于传统的全文信息检索理论,一般以词为索引单位,即计算机程序通过扫描每一篇文章中的每一个词,建立以词为单位的倒排文档,检索程序根据检索词在每一篇文章中出现的频率和每一个检索词在一篇文章中出现的概率,对包含这些检索词的文档进行排序,最后输出排序的结果。全文检索技术是搜索引擎的核心支撑技术。,四.搜索引擎的自然语言检索问题,搜索引擎一般系统架构,搜索引擎的工作流程,搜索引擎的自然语言检索(NaturalLanguageSearching)从技术上讲:将自然语言处理技术应用于信息检索系统的信息组织标引与输出;从用户而言:使用自然语言(语句)作为输入的检索方式。系统在“用户检索接口”层面上支持用户以简单自然语言提问的方式输入检索式。目前搜索引擎所宣称的自然语言检索功能多指这种简单提问式检索技术。狭义,四.搜索引擎的自然语言检索问题,(二)搜索引擎的自然语言检索技术,关键词匹配检索简单提问式输入检索基于理解的自然语言检索,四.搜索引擎的自然语言检索问题,1.关键词检索的改进,布尔逻辑检索实例词组检索实例字段限制检索实例位置检索递进检索实例,四.搜索引擎的自然语言检索问题,查找Window98的Bugs问题,“Searchwithintheseresults”,2.简单提问式输入检索,问答系统(QASystem)ASK.com模式AnswerBus模式,四.搜索引擎的自然语言检索问题,A模式,通过将用户提问转化为系统已知问题,然后对已知问题进行解答,以求降低对自然语言理解技术的依赖性,是一种基于自然语言形式的自然语言查询模式。典型:A,四.搜索引擎的自然语言检索问题,A检索实例,A通过建立问题与结果的数据库规则而维护的问题与答案相联系的数据库,对于用户的自然语言提问它并不是立即返回问题的答案,而是用逼近式的方法让用户选择它知道的所有问题,再由用户分类来选择答案,这是基于一种规则式的技术RulerTechnology。,四.搜索引擎的自然语言检索问题,AnswerBus模式,四.搜索引擎的自然语言检索问题,AnswerBus检索实例,3.智能的自然语言检索技术,建立在自然语言理解基础上的自然语言检索系统要实现自然语言理解,至少需要具备以下4个方面的能力:机器能正确回答输入文本中的有关问题;有能力产生输入文本的摘要;能用不同的词语和句型来复述其输入的文本;具有把一种语言翻译成另一种语言的能力,四.搜索引擎的自然语言检索问题,基于语言理解的自然语言检索,在尽量避免引入复杂语义过程的前提下,依靠比较成熟的实验技术与成果(如,中文信息自动分词技术、词表编制技术),基于自然语言基本语义内容实现主题概念检索技术。E.g.eXcite;百度;CNKI中国知网等,四.搜索引擎的自然语言检索问题,eXcite,中国知网CNKI相关词,四.搜索引擎的自然语言检索问题,四.搜索引擎的自然语言检索问题,四.搜索引擎的自然语言检索问题,AltaVista的BabelFish,自然语言检索系统存在的问题,易造成主题相关的信息分散;词间关系含糊不清或不正确,无法清楚地显示概念间的关系,易造成检索系统的失误;用户难以确定全部的检索用词,加重了用户的负担。,四.搜索引擎的自然语言检索问题,症结分析,第一,在人类语言尤其是汉语中,存在着丰富的意义相近或相似的字或词(或同义词),在检索中,这种同义词现象必须得到必要的处理(或控制),从而才能提高检全率或检准率。而自然语言检索采用的是基于“物理”字或词的方法,而非基于概念(或知识)的方式。第二,自然语言检索采用的是基于全文匹配检索的方法,而非基于主题概念的方式。这样的全文检索在有效提高系统检全率的同时,也带来了大量的信息噪音。,四.搜索引擎的自然语言检索问题,结论,根据以上这两点,我们不能否定网络信息的人工标引和控制在现阶段的必要性和合理性。从这个意义上说,不管今后计算机技术和自然语言系统如何发展,情报检索的基本原理对词汇控制是永远不会取消的,变化的只是词汇控制的方式、方法和手段。,三.搜索引擎的自然语言检索问题,本节小结,自然语言检索全文检索技术中文索引策略搜索引擎中的自然语言检索问题了解网络上有特色的自然语言搜索引擎,第七章信息组织中的自然语言,第四节后控制检索,本节内容,一.后控制和后控词表二.后控词表应用现状三.网络检索系统中的后控制技术,自然语言检索,自然语言检索(关键词)的缺点:固有的歧义性、模糊性;标引的无控制性;用户检索选择的随意性。,一.后控制和后控词表,控制大致可概括为:对词汇的规范化处理(包括专指度控制);对概念之间关系的控制。前控:信息标引阶段的词汇控制称为前控制分类法和主题词表可以看作是一种前控的手段,即信息的标识工具在检索行为实施前就以一种固定的模式和状态存在。后控:信息检索阶段的控制称为后控制后控制方法主要有:截词检索、位置逻辑检索、标引词加权和后控制词表。后控制模式-“标引不控制+检索控制”,后控制词表,后控制词表是利用受控语言的基本原理和方法编制的自然语言检索用词表,它主要是对自然语言中大量存在的等同关系、等级关系和大部分相关关系进行控制和揭示,具有自学习功能,可根据检索的需要将新概念和新术语及时地加入词表中,因此,后控词表是一个动态词表。后控词表的性质类似于入口词表,它是一种转换工具,一种扩检工具,一种罗列自然语言检索标识供选择的工具。用户在检索时通过浏览词表选用检索词,或者由系统自动执行调整(扩缩减)检索式,这样既减轻了用户负担,又提高了系统的易用性和检索效率。后控词表兼有自然语言与人工语言的性质和优点,因此,后控制词表是“自然语言检索和人工受控语言结合的最佳范例”。,一.后控制和后控词表,后控词表的编制,后控词表必须在检索系统中实有的自然语言检索标识的基础上进行编制。后控词表编制上的特点:由于自然语言新词汇、新概念是不断增加的,因此,后控词表的规模是不断扩增的;后控词表的主题分类体系是随着词量的增加而逐步细化的;后控词表由于不用于文献标引,故其分类体系改变灵活,可根据需要进行较大的调整,对检索系统不会引起重行标引的问题;后控词表可以以多种显示方式并用;后控词表也有必要增加入口词。部分入口词通过一定的积累使用可以改为正式检索标识。在后控词表中,标引词和非标引词应有所区别(可用不同符号)。如果两者相同,应并存。后控词表的词间关系,应由人工判别来确定。但可由计算机辅助,即利用字顺排列和词素轮排中的字面成族原理,寻找出可能的词族。,一.后控制和后控词表,后控词表的编制方式,在被抽出的词汇的基础上编制。将自然语言检索标识与某种词表或分类表对应。在检索过程中,利用现成的、词量较多的一般词表作为后控制词表的代用品,或借用其他检索系统的后控制词表。利用计算机自学习机制将检索表达式中的用词加以积累,并定期加入到原始词表中,即后控词表在用户使用过程中其数量是不断增长的。,一.后控制和后控词表,后控词表检索系统结构,后控词表的数据结构表示,一.后控制和后控词表,后控词表检索系统基本功能模块,一.后控制和后控词表,网络环境中的后控词表模式,网络环境中后控词表的生成基础也应由关系数据库的二维表,发展到超文本的网状结构。超文本链接技术微观词表技术,一.后控制和后控词表,后控词表的控制方案(控制程度),对自然语言进行控制的理想方案应是:一方面对其影响检索效率的不利因素予以控制,消除系统交互的语言障碍和词汇的模糊性,排除同义、多义现象,显示词间关系;另一方面,保留自然语言的优点,使得系统符合人们使用自然语言进行交流的习惯心理,增强易用性,避免因进行词汇转换引起的情报(信息)失真和进行主题分析、查表找词的沉重负担,并能及时反映新概念。,一.后控制和后控词表,二.后控词表应用现状,自动化词表编制管理系统机读或网络化词表的应用,二.后控词表应用现状,自动化词表编制管理系统,自动化词表编制管理系统DBThethesauruseditorisamoduleofadatabasepackage(词表编辑器是数据库包的一个组件)SAAstandalonethesauruseditingpackage(一个独立的词表编辑包)MUAmulti-userpackage,designedforcooperativeusebyteamsofthesaurusdevelopers(多用户包,用于合作编制词表的团队分布使用),二.后控词表应用现状,二.后控词表应用现状,自动化词表编制管理系统(cont.),二.后控词表应用现状,可升级的词表组件结构模型,二.后控词表应用现状,对象、关系和元数据,二.后控词表应用现状,SynapticaOverview,二.后控词表应用,网络化词表的应用,网络化词表的联机检索应用MeSHbrowserBiosis网络化词表的Web检索应用SocialScienceinformationGateway(HASSET)Art,Design,Architecture&MediaInformationGateway(ArtandArchitectureThesaurus)MeSH,三.网络检索系统中的后控制技术,1.分类目录限定领域限定、修整2.检索式的修整、优化3.检索结果控制,1.分类目录限定领域限定、修整,检索主题的领域修整,是就用户构造检索策略而言的。领域限定的目的是将查询限定在用户感兴趣的某个领域内进行搜索,避免产生过量的结果信息。,三.网络检索系统中的后控制技术,2.检索式的修整、优化,1)停用词典检索词有效性控制2)截词词典检索词词形控制3)词间关系词表检索式概念控制,三.网络检索系统中的后控制技术,1)停用词典检索词有效性控制,停用词典收录所有对检索无意义和高频率的虚词、介词及增加系统资源开销的插入语等性质的词和短语。例

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论