搜索引擎关键技术——文本处理PPT课件.ppt

上传人：优*** IP属地：广东上传时间：2020-03-19 格式：PPT 页数：30 大小：324KB 积分：35 举报 版权申诉

已阅读5页，还剩25页未读，继续免费阅读

版权说明：本文档由用户提供并上传，收益归属内容提供方，若内容存在侵权，请进行举报或认领

文档简介

网络搜索引擎关键技术文本处理 1 主要内容本讲稿对搜索引擎的关键技术进行了概述着重讨论了信息预处理技术中的文本处理 2 一搜索引擎的关键技术信息收集和存储技术包括两种方式人工和自动人工方式采用传统的信息收集分类存储组织和检索的方法自动方式通常是由网络机器人来完成的一般来说人工方式收集信息的准确性要远优于网络机器人但其收集信息的效率及全面性低于网络机器人 3 2 信息预处理技术信息预处理系统的主要工作是从抓取的网页中提取能够代表网页的属性并将这些属性组成网页的对象然后根据一定的相关度算法进行计算得到每一个网页针对页面内容及链接每一个关键词的相关度并用这些信息建立索引数据库关键词的提取重复或转载网页的消除链接分析网页重要程度的计算 4 3 信息索引技术信息索引就是创建文档信息的特征记录以便用户能够快速地检索到所需信息信息语词切分和语词词法分析进行词性标注及相关的自然语言处理建立检索项索引检索结果处理技术 5 二文本处理文本处理是指将网络爬虫搜集到的文本信息进行预处理以便进行网络信息检索的下一个流程索引处理网页噪声去除待处理网页干净网页词汇分析词序列词干提取排除停用词有用词序列关键词 HTML文档预处理流程 6 文本处理的过程包括如下5个步骤文本的词法分析无用词汇的删除词干提取索引词条词干的选择构造词条的分类结构 7 1 词法分析词法分析的过程是将字符串转换成词条的过程因此词法分析的主要目的就是识别文本中的词条关于词法分析中英文存在较大的区别英文单词有空格分隔易于识别而中文文本以句子为自然分隔单位要提取出词语来需要复杂的分词技术 8 在对英文进行分词的过程中除了空格分隔符还有几种特殊的情况要处理数字连字符标点符号和字母的大小写数字数字一般不作为索引词因为如果没有上下文的联系它们的含义是模糊不清的现在常用的做法是保留一些专门指出的通过与正规表达式的匹配数字而将其他数字过滤掉 9 连字符对连字符来说也有两难情况一种方法是将连字符都忽略掉例如state of the art等同于stateoftheart 但是有些带有连字符的单词本身是一个完整的单词如gilt edged 对于连字符的处理目前常用的是首先采用一定的规则选出那些对词义有影响的连字符号然后将其他连字符都过滤掉 10 标点符号对于文本中的标点符号一般说来在词法分析过程中将被全部去除但是对于那些成为单词中一部分的标点符号来说又要慎重考虑是否删除标点另外一种特殊情况是程序片段出现在文本中这时就要区分变量x id与xid了这种情况下标点符号应该保留 11 字母的大小写字母的大小写对于区分索引词条来说一般不是很重要因此可以将文本中的所有词条都转换成大写或者小写但是也存在特殊情况例如对于描写UNIX命令的文档由于大小写都是约定俗成的因此用户并不希望改变文档中的大小写对于此种情况就要特殊处理 12 2 中文分词技术中文分词技术属于自然语言处理技术范畴对于一句话人可以通过自己的知识来明白哪些是词哪些不是词但如何让计算机也能理解其处理过程就是分词算法与英文相比中文词与词之间没有分界符需要人为切分而且汉语中存在大量歧义现象对几个字分词可能有好多种结果因此将中文分词技术专门提出来做详细总结 13 中文分词方式单字切分按照中文一个字一个字地进行分词以这种方式切分出来的词再进入索引称为字索引缺点随着索引的增大相应索引条目的内容会不断增大严重影响效率 14 二分法二分法是指每两个字进行一次切分该方法完全不考虑语义语境机械地对语句进行处理不是很好的分词方式词库分词该方法是用一个已经建立好的词的集合按某种算法去匹配目标当遇上集合中已经存在的词时就将其切分出来是一种较理想的中文分词方式 15 中文分词算法基于字符串匹配的分词方法该方法又叫做机械分词方法基本思想是截取一个字符串把它与词典中的词条进行匹配若在词典中找到对应的词该字符串就被识别为一个词按照扫描方向的不同可分为正向匹配和逆向匹配按照不同长度优先匹配的情况可分为最大匹配和最小匹配按照是否与词性标注过程相结合可分为单纯分词方法和分词与标注相结合的一体化方法 16 正向最大匹配法FMM ForwardMaximumMatchingmethod 主要思想选取包含6 8个汉字的符号串作为最大符号串把最大符号串与词典中的单词条目相匹配如果不能匹配就削掉最右边一个汉字继续匹配直到在词典中找到相应的单词为止正向是指匹配方式从左向右例计算机科学和工程 17 逆向最大匹配法BMM BackwardMaximumMatchingmethod 其分词过程与正向最大匹配法相同不同的是每次是从待处理语料的末尾开始处理每次匹配不成功时去掉的是前面一个汉字即匹配方向是从右到左 FMM方法的错误切分率为1 169 BMM方法的精度要高一些其错误切分率为1 245 18 双向匹配法BM Bi directionMatchingmethod 基本原理分别用FMM法和BMM法进行正向和逆向的扫描和切分通过比较两者的切分结果来决定正确的切分而且可以识别出分词中的交叉歧义但是对于正逆向的扫描结果一致但实际切分不正确的字段如结合成分子时仍不能正确处理缺点时间复杂度增加而且词库结构比一般的分词词库要复杂很多 19 最少匹配算法FWM FewestWordsMatchingmethod 该算法实现的分词结果中含词数最少设立切分标识法该算法的思想是优先在待分析字符串中识别和切分出一些带有明显特征的词以这些词作为断点可将原字符串分为较小的串然后用FMM或BMM法进行细分例这种设计方法学的理论不可能有用 20 基于理解的分词方法这种分词方法是通过让计算机模拟人对句子的理解达到识别词的效果其基本思想就是在分词的同时进行句法语义分析利用句法信息和语义信息来处理歧义现象该分词方法需要使用大量的语言知识和信息由于汉语语言知识的笼统复杂性难以将各种语言信息组织成机器可直接读取的形式因此目前基于理解的分词系统还处在试验阶段 21 基于统计的分词方法从形式上看词是稳定的字的组合因此在上下文中相邻的字同时出现的次数越多就越有可能构成一个词因此字与字相邻共现的频率或概率能够较好地反映成词的可信度于是可以对语料中相邻共现的各个字的组合的频度进行统计计算它们的互现信息互现信息体现了汉字之间结合关系的紧密程度当紧密程度高于某一个阈值时便可认为此字组可能构成了一个词 22 分词中的难题歧义识别歧义是指同样的一句话可能有两种或者更多的切分方法这是由中文本身的特性形成的包括交叉歧义如表面的组合歧义如这个门把手坏了真歧义如乒乓球拍卖完了 23 新词识别由于中文信息检索系统中的索引项是基于一定的词库构建而成的定期更新那么对于一些没有收入词库而用户提交查询的新词检索系统是无法按照用户的本意来识别这些新词的人名机构名地名产品名商标名简称省略语等都可能是新词目前新词识别准确率已经成为评价一个分词系统好坏的重要标志之一 24 3 无用词删除在网页或文档集合中出现频率高于80 的单词通常被称为无用词或停用词 stopword 它们对文档的含义没有任何意义不具有很好的文档区分能力需要被过滤屏蔽掉删除无用词一方面可以减小索引空间另一方面可以提高检索精度但也可能会降低系统的召回率查全率使得用户不能查到自己需要的网页 25 4 词干提取词干是去除单词的前缀和后缀后剩下的部分词干提取就是把同词干同义的不同词语中的相同部分提取出来优点a 在一定程度上提高信息获取的性能b 缩小索引空间的大小缺点可能会有勿截造成词义的改变影响查询的结果 26 词干提取方法查表法词缀删除法后继变化数N个字符列应用最多的最实际的词干提取方法是去除词缀法 Porter算法是最著名的词缀去除方法 27 5 索引词选择并不一定对文档中出现的所有词条都建立索引而是选择一些比较重要的词条来建立索引科技文献一般由专家来选择索引词汇方法准确但需消耗大量人力另一种可选的方法是通过对文档的分析来自动选择索引词该方法没有第一种方法准确但可由系统自动实现 28 6 词典词典是用来根据词汇找到对应词汇信息的数据汇编词典的主要内容a 有关某个领域知识的重要词汇

人人文库> 全部分类> 教育资料 > 幼儿教育

温馨提示

1. 本站所有资源如无特殊说明，都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
2. 本站的文档不包含任何第三方提供的附件图纸等，如果需要附件，请联系上传者。文件的所有权益归上传用户所有。
3. 本站RAR压缩包中若带图纸，网页内容里面会有图纸预览，若没有图纸预览就没有图纸。
4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
5. 人人文库网仅提供信息存储空间，仅对用户上传内容的表现方式做保护处理，对用户上传分享的文档内容本身不做任何修改或编辑，并不能对任何下载内容负责。
6. 下载文件中如有侵权或不适当内容，请与我们联系，我们立即纠正。
7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

搜索引擎关键技术——文本处理PPT课件.ppt

文档简介

温馨提示

最新文档

评论

搜索引擎关键技术——文本处理PPT课件.ppt

文档简介

温馨提示

最新文档

评论

相关文档