《chap网页预处理》PPT课件.ppt_第1页
《chap网页预处理》PPT课件.ppt_第2页
《chap网页预处理》PPT课件.ppt_第3页
《chap网页预处理》PPT课件.ppt_第4页
《chap网页预处理》PPT课件.ppt_第5页
已阅读5页,还剩33页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

预处理,网页的分类 页面分析 中文处理,网页分类,Hub网页 (Hub pages) 提供向导的网页,如新浪主页,特征是链接集合 主题网页(authority page) 通过文字具体说明一件或多件实物,如具体的新闻报道 图片、视频网页 是含图片或视频的主题网页,但文字特别少。,页面处理,传统网页分类将整个网页看作一个原子单元进行整体处理,但是由于网页中一些“噪声”信息的存在,不仅增加了处理的复杂度,还影响了网页自动分类的效果,因而需要对网页进行预处理。 近年微软亚洲研究院提出block based IR.,一般主题网页的结构,标题(关键词和概括) 正文 相关链接 导航信息 广告 装饰,Flash 版权,制作者信息等,网页分块方法(1),基于位置关系的分块法 利用网页页面的布局进行分块,将一个网页分成上、下、左、右和中间5个部分,再根据这5个部分的特征进行分类; 实际的网页结构要复杂得多,这种基于网页布局的方法并不能适用于所有的网页; 这种方法切分的网页粒度比较粗,有可能破坏网页本身的内在特征,难以充分包括真个网页的语义特征。,网页分块方法(2),基于文档对象模型(DOM)的分块法 找出网页HTML文档里的特定标签,利用标签项将HTML文档表示成一个DOM树的结构; 特定标签包括heading、table、paragraph和list等; 在许多情况下,文档对象模型不是用来表示网页内容结构的,所以利用它不能够准确地对网页中各分块的语义信息进行辨别。,HTML语言编写的网页, Welcome Shandong Univ. ,HTML标记(和结构有关),总的标记个数通过src属性的控制,显示特定的图像; 创建表格 用来排版大块的html段落 用来创建一个表单 ,定义用户一个输入区 创建一个下拉式表框,DOM trees: Given the relations among the blocks, ,Presentation Style,Compressed Structure Tree,bc=red,bc=red,TABLE,BODY,SPAN,bc=white,CST:,Width=800,TABLE, ,root,2,2,2,1,网页分块方法(3),基于视觉特征网页分块法(VIPS) 利用字体、颜色、大小等网页版面特征,根据一定的语义关联,将整个网页表示成一棵HTML DOM树; 利用横竖线条将DOM树节点所对应的分块在网页中分隔开来,构成网页的标准分块; 每个节点通过一致度(DOC)来衡量它与其它节点的语义相关性,从而将相关的分块聚集在一起; 利用预先设定的一致度(PDOC)作为阈值控制分割粒度,当所有网页的DOC都不小于PDOC时,网页分割就可以停止了。,网页去重,由于互联网上存在大量的转载,如何判断是否A,B两个网页在内容上是一样的,并只存储无重复的网页内容的工作,称为网页去重,基本方法,Fingerprinting (指纹方法) 取出网页内容部分的文本,看成是字符串,利用hash函数产生一个向量。若两个网页的hash函数产生的向量足够接近,认为是内容重复 最长公共子串 取出网页内容部分的文本,看成是字符串,若两个网页的公共子串足够长,认为是内容重复。 把网页内容用bag of words表示,利用常用的相似度计算,相似度大的认为是重复。,网页的主题提取和分词,发现主题文本 分词处理,分词技术的广泛应用:信息检索、人机交互、信息提取、文本挖掘等。是相似度计算的基础。 目前对分词的研究,大都集中于通用的分词算法,以提高分词准确率为目的。 目前的分词算法中,一些切分精度比较高的算法,切分的速度都比较慢;而一些切分速度快的算法,因为抛弃了一些繁琐的语言处理,所以切分精度都不高。 速度:每秒几十k几M 切分正确率:80%98%,中文分词简介和困难,中文分词(Chinese Word Segmentation):将一个汉字序列切分成一个一个单独的词。比如将“组合成分子时”切分成“组合/成/分子/时”。称为是歧义现象。 人是根据上下文语义解决奇异,但计算机目前无法理解自然语言中的语义,目前常采用统计的方法解决 困难 分词规范:词的概念和不同应用的切分要求 分词算法:歧义消除和未登录词识别,分词规范方面的困难,汉语中词的界定(基于词典) “教育局长”:“教育/局长”?“教育局/长”?“教育/局/长” ? 核心词表如何收词?即那些词作为词典中的词 “给力”?“忽悠” 词的变形结构问题:“看/没/看见” ,“相不相信” 不同应用对词的切分规范要求不同 n-gram,n 取多大?,分词算法上的困难,对未登录词识别 命名实体:数词、人名、地名、机构名、译名、时间、货币 缩略语和术语:“超女”、“非典”、“去离子水” 新词的发现:“给力”、“忽悠”,常用评测指标,召回率(Recall) 分词: 检索: 准确率(Precision) 分词: 检索:,基于词典和规则的方法,最大匹配 正向最大匹配、反向最大匹配和双向最大匹配 实现简单,而且切分速度快。但无法发现覆盖歧义,对于某些复杂的交叉歧义也会遗漏。 全切分 利用词典匹配,获得一个句子所有可能的切分结果。 时空开销非常大。 基于理解的分词算法 模拟人的理解过程,在分词过程中加入句法和语义分析来处理歧义问题。 难以将各种语言信息组织成机器可直接读取的形式,还处在试验阶段,基于大规模语料库的统计方法,N元语法(N-gram)模型,n 为2、3、 为组成词的字数,基于字的切分方法,N元切分法(N-gram) :对一个字符串序列以N为一个切分单位进行切分。 如二元切分法: “ABCDEFG” “ABCDEFG” 交叉二元切分法(Overlapping Bigram):“ABCDEFG” “ABBCCDDEEFFG” 简单快速,但会产生大量无意义的标引词,导致标引产生的索引文件的空间,以及检索和进行标引的时间都大大增加。同时,因为它的切分单位并非语言学意义上的词语,所以也会导致检索的查准率下降。,中文分词系统,作为实用的分词系统的构建,一般是先选择一个语料库作为训练集,利用统计模型建立不同字组成词的概率,确定如何分词 语料库:指大量的文本,通常经过整理,具有既定格式与标记;英文 “text corpus“ 的涵意即为 “body of text“ 例子: 广州/ns 近日/t 举办/v 2010/t 亚运会/ns ns noun;t: time, v: verb;,语料库,语料库是通过分词系统、标注系统和人工校对建立的,一般根据新闻机构的文本建立的比较多,如北京大学建立的“人民日报标注语料”、“现代汉语语料库”、“古代汉语语料库”、“中英文双语语料库”. 原则:规范、一致(看法一致)、规模(适当多的文本)以及均衡性(各种题材的文本都有),利用维基百科,利用维基百科发现实体 利用维基百科进行消歧 消歧是指对同一关键词,可能有不同的语义的分辨,如“苹果” / 所谓实体往往是指独立的、有各种独特特征的对象,如“山东大学”、“苹果”等,分词和大规模中文信息检索之间的关系探讨,在当前的信息检索技术中,中文切分是必要的。 问题 是否需要按语言学意义上的词进行切分。 文档和查询二者的切分方法是否需要一致。 是否检索系统使用的分词算法切分精度越高其检索结果就越好。,分词和大规模中文信息检索之间的关系探讨,基于字的切分:单字切分,二元切分和交叉二元切分 基于词的切分:基于词典的匹配和基于统计的方法 7组关于切分方法的实验比较结论: 字比词好:3组; 词比字好:3组; 二者差不多:1组 3组关于切分一致的实验比较结论: 切分方法一致更好:1组 切分方法不一致的更好:2组 查询是基于字的切分时,文档是最大匹配切分的结果更好。 查询是基于词的切分时,文档是基于字的切分的结果更好。,分词和大规模中文信息检索之间的关系探讨,两组实验: 1基于单字切分、交叉二元切分和利用ICTCLAS系统切分的检索性能比较。文档和查询采用同一种切分方法。 2基于单字切分、交叉二元切分和利用ICTCLAS系统切分的检索性能比较。查询采用人工切分的方法。 实验环境: 数据:北大提供的中文网页测试集CWT 部分数据。 检索系统:麻州大学和卡内基梅隆大学合作开发的检索工具包Lemur,分词和大规模中文信息检索之间的关系探讨,分词和大规模中文信息检索之间的关系探讨,原因: 查询切分和文档切分采用相同的分词算法,有一些文件切分错误的词,在查询时也遇到相同的切分错误,所以即使切分阶段错误,但最后相同错误匹配,使得仍然可以正确检索到; 有些词被错误的切分成几个部分,尽管这样会导致分词正确率下降,但对于检索来说,最后可以通过结果合并得到正确的结果,分词的错误并不影响检索的性能; 分词测得的准确率高低并不是绝对的,有时跟用标准答案有关。这涉及到对词的定义问题,有些标准答案认为是该切分的词,实际上不切分用于检索更加准确一些。如:“国内”vs”国内“ 、“民进党团”vs”民进党团“vs”民进党团“,适用于大规模中文信息检索的分词算法,分词算法的时间性能要比较高。尤其是现在的web搜索,实时性要求很高。所以作为中文信息处理基础的分词首先必须占用尽可能少的时间。 分词正确率的提高并不一定带来检索性能的提高。分词到达一定精度之后,对中文信息检索的影响不再会很明显,虽然仍然还是有一些影响,但是这已经不是CIR的性能瓶颈。所以片面的一味追求高准确率的分词算法并不是很适合大规模中文信息检索。在时间和精度之间存在矛盾无法兼顾的情况下,我们

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

最新文档

评论

0/150

提交评论