(计算机软件与理论专业论文)web信息语义特征获取技术.pdf_第1页
(计算机软件与理论专业论文)web信息语义特征获取技术.pdf_第2页
(计算机软件与理论专业论文)web信息语义特征获取技术.pdf_第3页
(计算机软件与理论专业论文)web信息语义特征获取技术.pdf_第4页
(计算机软件与理论专业论文)web信息语义特征获取技术.pdf_第5页
已阅读5页,还剩76页未读 继续免费阅读

(计算机软件与理论专业论文)web信息语义特征获取技术.pdf.pdf 免费下载

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

一,1 at h e s i sf o rt h ed e g r e eo fm a s t e ri ns o f t w a r ea n dt h e o r yo f c o m p u t e r t e c h n o l o g yo fa c q u i r i n gs e m a n t i cf e a t u r eo fw e b i n f 0 r m a t i o n b yw e ih o n g m s u p e r 、,i s o r :d e p u t yp r o f e s s o rg a ok e n i n g n o r t h e a s t e r nu n i v e r s i t y j a n u a r y2 0 0 8 哪2 -424舢8 iiii-哪y 丫 , ,叫i_, 独创性声明 本人声明,所呈交的学位论文是在导师的指导下完成的。论文中取得 的研究成果除加以标注和致谢的地方外,不包含其他人己经发表或撰写过 的研究成果,也不包括本人为获得其他学位而使用过的材料。与我一同工 作的同志对本研究所做的任何贡献均已在论文中作了明确的说明并表示谢 :也 恧。 学位论文作者签名:叁留铝锑 日期:) p 铲f 学位论文版权使用授权书 本学位论文作者和指导教师完全了解东北大学有关保留、使用学位论 文的规定:即学校有权保留并向国家有关部门或机构送交论文的复印件和 磁盘,允许论文被查阅和借阅。本人同意东北大学可以将学位论文的全部 或部分内容编入有关数据库进行检索、交流。 ( 如作者和导师不同意网上交流,请在下方签名:否则视为同意) 学位论文作者签名:导师签名: 签字日期:签字日期: 一i i k - v i 东北大学硕士学位论文摘要 w - e b 信息语义特征获取技术 摘要 随着网络的发展及个人电脑的普及,越来越多的信息被发布到因特网上。w 曲信息 门类齐全、数据量庞大,几乎无所不包,然而面对如此庞大的信息海洋,用户关心的只 是其中很小的一部分信息,需要提供有效的搜索引擎或信息集成工具,帮助用户快速、 准确地找到其所感兴趣的信息。在海量w 曲数据空间中,w 曲信息通常以网站的形式 进行组织,各网站设置自己的分类目录以实现信息页面按类别组织和发布。然而不同网 站进行类别划分时,标准不统一,分类用语不规范,存在明显的语义差异,难以相互兼 容、合并,更无法实现多源w | e b 信息的有效集成。因此迫切需要提供一种有效的w 曲 信息语义特征表示方式,以解决网站分类语义异构问题。 为解决网站分类信息的语义异构问题,本文阐述了基于向量空间模型和基于重复模 式的语义特征表示方法及两种表示方法的语义更新策略。在分类体系中,将分类概念作 为描述w 曲信息类别的原子节点,通过标准化的分类概念语义特征体现w 曲信息类别 的潜在语义信息,从而实现w 曲信息的统一理解和规范性描述。 以网站分类语义统一理解及规范性描述为核心,为实现w - e b 信息语义特征标准化, 本文的研究内容包括:w 曲页面信息获取技术,w 曲信息语义特征表示方法研究及w 曲 信息语义特征时效性及更新策略研究。首先,完成w 曲页面信息下载和h t m l 标签解 析,从w 曲页面及其结构中提取出描述及表示语义特征的有用信息,改进现有t f i d f 权重计算算法,提高特征项权重的准确度;其次,分别采用两种表示方法进行w - e b 信 息语义特征规范化描述。基于向量空间模型的语义特征表示方法通过对样本网页分词、 数据清理、特征权重计算、特征选取、生成特征向量等操作将每个分类概念表示成特征 l向量。基于重复模式的w e b 信息语义特征表示方法采用相关矩阵法发现w e b 网页中所 有的重复模式,通过丫近似匹配算法对不同类别中相似的重复模式进行归一化处理,得 f 到分类体系中每个分类概念的重复模式及重复次数对语义特征进行表示;最后,根据 w | e b 信息变化性和时效不确定性,制定语义特征更新策略,在相应时间内更新所属分类 概念的语义特征,使语义特征的表示更加准确。 关键词:w - e b 信息语义特征;向量空间模型;重复模式;时效性;更新 一i i i 东北大学硕士学位论文 摘要 一一 东北大学硕士学位论文 a b s 仃a c t 7 r e c h n o l o g yo f a c q u i r i n gs e m a n t i cf e a t u r eo fw e bi n f o r m a t i o n a b s t r a c t a si n t e m e td e v e l o p i n gr a p i d l y 砒l dp e r s o n a lc o n l p u t e rb e i n gp o p u l a r ,m o r ea r l dm o r e 证f b 珊a t i o nh a sb e e n 印p l i e do ni n t e m e t w 曲r e s o u r c e sa r e 仃e m e n d o u si n 锄o u n t ,c o m p l e t e 。 i nc a t e g o r y ,a i l dn e a r l ya n yi i l f o m a t i o nc a nb ef o u i l do ni t n e v e n :h e l e s s ,c o n 丘o n t e d 、耐t 1 1t h e h u g es e am l lo fi 晌肌a t i o n ,、) 恤ti su s e 伽f o rag i v e nu s e ro c c u p i e sal i t t l ep a r to fi t n s i r n p o r t a d tt op r o v i d ea i le m c t i v et o o l 器s e a r c l l i n ge n g i n eo ri n f o m a t i o ni n t e 伊a t i o ns y s t e m , h e l p i n gp e o p l et of i n dt 1 1 ev e 巧i i o n i l a t i o nm a tt h e ya r ei n t e r e s t e di 1 1p r o p e r l ya n dq u i c l 【l y i i l t l l ei m m e n s ei n f o n n a t i o ns p a c e ,w 曲h l f o 衄a t i o ni su s u a l l yo 玛a i l i z e di 1 1t 1 1 ef o mo fw 曲s i t e s , w 1 1 i c he s 协b l i s ht 1 1 e i ro 、) l j nc l a s s i f i c a t i o nc a t e g o r i e sf o rp a g e so 曙a i l i z a t i o na 1 1 d p u b l i c a t i o n o t h e 州s e ,f o rd i 航r e mw 曲s i t e sm ec l a s s i f i e dc r i t e r i o ni sn o tu n i f i e da i l dt h e yd o n tl l a v et 1 1 e s 衄【1 d a r df o rn a l i l i n gc a t e g o d ri t e m s ,w m c h1 e a d st ot 1 1 ed i 旋r e n c eo fs e m a n t i c s w i t ht h e d i a e r e n c e s ,m u l t i - s o u r c ew 曲i 1 1 f o m l a t i o nc o u l d n ts a t i s 锣也ep u 印o s eo fc o m p a t i b i l i t ya i l d m e 唱e r ,s om u c hs o 也a tt 1 1 ee 丑e c t i v ei n t e g r a t i o n aw a yf o rr e p r e s e n t i n gs e m a i l t i cf e a t i 】r e so f w 曲i n f o m a t i o ni sn e e d e du 玛e n t l yt os o l v et l l ep r o b l e mo fw 曲s i t e s c l a s s i 母i n gs e m a n t i c d i 舵r e n c e t 0s e 砌et l l es e m 锄t i cd i f i e r e n c eo fc a _ t e g o 巧i t e m so fw 曲s i t e ,t 1 1 et h e s i si l l u s t r a t e s s e m 趾t i cf e 狐聆r 印r e s e n t a t i o l l sb a s e do nv e c t o rs p a c em o ! d e la i l dr 印e a t i n gp a n e 驰“a l s o s h o 、ss e m 锄t i cu p d a t i n gs t r a t e g yo ft 1 1 et 、阳s e m a l l t i cf e a t u r e r e p r e s e n t a t i o n sa b o v e f o ra s i n 9 1 ec l a s s i f i c a t i o ns y s t e m ,t h ea t o mn o d e so fi ta r ec l a s s i 丘c a t i o nc o n c e p t s ,w h o s es t a l l d a r d s e m a n t i cf e a t u r e so fc l a s s i f i c a t i o nc o n c e p t ss h o wt h ep o t e m i a ls e m a n t i c so fw 曲c a t e g o r ) , i t e m s ,r e s o l v i i 玛m ep r o b l e mo fu 1 1 i f o n nu 1 1 d e r s t 龇l d i n ga 1 1 ds t a n d a r dd e s c r i p t i o no fd i 脏r e n t w 曲c a t e g o d ri n f i o 肌a t i o n t h em a j nw o r kf o rt l l et 1 1 e s i si sa r o u l l dt l l ep u 印o s eo fu i l i f o m u 1 1 d e r s t a i l d i n ga i l d s t a l l d a r dd e s c r i p t i o no fc a t e g o 巧s e m a n t i c st oi m p l e m e n ts t a n d a r d i z a t i o no fw 曲i o m a t i o n s e m a i 】t i c s ,趾di tc o n s i s t so fm r e er e s p e c t s ,t :h a ta r et e c l u l o l o g yo fa c q u i r i n gw 曲p a g e s i - o r n l a t i o n ,s t u d yo nr e p r e s e m a t i o no fw 曲i n f o n l l a t i o ns e m a n t i cf e a t u r e ,s t l m yo nt i m e v a l i d 时a n du p d a t i n gs t r a t e g yo fw 曲i n f o n i l a t i o ns e m a n t i cf e 砷盯e f i r s t l y ,d o w m o a d i n gm e t e x t s 舶mw 曲p a g e s ,a i l 以y z i n gh t m lt a g s ,e x 仃a c t i n gu s e 彻i n f o n l l a t i o nn l a tc o u l d r e p r e s e n ts e m a n t i cf e a t u r e s 舶mw e bp a g e sa n dt h e i rs t m c t u r e s ,i m p r o v i n gc u r r e n tt f i d f a l g o r i t l l mo fc o m p u t i n g 、v e i g h t st oe r 山a 1 1 c et h ea c c u r a c yo ff e a t u r ei t e m s 、v e i g h t ,s e c o n d l y , 一v 一 东北大学硕士学位论文 a b s n a c t t l l e r ea r et v 旧s t a n d a r dm e 也o d st or e p r e s e n ts e m a n t i cf e a t u r e so fw 曲i 对o m a t i o n ,t l l em e m o d b a s e do nv e c t o rs p a c em o d e lr e p r e s e m sc a t e g o 巧c o n c e p t sa sf e a t u r ev e c t o r sb yw 曲p a g e s s e 舯e n t ,d a t ac l e a n s i n g ,f e a n l r ew e i g h tc a l c u l a t i n g ,f e a t u r ee x t r a c t i n g ,f e a c i 】r ev e c t o rm a l 【i n g , t l l em e t l l o db a s e do nr e p e a t i n gp a t t e mg e t sr e p e a t i n gp a t t e m sa n dr e p e a t i n gt i i i l e so fe a c h c a t e g o r ) rc o n c e p tt 0r e p r e s e n ts e m a i l t i cf e a t u r e sb yu s i n gc o r r e l a t i v em a 仃i xa l g o r i t l l mt of i n d w 曲p a g e s r e p e a t i n gp a t t e m s ,u s i n gy 印p r o x i m a t em a t c h i n g2 l l g o r i t l l 】mt o 砌f i o ms i i l l i l a r r e p e a t i n gp a t t e m s 血d i 恐r e n tc a t e g o r i e s ,t 1 1 i r d l y ,s 鲥n gn e wu p d a t i n gs t r a t e g ) ro fs e m 趴t i c f e a :t u r et or e 丘e s hs e m 觚t i c so fc a t e g o 巧c o n c e p t si nt i i l l eb yc h a n g e sa n dt i m ev a l i d i t ) ro fw 曲 i n f - 0 n 1 1 a t j o nt dma :k es e m a n t i cf e a n i r e sm o r ea c c u r a t e k e y w o r d s :w 曲i n f o n n a t i o ns e m 卸t i cf e a t u r e ;v e c t o rs p a c em o d e l ;r e p e a t i n gp a t t e m ;t i i i l e v a l i d i t y ;u p d a t i n g v i 一 东北大学硕士学位论文目录 目录 独创性声明i 摘要i i i a b s 慨t v 第一章前言1 1 1 研究背景1 1 2 研究内容1 1 3 本文工作及结构框架3 第二章研究基础5 2 1w 曲信息语义特征表示方法5 2 1 1 向量空间模型表示方法6 2 1 2 音频数据检索中的重复片断搜索算法1 2 2 2w 曲信息分类技术1 3 2 3 基于分类概念模型的w - e b 系统描述16 2 4 小结17 第三章基于向量空间模型的语义特征描述及获取方法1 9 3 1w 曲页面位置信息获取技术1 9 3 1 1h t m l 文档解析技术2 0 3 1 2w e b 信息预处理过程2 5 3 1 3 抽取位置信息算法2 6 3 2 基于向量空间模型的语义特征表示方法2 9 3 2 1w 曲信息分词技术2 9 3 2 2 特征权重计算算法及改进3 0 3 2 3 特征抽取机制3 3 3 2 4i k c k o 公式计算核心向量过程3 4 3 2 5 特征向量相似度计算算法3 5 3 3 对比实验3 6 3 3 1 特征选取对比实验3 6 3 3 2 带有位置信息w 曲页面与自由文本式w 曲页面分类对比实验3 8 3 4 j 、结4 0 第四章基于重复模式的语义特征描述及获取方法4 1 4 1 基于重复模式的语义特征表示方法4 2 一v i i 东北大学硕士学位论文 目录 4 1 1 概念定义4 3 4 1 2 建立相关矩阵抽取重复模式过程4 4 4 1 3 重复模式抽取规则4 7 4 1 4 归一化重复模式的y 近似匹配算法4 9 4 1 5 计算重复模式权重并进行测试集分类过程5 l 4 2 重复模式表示法实验分析5 2 4 2 1 实验样例5 2 4 2 2 实验结果5 3 4 3 小结5 6 第五章w 曲信息语义特征的更新5 7 5 1w 曲信息时效性研究5 7 5 2w 曲信息语义特征更新机制5 8 5 3 小结- 。6 2 第六章结束语6 3 参考文献6 5 致谢6 9 一v i i i 东北大学硕士学位论文第一章前言 第一章前言弟一早刖苗 1 1 研究背景 随着网络的发展及个人电脑的普及,越来越多的信息被发布到因特网上,因特网提 供了一个巨大的信息源,但这种信息源往往是半结构化的,虽然中间夹杂着结构化和自 由文本。网上的信息还是动态的,包含超链接,以不同的形式出现,而且跨网站和平台, 全网共享。因此,因特网是一个特殊的挑战,一直推动着从结构化和半结构化文本中抽 取信息的研究向前迈进。为了在海量的w 曲数据空间中检索出用户所需信息,通常人 工对网站进行标引和组织,将w r e b 信息分类,提供分类搜索。在信息抽取领域,为提 供信息增值服务,需要分析信息语义和信息结构来抽取指定类别信息中的内容,本文研 究的重点是w e b 信息语义特征获取技术。 为了方便用户的浏览,w 曲信息通常按类别以栏目的形式在网站主页上显示。网站 设计者将信息按照内容的不同分成不同的类别,当需要处理新信息时,可以利用已有的 类别信息将新信息进行正确的归类。如何从信息的语义内容着手,分析信息内容的特点, 提取出类别信息的语义特征,是本课题的研究重点。网站的分类规律是w 曲信息分类 和信息归类的依据。本文从w e b 信息语义这个基本问题分析网站分类规律,在已经提 出的分类概念模型的基础上,获取分类概念的语义特征。通过分类概念语义特征对象, 从语义层面对w r e b 信息进行描述。 本文研究目的是以网站现有的栏目结构为基础,即将栏目作为分类概念,对每个分 类概念获取其语义特征,为w 曲信息分类,w e b 信息集成及内容处理提供技术支持。 由于因特网信息的异构性,人们无法准确得到自己感兴趣的东西。信息非结构化、异构 性导致语义差异。在信息集成领域,为了能够准确检索出用户所需信息,需要准确的语 义特征表示方法。目前已有技术并没有彻底解决这些问题,新技术应该有更准确的语义 特征表示方法、更直观的语义特征关系描述。因此,研究一种高效的w | e b 信息语义特 征获取技术,任重而道远。 1 2 研究内容 如何从浩繁的w | e b 数据中抽取出有用的信息成为众多研究工作希望解决的问题。 h t e m e t 具有的海量、异构、动态变化等特性使w | e b 信息表示不同于传统信息表示方法, 一1 一 东北大学硕士学位论文第一章前言 w 曲信息表示正面临巨大的困难。首先,如何消除w r e b 页面间的异构性,从w 曲页面 中准确识别所需的信息点成为一个较大的难点;其次,面对呈几何级数增长的巨大w e b 信息空间,如何自动高效地处理海量信息是w | e b 信息表示的一个难点;最后,w 曲网 站的动态更新使得保持信息抽取的适应性也成为一个亟待解决的问题。 为了自动收集和整理所需要的各类信息,需要寻找一种高效的w e b 信息语义特征 表示方法。同普通英文文本相比,中文网页又具有自身的特性:( 1 ) 网页使用超文本设 计,包含大量的h t m l 标签和超链接。可以利用这些信息来改进分类的质量。比如包 含在标题( t i t l e ) 标签内的内容要比出现在网页正文( b o d y ) 标签内的内容要重要得多。 相邻网页通常具有相关或相同的主题,因此网页之间的超链接信息也十分重要。( 2 ) 中 文网页使用中文编辑。中文不像英语单词之间存在自然的间隔,中文需要分词处理,而 且分词的效果能够显著地影响分类效果,所以采用什么样的特征项表示w 曲信息是一 个值得探讨的问题。( 3 ) 网页内容更新速度快。同普通文本相比,网页更新速度具有不 确定性。有时甚至几小时就会更新一次。在进行语义特征表示过程中,需要实时更新, 否则会影响语义特征表示的准确度。正是由于中文网页的这些特性,不能直接使用普通 文本来代替网页实现中文网页的语义特征表示,需要针对中文网页的特性设计新的方 法。 一 本文的研究内容主要涉及以下几个方面: ( 1 ) w 曲页面结构信息在语义特征表示中的作用。 传统的特征向量【1 】计算方法把整个w r e b 信息页面的文字内容进行统一处理,应该注 意到一个问题,对于一个w 曲信息页面,标题、摘要、正文内容、超链接文字内容等 在构建语义特征过程中的重要程度是不同的,现有的研究没有侧重这方面的内容。本文 的研究重点是,给w 曲信息网页中不同位置的内容赋予不同的权重,改进现有算法, 采用新的特征权重计算方法得到语义特征,使之表达更准确。 ( 2 ) 对w 曲信息语义特征表示方法的研究。 就目前的研究而言,w 曲信息语义特征表示方法可分为两个类型:基于外延方法的 表示方法和基于语义的表示方法。在通常情况下,w 曲信息页面被表示成一个特征向量, w 曲信息页面的语义特征用特征项来表示,即w 曲信息语义特征表示采用向量空间模 型。目前,大多数分类系统都使用这种特征表示方法。但是,词作为语义特征表示的基 本单位存在表达能力有限的问题。虽然,一些研究者已经研究出新的特征表示方法,但 是还有待于进一步深入的研究。国内外研究人员对知识库在语义特征表示中的应用进行 一2 一 东北大学硕士学位论文第一章前言 了一些研究。李辉等提出一种把“同义词词林”【2 1 通过中文语义映射应用到s v m 【3 州分 类器中的方法。s c o t t 等利用w | o r d n e t 的语义关系来表示文本特征,也应用到分类概念 语义特征表示中。但是,这些应用的效果都不是很理想,存在很多不足,不能充分体现 领域知识在语义特征表示中的作用。在此基础上,本文提出了基于重复模式【5 】的表示方 法。基于重复模式的表示方法是一种介于词的表示方法和基于知识的表示方法之间的一 种方法,它只抽取那些对语义特征抽取有用的重复模式,它抽取短语周围的语义信息和 潜在的语义重复模式进行w 曲信息类别的确定。基于重复模式的表示方法并不需要理 解全文的语义,这在当前对自然语言的理解水平尚处于初级阶段的现状来说无疑是一个 较好的表示方法。 ( 3 ) w e b 信息语义特征的时效性及更新。 w 曲信息具有变化性和时效不确定性,大部分网站的页面结构和内容只能保证一段 时间内的稳定性,随着时间的推移,w r e b 信息的结构和内容可能由于业务和技术的变化 而有微小或重大的变化。例如,w 曲上大量的新闻、体育等类别的信息,每天、每小时事 甚至每分钟都在更新。如果支撑分类概念语义的w - e b 信息实例大范围更新,基于原有 实例信息构建的分类概念语义特征就可能失效,不能准确的概括当前信息的主题。针对 w e b 信息的这个特点,在构建分类概念语义特征时不能一劳永逸,根据信息动态性变化 的频率和比例,考虑在相应时间内更新所属分类概念的语义特征。 1 3 本文工作及结构框架 为了实现一种高效的w 曲信息语义特征获取技术,本文研究的重点在于采用什么 样的描述方法来表示w | c b 信息语义特征,与传统的文本分类方法相区别,根据w r e b 信 息自身的特点更好的表示w | e b 信息语义特征及如何更新w | e b 信息语义特征。本文主要 涉及w 曲页面结构信息对语义特征表示的影响、w r e b 信息语义特征表示方法多样化研 究以及w | e b 信息语义特征更新等三方面内容。 本文主要分为六章: 第一章引言,主要研究w 曲信息语义特征获取技术的发展现状和存在的问题,指 出论文的研究目标和需要解决的问题,并给出论文组织的框架结构。 第二章研究基础,主要介绍w 曲信息语义特征表示的不同方法,基于自然语言理 解研究领域的w 曲信息分类技术,并介绍了分类概念模型的相关定义及概念。 第三章基于向量空间模型的语义特征描述及获取方法,定义了采用向量空间模型表 一3 一 东北大学硕士学位论文 第一章前言 示w 曲信息语义特征的方法,并研究了获取w 曲页面结构信息生成特征向量的过程。 第四章基于重复模式的语义特征描述及获取方法,主要描述通过获取w 曲信息页 面重复模式表示w e b 信息语义特征的方法,并根据w 曲页面结构抽取不同位置的重复 模式表示w r e b 信息语义特征。 第五章w e b 信息语义特征更新,主要分析w r e b 信息语义特征的时效性和更新维护 问题,给出构建和更新的规则和实现流程。 第六章结束语,对全文进行总结并提出下一步的研究目标。 一4 一 东北大学硕士学位论文第二章研究基础 第二章研究基础 2 1w e b 信息语义特征表示方法 就目前的研究而言,w r e b 信息语义特征表示方法可分为两个类型: ( 1 ) 基于外延方法的表示方法。这种类型的表示方法不关心语义,根据w e b 信息 的外在特征进行描述。最常见的方法是基于向量空间模型( v e c t o rs p a c em o d u l e ) 的方 法。该方法的思想是:把w e b 信息页面表征成由特征项构成的向量空间中的一个点, 通过计算向量之间的距离,来判定w r e b 信息页面语义特征之间的相似程度。采用该表 示方法的一般步骤是:先通过对训练语料的学习对每个分类概念建立特征向量作为该分 类概念的语义特征,然后依次计算该向量和各个分类概念特征向量的距离求得语义特征 之间的相似度。这种方法在很多领域都有所应用。 ( 2 ) 基于语义的表示方法。这种类型的表示方法采用全部或部份理解w 曲信息的 语义进行表示。主要可以分为以下三类:( a ) 基于词的表示方法。w e b 信息语义是基于 概念之上的,而词是概念的基本构成单位,从w | e b 信息页面中抽取出能反映出该w 曲 信息页面语义特征的关键词,通过对关键词处理来表示分类概念的语义特征。显然这种 方法产生的语义特征其实并不是真正通过语义来进行语义特征描述,属于较早采用的技 术,和基于外延的表示方法基本相同。( b ) 基于知识的表示方法。基于知识的表示方法 有一个明确的知识库,知识的表示方法主要有规则库、语义模型或格框架等。基于知识 的表示方法的显著特点是需要手工建造知识库,且建造的知识库领域性极强,移植非常 困难。最近的研究工作表明,在一定的领域内,基于知识库的系统能够准确的描述分类 概念语义特征。例如本体【每7 1 、知网【8 1 等。( c ) 基于重复模式的表示方法。基于重复模式 的表示方法是一种介于词的表示方法和基于知识的表示方法之间的一种方法,它只抽取 那些对语义特征抽取有用的重复模式,它抽取短语周围的语义信息和潜在的语义重复模 式进行w 曲信息类别的确定。当前对自然语言的理解水平尚处于初级阶段的现状来说 无疑是一个较好的表示方法。 在通常情况下,w | e b 信息页面被表示成一个特征向量,w 曲信息页面的语义特征用 特征项来表示,即w r e b 信息语义特征表示采用向量空间模型。目前,大多数分类系统 都是使用这种特征表示方法。 一5 东北大学硕士学位论文第二章研究基础 2 1 1 向量空间模型表示方法 为了对w 曲信息语义特征进行表示,首先要对w r e b 信息样本网页进行分析,提取 出网页中的区别性特征。一般认为,在类别不同的w 曲信息页面中,词的分布规律不 刚9 1 。可以想象,在计算机类的w 曲信息中,“芯片 ,“内存 这样的词出现的次数一 。 般较多,而“期货”,“挤兑 这样的词则会很少出现,这些用词规律是语义特征表示的 一个重要依据。所以首先要对w 曲信息样本网页进行分析,并把分析结果用一定的形 式表示出来。该分析结果理论上不含和语义特征无关的信息,可认为是w | e b 信息的一 种抽象表示,分析过程通常称作w 曲信息语义特征表示过程,所以采用的表示架构一 毫 般称作w 曲信息语义特征表示模型。 由于自然语言不能被计算机直接识别,所以在对w e b 信息进行处理之前必须用一 种形式化的方式来表示w e b 信息,以便于w 曲信息的存储、运算及分析。传统的w e b 信息语义特征表示方法是向量空间模型,而搜索、集成、内容处理等工作是在此基础上 进行的。 在向量空间模型中,训练文本和待分类文本都表示成玎维空间中的向量,为了解向 量空间模型,首先应了解一些基本术语。特征项( f e 籼et e m ) 是一组从文档中预先选 择出来的可以代表文档内容的关键词。词汇表( v o c a b u l a r y ) 是所有特征项构成一个词 汇表。 若一个词汇表包含刀个特征项,分别为( r j ,匕,如) ,那么该词汇表可以定义一个刀 维特征空间。训练文本和待分类文本都可以表示为这个特征空间中的刀维向量。 向量空间模型的建立过程如图2 1 所示。 隧l 废函 特征向量生成阶段 样本网页分类阶段 图2 1 向量空间模型的建立过程 f i g 2 1c o n s t i t u t i n gp r o c e s s i n go f v e c t o rs p a c em o d e l 根据图2 1 的描述,向量空间模型的建立主要包括以下步骤: 一6 一 东北大学硕士学位论文第二章研究基础 2 1 1 1 对样本网页分词 由于在向量空间模型中w e b 信息分类是以词为特征进行的,因此必须首先对w | e b 信息页面进行分词处理。分词就是将自然语言中的字符串变成词串。对于有形态的语言 来说,分词任务又包含两个部分:一是将句子中的词离析出来( t o k e l l i z a t i o n ) ;二是在 此基础上,进一步对词的内部构造形式进行分析,即分析出组成词的语素成分 ( m o 印h o l o g i c a la 1 1 a l y s i s ) 。对汉语来说,一般这两个部分没有非常严格的界限,基本 上就是一个任务,即把字符串中包含的词给找出来( s e g e m e 北l t i o n ) 。 采用拼音文字体系的语言( 比如英语) ,书写时在词与词之间基本都有空格作为分 隔符,因而这类语言的文本,基本已经是词串的形式了。跟西方语言的书写方式不同, 现代汉语的书面形式是分句连写的。只有句与旬之间有显性的标点符号作为分隔标记。 因此,对现代汉语的文本进行处理,找出一句话中的词,面临的问题跟英语有很大的不 同。在本文中重点考虑的是汉语的分词问题。对w r e b 页进行分词,词与词之间用“ 隔开,并且给每个词标注词性。 2 1 1 2 数据清理 去掉h n m 一些t a g 标记,去除禁用词( s t o p 、o r d s ) ,去掉不合适的噪声文档或文档 内垃圾数据。生成词表w o r d l i s t ,、o r d l i s t 里存储的是w 曲文档所有已出现的具有语义 特征表示意义的词。对于一些极高频词如汉语中的“的、了 或英语中的“t 1 1 e 、o f , 这些词几乎会在每一篇文档中出现,对文本的分类几乎没有贡献。如果这些词也参与分 类计算,不仅会冲淡其它特征词的作用;而且会浪费大量的计算资源。因此,系统在构 建之前,一般是把这些词收集起来,组成一个表,称为停用词表( s t o pl i s t ) 。停用词表 中的词不作为特征使用,这样会节省很多计算资源。 2 1 1 3 特征权重计算 向量第f 维的值一般称为特征项的权值( t e 胁、e i g h t ) ,当把一个文本表示为一个刀 维向量时,需要计算特征项的权值。有一种简单的权值计算方法是根据特征词在文档中 是否出现建立权值,若出现,相应的权值为1 ,否则为o 。但这种计算权值的方法过于 简化,存在种种不足。本文中采用的是一种经典的t f i d f 【l o 】加权方法,下面首先介绍 两个有关的频率。项频率( t e 衄肫q u e n c y ) 一般计为历表示项f 在文本d 中出现的次 数。文档频率( d o c u m e n t 行e q u e n c y ) 一般计为够表示含有项,的文档数。 来看一下这些频率反映出来的意义。项频率是一篇文档中的一个项( 词或词组) 的 突出程度。若某一项的项频率越大,就大约说明这个项较好的反映了文档的内容。从语 一7 一 东北大学硕士学位论文 第二章研究基础 言学的角度看,可以把所有词分为两类:一类词,他们在所有文档中都会出现,甚至很 可能在所有的文档中具有相似的分布规律。这类词对衡量文档之间的相似性意义不大, 这类词称为非焦点词;而另外的一类词,它们的出现范围比较窄,在所有的文档中分布 不均匀。在有些文档中它们有很高的出现频率,但在有些文档中的出现机会却很小,这 类词对衡量两个文档是否相关很有意义,这类词称为焦点词。对于文档而言焦点词显然 比非焦点词更具信息意义。文档频率正好描述的是特征项的这个属性,如果一个特征项 的文档频率越小,则表明这个项更具有信息意义,很可能是一个焦点词。而如果一个特 征项的文档频率越大,说明这个特征项很可能属于非焦点词。 本文所采用的权重计算方法可用下式表示。 口如2 1 0 9 ( 矿+ 1 0 ) l o g ( 2 1 ) 这里,口琅是第f 个特征项在第七篇文档中的特征权重,娠是第f 个特征项在第七篇 文档中的项频率,彤是第f 个特征项的文档频率,m 是向量的维数,是训练语料中的 总文档数。 这种方法综合考虑了特征项在某个文档中的凸显程度,同时也考虑了特征项在文档 中的分布特点。这里使用了l o g ( 铲1 ) ,而没有直接使用矿的原因是要弱化项频率对整个 综合权重的影响。在这个加权方法中,文档频率以反比形式出现,反映了一个特征项的 文档频率越大,对综合权重的影响就越小,这符合本文对文档频率所蕴含意义的分析。 在计算文档频率时,也没有直接使用文档频率的反比形式,而采用了l o g ,这一般 称为逆向文档频率( m e r s ed o c 眦e n t 丘e q u e n c y ) ,简写为颤。 2 1 1 4 特征选取 在w r e b 信息语义特征表示过程中,特征空间的维数通常很高。当用词作为w 曲信 息语义特征时,语料中包含的特征项数目一般都有几万、几十万。高维特征空间对于一 些算法复杂度较高的分类算法来说,速度效率是一个很重要的问题。因此,在分类器处 理前,经过特征降维1 1 】,也就是将特征空间丁的维度经过处理变小。并且,特征降维可 以部分解决过学习问题。特征降维的目标是:将高维特征空间映射到一个低维特征空间, 并且基于这种低维特征空间进行w 曲信息分类时,系统的分类效果不会下降或是下降 很少。所谓的特征选取就是使新得到的特征集是原特征集的子集。特征选取的方法很多, 本节中介绍以下几种比较常用的特征选取方法: 一8 一 东北大学硕士学位论文第二章研究基础 ( 1 ) 文档频率d f 【12 1 。 某个特征的文档频率( d o c 眦e n t 仔e q u e n c y ,d f ) 一般定义为包含该特征的训练文 档个数。因此,文档频率通常用于全局特征选择。在运用文档频率进行特征选择时,首 先要计算各个特征词的文档频率,然后将那些文档频率高于某个阈值的所有特征词挑选 出来。其依据为:文档频率低的特征不包含对分类有用的鉴别信息,因而对分类结果没 有什么影响。文档频率是最简单的一种文本特征选择方法,同时也是最有效的文本特征 选择方法之一。 特征项的d f 小于某个阈值去掉( 太少,没有代表性) ,特征项的d f 大于某个阈值 也去掉( 太多,没有区分度) 。取出最大的前刀个特征词,并按矽排序。形式化定义 为:d f ) = ( c ,x ) 且巧 ) 口缸。 优点:去掉低频词,减少特征空间的维数,当低频词为噪音时,可提高分类效果, 算法简单,计算量小。 缺点:认为低频词无信息量,但低频词也可能带有很大信息量,这时直接去掉低频 词会影响分类效果。 ( 2 ) 互信息【1 3 】( m u 删i l 响衄a t i o n ) 。 互信息( m u n l a l 幽m a t i o n ,m i ) 是信息论中的概念,它用于度量一个消息中两个 信号之间的相互依赖程度。在特征选择领域中人们经常利用它来计算特征工与类别c 之 间依赖程度,将特征x 与各个类的互信息融合起来作为特征的权重。特征x 与类别c 的 互信息越大,说明特征x 中包含的与类别c 有关的鉴别信息就越多,m i 越大,x 和c 共 现程度越大。设f 为某个词,c 为某个类别,它们的互信息定义如下。 m 一= l 。g 篇糍 ( 2 2 ) p l pl 纠 、 其中叫) = 半叫归半叫c ) - 学、( 印) 是c 类文本中出现f 的文档数,( f ) 是训练语料中出现r 的文档数,( c ) 是属于c 类的文档数,为训练

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论