(计算机软件与理论专业论文)面向本体学习的动态语料库构建方法.pdf_第1页
(计算机软件与理论专业论文)面向本体学习的动态语料库构建方法.pdf_第2页
(计算机软件与理论专业论文)面向本体学习的动态语料库构建方法.pdf_第3页
(计算机软件与理论专业论文)面向本体学习的动态语料库构建方法.pdf_第4页
(计算机软件与理论专业论文)面向本体学习的动态语料库构建方法.pdf_第5页
已阅读5页,还剩41页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

摘要 随着信息技术的高速发展,信息资源的规模愈发庞人,导致管理难度人人增加, 网此需要采川有效的知识管理方法米处理海量信息。由t - 本体提供了对领域知识的 共m 理解,确定了该领域内共同认可的术语,并定义了术语之间的关系所以我们 可以利_ l i j 这些特点把本体运川剑知识管理中。 采圳本体技术进行知识管理存在着知识获取瓶颁的问题因此需要采川白动或 、r - 白动的方法( 本体学习) 米构建本体。本文构建的语料库以w e b 页面为士且和时 间相关,所以称为动态语料库,可h 于动态本体学习。本文主要取得了以f 一些研 究成果。 1 )设计了候选语料的获取与增鼋式更新方法。该方法麻刚丁本文实现的小刑 爬虫系统。增昔式网页更新方法解决了语科库初次构建而后续更新敛率低 的问题,该爬虫系统能以较高的效率获取新增网页。 2 )提出了一种领域主鹿向量的生成方法为语料库特征向颦的生成提供支持。 该方法基丁少苗和领域高度相关的网页,利川词的代表度从网页集合中选 择一部分词构建领域特征向域。相比于已有的特征选择方法,本文的方法 在基丁网络的开放环境、无法提供足够数颦的分类学习数据时仍可取得较 好的结果,为在无分类信息的训练集合中进行特征选择提供了一条新的途 径。 3 ) 提山了r e l e r a n k 算法,它综合利f 了网页标题、正文内容、结构信息、超 链接芙系利锚文本等网页基本信息,来计算每个网页与领域相芙的概率, 以这个概率值作为该网页与领域相关程度的刻划。 4 )构建了一个小础的人 :智能领域的动态语料库。通过运行本文设计的系统 并利用本文提出的w e b 页面分类方法,从实验数据集合中选择山部分网页, 提取这些w e b 页面的标题、正文内容、锚文本以及链接信息,组成动态语 料库。 实验结果显示,利f jr e l c r a n k 算法进行w e b 页面分类准确率达剑8 3 6 对分 类出的网页进行人i :检查后发现这些网页和领域相芙度较高。这表明本文研究l :作 基本丛剑了预定的目标。 关键词:语料库,本体学习,词的代表度,w e b 页面分类 a b s t r a c t d b et ot h er a p i dd e v e l o p m e n to ft h ei n f o r m a t i o nt e c h n o l o g y t h es i z eo ft h ew e bi s e x p a n d e dr a p i d l y t h ed i f f i c u l t vi nm a n a g i n gt h e s er e $ o u r c e si sg r o w i n g w en e e da l l e f f i c i e n tk n o w l e d g em a n 战e m e r i tw a yt od e a lw i t ht h i sp h e n o m e n o n o n t o l o g yi s i n t r o d u c e dt oc a p t u r et h ed o m a i nk n o w l e d g e 。t h ec o m m o ns e n s eo f t h ed o m a i nk n o w l e d g e , t h ec o m m o ne d m i s s i v ed o m a i nt e r m sa n dt h ee x p l i c a t i o nb e t w e e nt h et e r m s o n t o l o g y p l a y sak e yr o l ei nk n o w l e d g em a n a g i n g t h eb o t t l e n e c ki nk n o w l e d g em a n a g e m e n ti sk n o w l e d g ea c q u i s i t i o n i t sn e c e s s a r yt o b u i l do n t o l o g ya u t o m a t i c a l l yo rs e m i a u t o m a t i c a l l y am e t h o di sp r o p o s e da st h em a i n t o p i ci n t h i sd i s s e r t a t i o nf o rb u i l d i n gd y n a m i cc o r p u sa u t o m a t i c a l l y ,a n dt h ed y n a m i c c o r p u si sf o ro n t o l o g yi e a r n i n g t h i sc o r p u si st i m e - o r i e n t e d ,a n di t sv o c a t i o ni sf o r o n t o l o g yl e a r n i n gd y n a m i c a l l y t h em a i nr e s e a r c hr e s u l t sa l ef o l l o w i n g 11a na p p r o a c hj sp r o p o s e dt oc o l l e c tt h ec a n d i d a t ec o r 0 u sa n dr e f r e s ht h ec a n d i d a t e c o r d u si n c r e m e n t a l l y t h i sm e t h o dj si m p l e m e n t e d ac r a w l e r b e c a u s eo ft h e e 衔c i e n tr e f r e s hm e t h o d , t h ec r a w l e rc a nr e f r e s ht h ep a g e sq u i c k l y 2 ) w i t ht e mr e p r e s e n t a t i v e n e s sm e t h o d ,am e t h o df o rb u i l d i n gc o r p u sf e a t u r e v e c t o ri sp r o p o s e d t h i sm e t h o do n l yn e e d saf e wp a g e sh i g h l yr e l a t e dt ot h e d o m a i n c o n t r a s t w i t ht h ec u r r e n tf e a t u r es e l e c t i o nm e t h o d ,t h em e t h o dw e p r o p o s e dw o r k sw e l lw h i l et h e r ea l en o ta d e q u a t ec a t e g o r i z e dd o m a i nm a t e r i a l s i t i san e ww a yf o rf e a t u r es e l e c t i o nw i t h o u ta d e q u a t ec a t e g o r i z e dd o m a i n m a t e r i a l s 3 1r e l e r a n km e t h o dm a k o fp a g e s a t t r i b u t e s t h ei i n k a g e sb e t w e e nt h e m r e l e r a n km e t h o di sp r o p o s e df o rs c o r i n gt h e y d g e s t h es c o r eo f e a c hp a g ei s t 1 1 ep r o b a b i l i t yb e t w e e nt h i sp a g ea n dt h ed o m a i nf e a t u r ev e c t o r t h ep r o b 曲j l i t v w i l lb eu s e df o rp a g ec a t e g o r i z a t i o n 4 ) w eb u i l das i n a i ld y n a m i cc o r p a s t h ed o m a i no f w h i c hi sa r t i f i c i a li n t e l l i g e n e e a f t e rr u n n i n gt h ec r a w l e rw ec r e a t e d w eg e ta 1 a r g ea m o u n to fp a g e s w i t ht h e r e l e r a n km e t h o d , w ec a t e g o r i z e dt h e ma n de x t r a c tt h ep a g e s t i t l e ,c o n t e n t , a n c h o rt e x ta n dl i n k sb e t w e e nt h e mt ob u i l dt h ed y n a m i cc o 巾u s t h ee x p e r i m e n tr e s u l ts h o w st h a tr e l e r a n ki sg o o da tc h o o s i n gt h es p e c i f i cp a g e s a n dt h ec a t e g o r i z a t i o np r e c i s i o ni s8 3 6 1 1 r e s u l ti sc h e c k e dm a n u a l l y a n dt h e c l a s s i f i e dp a g e sa r ep r e t t yr e l a t e dt ot h ec o r p u sf e a t u r ev e c t o r t h er e s u l ts h o w st h a tw e a c h i v et h eo b j e c tl a r g e l y k e yw o r d s :c o r p u s ,o n t o l o g yl e a r n i n g , t e r mr e p r e s e n t a t i v e n e s s ,p a g ec a t e g o r i z a t i o n n 东南大学学位论文 独创性声明及使用授权说明 一、学位论文独创性声明 本人声明所呈交的学位论文是我个人在导师指导下进行的研究工作 及取得的研究成果。尽我所知,除了文中特别加以标注和致谢的地方外, 论文中不包含其他人已经发表或撰写过的研究成果,也不包含为获得东南 大学或其它教育机构的学位或证书而使用过的材料。与我一同工作的同志 对本研究所做的任何贡献均已在论文中作了明确的说明并表示了谢意。 签名: 二、关于学位论文使用授权说明 东南大学、中国科学技术信息研究所、国家图书馆有权保留本人所送 交学位论文的复印件和电子文档,可以采用影印、缩印或其他复制手段保 存论文。本人电子文档的内容和纸质论文的内容相一致。除在保密期内的 保密论文外,允许论文被查阅和借阅,可以公布( 包括刊登) 论文的全部 或部分内容。论文的公布( 包括刊登) 授权东南大学研究生院办理。 签名: 日期:雄 第一章引言 第一章引言 1 1 研究背景 随着现代通讯技术的发展,w e b 作为一种方便快捷的信息传播与交流方式已被 人范同将及。搜索引擎的发明与应用极人地加快了信息传 i l 速度。现在,人们己越 来越爿惯丁利刖w e b 在且联网上发布信息并利刚搜索引擎搜寻自己所需的信息。 现有的互联网把传统的各种信息资源组织成可以方便互联的电子资源,但是限 丁技术等方面的原因,互联网在诞生之时人f j 没有考虑剑、也没有能力解决如何让 机器理解已有数据的问题。这里所说的数据土要指网页中的文本信息。由丁待处理 的数据是海域的,人们需要一种有效的知识管理方式来管理这些数据。 所谓本体,它是概念模刑的明确的规范说明( a no n t o l o g yi s a n e x p l i c i t s p e c i f i c a t i o no f ac o n c e p t u a l i z a t i o n ) l h 。通过本体,我们可以捕获相关领域的知识, 提供对该领域知识的共同理解,确定该领域内共同认可的词汇( 术语) ,并给山这蝗 词汇之间相互关系的精确定义。本体可以有效地进行知识表达、知识布询或不同领 域知识的语义消解。本体能够在知识管理中起剑重要作用,可实现语义级的知识服 务,提高知识利用的深度。近年来,本体中的思想和研究方法被引入到了人f :智能 研究领域中。w 3 c 1 提出发展语义w e b 的目标。语义w e b ( 语义网) 是现有w e b 的 扩展,是本体在w e b 领域的应用。语义w e b 中,信息被赋予定义良好的含义,更便 丁计算机平人的协同口j 。语义w e b 提供了一个通川的框架,允许跨越不同府h j 拌序、 企业和团体的边界共享和重h j 数据。语义w e b 是w 3 c 领导f 的协作项目有人茸研 究人员和业界伙伴参与。语义w e b 以资源描述框架( r d f ) 为基础。r d f 以x m l 作为语法、u r i 作为命名机制。将各种不同的应州集成在一起。如何建立并使川好 本体是实现这个进化目标的关键。 本体学习的目的在于整合各方面的资源1 3 1 1 4 1 p j 。目前,大多数的本体都是由手l : 创建而成这个过样极其费时且容易产生错误,这种产生方式导致了本体的后续更 新及维护的困难。反过来,本体更新的滞后也阻碍了本体的进一步开发利麻_ h j 。w 此本体学习成为本体研究中一个重要而紧迫的问题。 鉴于完全手1 :构建本体的凼难,需要朋白动化或者半自动化的方式构建本体, 但白动化或i - 自动化构建本体需要高度相关的领域资料这些资料的获取必须借助 丁机器白动完成。由丁新词汇、新概念以及新的语义关系的不断涌现,很有必要构 建一个随时间或实际应川变化而扩充的领域语料库。 语料库是语料的集合,语料通常是一份文字材料或一段语言录音或其它有意义 的语言或文字信息的记录。动态语料库的构建依赖丁获得动态变化的语料集合。如 果基r 动态语料库进行本体学习可以学习得到动态的本体,本体的变化反映了语 料库中语料信息的变化。动态语料库对丁保证本体的更新。这些变化也为本体演化 的研究提供研究材料。 1 2 研究现状 本体学习旨在整合多个方面的资源米构造一个本体 6 1 1 4 5 i 。完全白动化的本体获 取还比较遥远,目前本体构建过程中必须要有人j :参与。 目前已有的本体构建t :具主要有k a o n ”、p r o t 6 9 6 s l 、w e b o d e l 9 i 、o i l e d i 。“、 o n t o e d i t 5 1 以及w e b o n t o 1 等。在k a o n 系统中,所有的信息都被组织成所谓的o i ( o n t o l o g y i n s t a n c e ) 模删,包含了本体实体( 概念和属性) 平它 j 的实例。这样呵 以让包含知名实例的概念能够更好的铍划分,例如一个地理信息的o j 模删中“人陆” w w w w 3 c o r g 东南人学坝j j 学位论文 面向奉体学习的动态语科库构业方法 这个概念可能和它的七个实例( 七人洲) 紧密联系在一起。此外,一个o i 模型可以 包含另一个o i 模型,这样使得所有的o i 模刑都可以方便的被访问剑。 本体学习的过程可以抽象为圈1 1 的层次模型,从术语层到公理层,学习难度依 次增加。 图1 1 本体学习层次模型 l 、术语层( t e r m s ) 以文本为基础进行本体学习的前提条件是术语的获取。术语是特定领域概念的 语法实现。术语获取的研究i :作比较多,绝人多数来白了:术语的索引j :作”“。还有 一些研究从术语学研究和自然语言处理研究中得剑启发1 “”1 1 1 5 1 。术语的获取意味着 需要更高层次的语言处理。例如对表达了词与词之间依赖关系结构的复杂名词短语 的gt , 挣 g q l 分析。该方面探索的不足限制了本体学习在这一层的研究开展。目前麻h 较多的方法是在心丁本体学习的领域语料库中进行词性( p a r t o f s p e e c h ) 标识,然后 人i 识别山可能的词用来建立专fj 的模艰。此外,为了识别出某些词是否是相犬词 汇,还需要_ i 统计的方法在语料库中进行比较。 2 、同义和多义词层( s y n o n y m s ) 同义词层试| 璺l 获得在语义上相同的其它词,包括本语言和其它语言的。获得其 它语言的同义词实际上是进行词的翻译。w o r d n e t 2 可以“i 米获得英文的同义词, e u m n e t 3 可川来获得两种或者多种语言之间的同义词利词的翻译。除了h j 已有的同义 词袋外,研究人员还利州聚类等相关技术进行动态同义词获取。这个方面i :作很人 科度上基丁该基本思想:词与词之问的相似程度取决r 它们在语法上r 文中的共有 样度卅。利川数据统计的方法在w e b a 2 来进行同义词的选择也是一个研究趋势。 3 、概念层( c o n o e p t s ) 概念抽取的绝人多数f :作是从语言或正文的角度进行的。概念被认为是一组相 关词的聚合,这和词层以及同义词层有了很人的重巷。与此不同的是,有研究l 作 从外延的角度米思考,例如从文本中抽取山命名实体的层次关系,这就从外延的角 度发现了概念”。 4 、分类层( c o n c e p th i e r a r c h i e s ) 目前有= 种主要的模式_ j 来从文本数据中l 门纳分类的层次。第一种是席川词典 语法模式来发现上f 位芙系f 2 0 i 。第一二种模式是文献( 1 6 e p 提剑的分布假设人们试i f i 利_ l f j 层次聚类算法从文本中得剑词的层次关系川f 2 2 1 1 ”j ;还有一种模式来源丁信息抽 取- 依谨基丁文档的词的j 门类j 。在现实情况中语料库中很少有规牿的数据模删, 所以虽然词典- 语法模型的精度很高但是召同率很低,其它两种方法的模式发现凼难 且不弈易找全精度较低。 5 、关系层( r e l a t i o n s ) 关系抽取的目标是根据已知的概念,从海苗数据中发掘出它们之间的关系。文 本挖掘人多结合统计分析方法和语法分析方法口”。除了i s - a 芙系外,从文本中进行 关系抽取目前主要局限丁医学领域,这是因为该领域现在有着人姑待处理的可j j 数 据。 6 、公理层( r u l e s ) :h t t p :w o r d n e t p r i n c e t o n e d u h t t p :w w we l d a f r 2 第一牵引苦 该层作为本体学习的最上一层对关系学习、推理的要求极高,该层相关的研 究l :作目前晟少。早划的i :作有文献 2 6 1 。最近的p a s c a l 词汇蕴涵挑战赛4 和犬系抽 取有一定关联。竞赛的内容是预先给定两篇文档片段,日标是判断一篇文档的意思 能否从另一篇文档中推断山米”“。 1 3 研究目标 本文研究的出发点是设计与构建动态领域语料库,以便为动态本体的学习提供 资源。语科库的语科来源tw e b 页面,主要包括计算机领域的会议征文通知、计算 机领域研究人员个人主页或研究主页、a c m 和i e e e 的电子幽 5 馆资源、w e b 二三人 网页目录推荐的网页等。冈此,w e b 页面是语料库的组成单位,语料库是网贞的集 合领域语料库是与研究领域相) 之的网页集合。 本文的研究目标是探索出构建领域动态语料库的方法,。i :作的核心是对候选语 料进行分类。通过定期运行依据本文方法所设计的系统。可以获得随时间变化的动 态诰料库,利川该语料库的材料米进行动态本体学习。 利用动态语料库进行本体学习,可以得到一系列随时间变化的本体,通过对这 些本体进行分析,可以进行本体演化的研究。 1 4 主要工作 本文的主要研究内容包括网页获取与增鼙式更新方法、网页预处理方法、领域 特征向蛙的生成、w e b 页面分类。 本文的主要r 作有: 1 )研究并设计了候选语料库的获取和增鼙式更新方法对获取的同页采取网 页标准化、内容盘重、特定内容提取等预处理措施,使得该方法能够为语 科庠的构建准备候选生语料。 2 )研究并设计了利_ l i j 词的代表度来生成语料库特征向昔的方法,所获得的语 料库特征向蟮能够为语料库构建过程中的w e b 页面分类提供指导。 3 ) 在参考现有研究的基础上,提出了r e l e r a n k 算法,它综合利h j 了网页标题、 正文内容、结构信息、超链接关系和锚文本等网页基本信息,米计算每个 网页与领域相关的概率,以这个概率值作为该网页与领域相关料度的刻划。 通过上述j :作,本文构建了一个利心网络资源进彳i 领域语料库收集的系统。利 川该系统可以为本体学习提供高质埘的领域资料。 1 5 后续章节安排 第1 二章介绍了本文所需的基础理论,包括向餐空间模型、自然语言处理中的特 征选择方法及其比较分析、以及动态话料霹的基本概念与特点。 第二章主要研究井设计了候选语料的获取与增草式更新方法,以及利_ 【 j 现有技 术如何进行网页标准化,网页去重和网页正文内容提取。本章为第四、第无章的l : 作提供实验数据。 第四章研究了语料库特征向龉的生成方法并提出了词的代表度方法,给出了利 用该方法的生成语科库特征向越的流程,分析了该流样的计算复杂度。 第五章研究了候选语科的分类并给出了一个分类方法。该方法为每个网页计算 一个概率值以表示网页与语料库特征土胚的相关程度,然后根据该概率值对嘲页集 合进行分类。 第八章为总结与展望。总结了本文的主要研究成果,对未来的研究i :竹指出了 需要努力的方向。 4 h n p :w w w p a s c a l - n e t w o r k o r g c h a l l e n g e s r t e 3 东南人学坝i 学位论文 面向牟体学习的动蕃语科库构建方法 第二章相关研究基础 本文研究中涉及到一些比较重要的基础理论和概念,包括文本的表示、特征选 抒方法币l 动态语料库基本概念。为便丁| 后文的阐述,本章专fj 列出介鲋这些理论帛i 概念。 2 1 文本的向量表示 目前,利州自然语言处理技术处理文本等形式的自然语言内容时。都需要把文 本以一种适合计算机处理的形式表现出来。由丁二自然语言处理技术的限制,目前适 合人类阅读的文本不能直接为机器所川。冈此需要将文本重新组织成一种简化的、 统一的形式。在此基础上进行各种臼然语言处理的计算与实验。 文本分类是指在指定分类体系的指导下,自动对文本确定类别的过程。文本分 类是白然语言处理中的一个重要应_ i j 方向。一个文本表达的信息由两个方面米体现: 组成该文本的词汇集合以及词汇之间的顺序关系。所谓信息检索,它是研究从一定 规模的文档集合中找山满足川户所需求信息的学问。 在文本分类领域和信息检索领域中,为了能够较为简洁地表示文本,一般都忽 略词汇间的顺序关系,只考虑组成该文本的词汇集合。向鼙空间模删是白动文本分 类中使川的最多的一种文本表示方法,它忽略词汇间的顺序关系,将文本看成词汇 的集合。 使h j 向草空间模刑进行文本表示时,一个文本被表示为一个特征向量:v d = ( w , w 2 w ,w n ) ,其中w 表示第i 个特征词的权值,其人小反映了该词的重要程 度。使川特征向蟮表示文本时首先需要确定特征词的粒度( 即特征词是单个的单词、 词缃还是其它的语义表达单位) 和权值的计算方法,然后根据确定的方法将文本转 化为对麻的特征向苗。 一股来说,特征词的选取有以f 儿种粒度: 1 )以单词为特征词。一个特征词对虑丁:训练文本集中的一个单词一般会忽 略掉人小弓信息和标点符号。如果训练文本集中出现的每一个单词都作为 特征词,则特祉词的数目会很人特征向茸的维数很高,从而会导致自然 语言处理过桦中计算茸过人。冈此一般要对特征向鼙进行降维例如在训 练文本集中出现次数过丁| 频繁或者出现次数极少的词都会蚀去掉,这是闪 为这些词通常对文本的类别门届影响很小。此外,还会去掉停川词表( s t o p l i s t ) 中的词以便进一步减少冗余向苗。最后为了提高各个特征词问的独立 性及减少特征词的数目。会对特征词进行词根提取( s t e m m i n g ) 。词根提取 就是对词根相同词形不同的单词使h j 同一个特征词即其词根表示。例如将 w o r k e r 、w o r k i n g 和w o r k e d 都使川其词根r k 来表示,这样也可以在一定 程度上降低向量维度。 2 )以短语为特征词。使用单词为特征词会丢失掉原始文本中的不少信息,如 段落、句子和单词顺序等。使娜短语为特征词则可能将单词顺序这些信息 部分保留卜- 米,提高文本表示的准确度。通常有两种定义短语的方式:一 种是依据语法信息,将在语法上有一定联系的多个单词作为个短语:另 一种是依据统计信息将多个频繁的同时山现的单词作为一个短语。前者 需要根据语法现象总结出各种语法组合,然后根据语法组合去发现短语: 后者不需要人l :统计各种语法现象,只需统计出词和词之间的组台概率, 将组合概率较人的认定为同定搭配。 3 )以其它语义表达单位为特征词。如将文本中的单词根据某种联系进行合并 将词抽象剑概念层扶以此方式来生成特征词。这样一来可以达剑降低维 4 第一二章相关研究基础 数的效果,二来可以更多地利川文本中的语义信息。 在文本分类中,为了表达某个特征词与文本所属类别之间的相关程度,研究人 员引入了权值的概念。w k 是使用特征向耸来表示第j 个文本时,特征词k 所对应的 权值,在人多数情况f 该值属丁区间【o ,l 】。权值越人表示该特征词与文本所属类别 之间的相戈度越人,对文本分类的作h j 也越大。特征词权值的计算主要有以f ) l 种 方法。 n 二元( b i n a r y ) 权值,其权值定义为: f l特征词k 出现在文本j 中r ,、 。、 1 0 特征词k 未出现在文本j 中 从上式中可以看到。二元权值的定义比较简单,但它并没有考虑特祉 词出现次数对该词同文本所属类别的相关度的影响。 2 ) t f 1 d f 权值,其权值定义为: 广:。i w q = ( t k i d f k ) i “- l ( q i d r ) ,其中i d f k = i o g ( n d f k ) ( 2 2 ) 其中特征词频度t f k i 为特征词k 在文本j 中的出现次数n ,( j i 1 1 练集中 文本的数目逆文本频度i d f k 的值为i o g ( n d f k ) 而d f k 为训练集中包含特 征词k 的文本数日,i d f k 反映了出现特征词k 的文本在训练集中所l i f 的比 例。 这一权值计算方法主要是出于下述考虑:如果特征词k 在文本j 中的出 现次数越多,特征词k 同文本j 所属类别的相关科度越人:如果训练集中出 现特征词i 的文本的数目越多特征词i 的对文本j 所属类别的相天拌度越 小。如果州t 下k ,x l d f k 作为权值则该值不一定在区间【o ,1 】之中,而且州 一类别的长文本的特征向越中的w k ,值很可能人于短文本的特征向域中的 w k 值,冈而不能上e 确反映特征词同文本类别的相关程度。因此一般会对特 征向鼙进行归一化处理,采用1 ,:( t 匕l d r y 作为归一化因子a 在以上两种权值计算方法中,第一种方法计算比较简单,但忽略了特征词在同 一文本中的出现7 久数和训练集文本中出现某个特征词的文本数。第一二种方法考虑了 二元权值所忽略的上述两种信息,是目前使川较为j 。泛的一种权值计算方法。 2 2 特征选择方法 目前的文本分类方法人都隐含有一个基本假设,即。词袋”( b a g o f w o r d s ) 假设。 它假设文章的基本组成单位是相互独立的词( w o r d ) ,并把文本看成是无结构的词的 集合,忽略了句子中存在的语法、语义结构和词的先后顺序。这个假设导致特征向 越的维数有可能高达数万维。高维数向蟥会给分类带米以f 诸多负面影响: 1 ) 高维向鼙的计算鼙太大,计算效率低。 2 ) 分类规则的确定需要人颦的训练文本,特征向鼙的维数越高所需训练文本的 数苗越人,以达到覆盖所有特征词的目的。在实际情况中一般无法很好地满 足这个要求。 3 )高维特征空间虽然包含了很多信息但另一方面也包含了许多对分类无h j 的 信息。如果对它们不加以区分,那么就没有主次之分,不能够突出一些特征 词对分类的重要作_ i j 。如果维数很高、无心词过多,不仅可能造成过度拟合 还有可能起剑抑制止常关键词的作用。 基于上述原冈。我们需要选择一定方法使得特征向培的维数得剑相当榉度的降 低。特征选择是对特征向越进行降维的重要方法。所谓特征选择,它是从特祉全集 东南人学颂l 学位论文 面向奉体学习的动态语科库构建方法 中选择特征子集的过程。选择的标准是经过特征选择厅能有效提高文本分类准确率。 特钮e 选抒从原始特征空间中选择部分重要的特征,重新组成一个新的低维空间。 常埘的特征选择方法主要有四种:文档额度法1 2 搴1 信息增盗法印l 、互信息法i 域 和x 2 统计法“”。r 面分别讨论这儿种方法。 1 文档频度法( d o c u m e n t f r e q u e n c y , d f ) 文档频度是指包含了某个词的文档的数目。这个指标的基本假设是如果包含该 词的文档数目越少,那么这个词的信息昔也越小,它的存在与否不会对分类效果产 生多人的影响。根据这个假设,如聚一些词的d f 值低于某个闽值,那么这些词将铍 从特征向姑中剔除。但是在信息检索领域中这种思路却被认为并不可取。某个词 频率越小,反而越有助丁匹配成功。文献【2 8 】认为,虽然文档频度法简单但是能够取 得和信息增益法或x 2 统计法类似的效果。 2 信息增益法( i n f o r m a t i o ng a i n , i g ) 信息增益在机器学习领域会经常被用来判断一个词“好坏”。属性的信息增髓 是由丁使川了该属性分割样例而导致期望熵的降低。公式2 3 刚来计算词t 的信息增 益的值。 g ( f ) 一二p , ( e , ) l o gp , ( c j ) 一一 一 ( 2 3 ) + p a t ) :,e o 。it ) l o gp , ( e ,it ) + p a t ) e t 只( cit ) l o gp , ( c , it ) 公式2 _ 3 中,p , 4 t ) 表示词t 出现的概率,删表示类c j 的先验概率。,向f 砂表示 包含词t 鸽文档属予类荆岛的概率,( c 。1f ) 表示不包含词t 的文档属r 类荆c i 的概 率,m 为目标空间中类别的数日。 该计算过程包括条件概率的计算和熵的计算。条件概率的计算时间复杂度为 。州) ,空间复杂度为o ( v + n ) ,这里n 为训练文档的数目,v 是词典的规模。熵的计 算时间复j 度为o ( v m ) 。 给定一个训练集合之后,根据公式2 3 计算每一个词的信息增豁值。然后把一定 数茸的信息增益值低的词从向量空间中去除,这样就可以达剑降低维数的效果。 3 互信息法( m u t u a li n f o r m a t i o n , m i ) 互信息法在统计语言模瓒中常用来表示词与词之间的关系。为了计算词t 和类别 c 之问的互信息关系,定义a 代表f 和c 共现( c o - o c c u r r e n c e ) 的次数,口代表t 山现而 f 没有出现的次数,c 代表f 出现而,没有出现的次数,j 】v 是所有文档的数目,则且 信息的计算公式定义如公式2 4 所示。 川,c ) :l o g 一业望。 生! 生 ( 2 4 ) 、。 。只( f ) x 只( c )( 4 + c ) x ( a + b ) m 值代表了两个词之间的相关性。如果f 和c 是相互独立的,那么所d 值为0 。 互信息法的计算复杂度为o ( v m ) 。互信息法有一个缺点:互信息值的计算容易受到 边缘概率( m a r g i n a lp r o b a b i l i t y ) 的影响。冈此,如果要比较儿个词的且信息值,那么这 儿个词的频率应该相差不人叫。 4 矿( c h i ) 统计法 x 2 ( c h l ) 统计值是为了计算词和类别之间的以来关系而提出的。z 2 ( c h l ) 统计的计 算公式如公式2 5 所示。 z z ( :_ - = 善雩堕型一一 ( 2 5 )7 ( 彳+ c ) ( 8 + d ) ( 一+ 8 ) ( c + d ) 一。 这里,a 代表t 和c 共现( c o - o c c u r r e n c e ) 的次数b 代表t 出现而c 没有出现的次 数tc 代表c 山现而t 没有出现的次数,d 是c 和t 都没有出现的次数,n 是所仃文 6 第一二章相关研究幕础 档的数目。 通过分析可以看山f 值反映了t 对c 的依赖释度:z 2 值越人,表明t 越依赖丁 c 如果t 和c 之间是相互独立的,那么此时f 值为0 。在进行特征选择时r 选择矿 值人的词,这是冈为这些词对特定类别的依赖样度较高,对分类有利。 f 方法和m i 方法之间的主要区别是f 值是一个规格化后的值,所以同一个类别 中不同的词的f 值可以进行比较。对丁低频词而言f 值并不可靠。 文献【2 8 】认为,i g 法和m l 方法均具有很好的降维效果,可以去除9 8 的维度而 不损火性能。 以上这儿种方法的共同点是,都需要有足够的上e 反训练样例米进行学习。这些 训练样例需要已经被准确分类。在基i - - w e b 的开放环境f 进行网页分类,人1 f j 只能 够保证提供我们需要的网页,而不能限定不需要网页的种类和数颦。因此。没有足 够的止反训练样例通过实验来进行特征选择。而本文的问题背景恰恰就是要在基, w e b 的开放环境f 进行网页分类,故无法利用上述方法进行特征选择。 鉴丁,以上分析。本文将采取不同于上述方法的手段来采集领域中的特征词汇。 2 3 动态语料库的基本概念 普通语料库是通过语言研究收集的、用电子形式保存的语言材料,由白然山现 的1 5 面语或口语的样本汇集而成,川米代表特定的语言或语言变体。经过科学选材 和i 标注,具有适当规模的语料库能够反映和记录语言的实际使情况。人们通过语 料库观察和把握语言事实。据此分析和研究语言系统的规律。目前诰料库已经成 为语言学理论研究、戍用研究和语言i 程不可缺少的基础资源。在语料库研究中, 未加j :的语料称为生语料( 1 a wc o r p u s ) ,已微加i :的语料称为熟语料( a n n o l a l e d c o r p u s ) 。 2 3 1 语料的采集 语料的采集是为语料库的构建准备基本的材料。通朋语料库在采集阶段要根据 语科库的平衡结构和采样原则采集语料。通川语料库在采集之前通常由语言专业 研究人员确定所采集样本的各项指标和各类信息,例如语料的版权信息、文体、字 数等等。| 5 面语料需要有人茸的录入l :作。包括自动录入和人i :录入。对丁i 口语语 料,通常采川现场录音、话题引导等形式进行。 在选材内容方面,成熟语料库散到了在严格控制比例的前提f 进行f t 泛的采样, 体现了选材原则所要求的通_ 【i j 性原则。注意遵循以“rj 类为主、语体为辅”的原! l | l j , 吸收了己进入通用语词的专业语料、己进入标准i s 面语的方言语料和能川5 面语转 述的口语语料。在抽样方面,做到了按 i 2 【选材原 i ! l i 中规定的抽样原j l ! l l 进行抽样,保 证了语言材料的多样性、完整性平遍历性;在实际抽样中,既坚持抽样的随机性, 义按烘语科的实际状况进行必要的人上干预,从而保证了语料的描述性选取和抽样 的合理性。 普通语料库的样本选择有一些注意点。一) 发行苗人的读物选取比例麻该人。 这是冈为发行堵的人小通常决定了阅读蛩的人小;二) 发行区域广的读物选取比例 也麻该人一些。直观的例子是全国性的报纸和区域性的报纸的影响力不可同日而语 哪怕是它们发行鼙相当;三) 发行的读物受欢迎稃度越高选取比例应该越人;四) 和现代人生活越贴近或者关系越密切的选取比例也应该越高。 2 。3 2 标注与整理 怦通语料库离不开语料标注这个过程。语料通过标注,可以增加许多信息带。 5 面诰科的标注一般包括词性标注、句法结构标注、语义的标注笛。对丁汉语诰料 库,还要进行分词标记。标注的手段目前最常州的是利川、r - 白动化的i :具进行,但 最精确的方法仍然是手i :标注。普通语料席的绝人多数i 。作都集中在预料标注环饥 7 东南人学颀i 。学位论文 面向奉体学习的动态语料库构矬方法 语料标注中通常采用以下7 个原则”w : n 标注部分可以方便的去除,l i p 可以方便的【亓1 复剑语料的原始状态; 2 1标注部分可以拨另存; 3 )预先假定语料库的终端_ l i 户能够获取语料标注的原则,包括语料标注符号 集,标注符号的定义和使h j 的原则方法苍; 4 )需要卉清标注者和标注的_ i j 途: 5 1应当让使h i 者明白,语科的标注不是完美的, j 户应该酌情使h j ; 6 1通川语料序的标注席该使用人们普遍接受的中立模式; 7 )虽然为了语料的使用鼓励建立一个标准的标注标准,但是任何标准都不应 该作为“第一标准”。 这七条标准经过十来年的实践检验,仍然基本使用。 出丁白动化构建语料库的考虑本文所构建的语料库不对语料进行人i :标注 只进行整理。整理的主要作包括网页格式标准化、网页去重和网页内容提取。 2 3 3 动态语料库的特点 本文所构建的语料库不同于普通语料库,不同之处主要体现在本文语料库的川 途、采集方式和规模上。 h j 途方面。本文所要创建的语料库与传统语料库的主要区别在丁本文语料库其 功能是专一的仅为本体学习所h j 。本文创建语料库的目的是为白动构建本体提供 高度领域相关的、低噪音的学习材料。而传统文字语料库的构建通常是为了语7 “i 学研究而不是为了保存文档。语音或者口语语科席的构建,主要是保存一些即将消 火的无法川文字记录的语言或者是为了研究语音识别、语音合成等。 采集方式上,由于网络的语科来源广泛而庞杂,本文不使朋在处理传统语料痒 时所常_ l 的人规模的人【:处理方式,而是由机器自动实现语料采集年l i 貉理。传统语 料车的米源通常是依椎现有的纸质资料,如发行衬很_ r 的报纸、权威j ¥,占笛。这些 资料通过人i :录入、扫描识别等方法将其电子化以便日后使h j 。对丁口语语料的帮 理,土要是攀理采集的录音或录像。本文主要依靠程序来自动获取所需要的语料, 3 t - 臼动对语料进行选择、合并、分类、整理等处理无法实现自动获取的语料则对 其不做处理。 语料规模上,传统语料库的规模都在数白j 万字以上,以b r o w n 语料库为代表的 第一代语料库约包含1 0 0 万词,第一二代规模剑了千万词的级别,在现代计算机的麻 h j 水平f ,这个规模还可以提升很多。而本文所耍构建的语料库在规模方面不作具 体指定,这是冈为语料库的语料质茸是必须要真止) 注的。在目前本体学习研究还 不是组充分的情况f 提供一个规模较小但低噪音的学习素材更有助丁本体学习的 研究。由丁现有本体学习算法的学习效率和准确率的限制,目前对规模很人的语料 库还没有很多需求。所以,本文对语料库的规模不做硬性规定。 2 3 4 动态性的体现 引入动态语料库,有利于捕获新词汇、新概念、新的语义关系,目的在丁为动 态本体学习准备好第一手资料。根据本文对语料库的研究与理解,本文提出动态语 料库的定义如f 。 记dc o r p u s ,_ = p ,:肜,r ,这里t 为时间标签,表示采集时间:n 为设定的 语料采集规模,只表示在t 时刻采集的第i 篇语料,冈此d c o r p l x 3 ,就是在t 时刻 采集的所有语料。我们把由若干dc o r p u s ,组成的有序序列称为动态语科库。 3 第一二章相关研究堆础 动态语料库已被_ i j 于d y n a m i c v i e w 5 项目,本文研究的一部分在该项目得剑府h j 。 在o y n a m i c v i e w 项目中,本文作者的主要i :作是臼动获取美国计算机领域排名前一二 十的人学中计算机研究人员的研究主页时间跨度从2 0 0 1 年剑2 0 0 5 年。在该项目 中,动态语料库作为信息抽取的语料。 2 4 小结 在本章中,主要介绍了文本的向量表示方法、特征选择的基本方法和动态语料 库的概念与特点。 第一节讨论了文本的有效表示,它是所有白然语言处理的基础,目前流行的方 法是基丁向量空间模剐的表示方法,它不考虑或很少考虑文本中词与词之间的搭配 关系而注重词的出现频次。 第1 二竹主要总结了文本分类中四种常见的特征选择方法,特征选择的效果对丁j 分类过群有很人影响。本章分析了四种特征选择方法的优缺点,指出它们在领域特 征词汇选择方面的不足之处。 第三

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论