(计算机应用技术专业论文)基于本体的web非规范知识处理中采集技术研究.pdf_第1页
(计算机应用技术专业论文)基于本体的web非规范知识处理中采集技术研究.pdf_第2页
(计算机应用技术专业论文)基于本体的web非规范知识处理中采集技术研究.pdf_第3页
(计算机应用技术专业论文)基于本体的web非规范知识处理中采集技术研究.pdf_第4页
免费预览已结束,剩余1页可下载查看

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

摘要 随着i n t e m e t 的快速发展,现在世界上绝大多数人都在用网络进行交流,网络在把信 息传到用户方面已经取得了难以置信的成功,w e b 己经成为一种主要的知识来源,它经过 十年左右的发展已经成为一个巨大的全球化知识仓库。 w e b 数据的组织格式主要以h t m l 这种半结构化的形式为主,是典型的非规范知识。 这种语言不能处理网络上的很多需求,因为它只是一种用于浏览信息的语言,不能表达数 据本身,网络还没有形成一个良好的结构化文档的存贮。而只是一个可交的h t m l 页的聚 集,因此迫切希望来自网络资源的信息以一种结构化的方式来存贮,x m l 和它的各种扩展 功能( 如数据模型、查询语言等) 是实现结构化方式的一种。使用扩展的标志语言x m l , 它是s g m l 的一个子集,是一种元语言,可以弥补很多h t m l 的不足。随着语义网的发 展,未来的网页会使用具有很好结构化的x m l 语言,但是现在这一阶段是过渡阶段,必 须思考一种方法来实现h t m l 到x m l 的转换,以更好地利用网络资源。 不像结构化数据,半结构化的数据对于数据查询来说是十分不容易的。面对w e b 这 个信息的海洋,用户要精确地找到所需信息变得非常困难,往往面对着从搜索引擎中查找 的大量的信息而不知所措。为此,人们希望可以得到一种能达到专家水平的高质量的信息 抽取方案,这样可以为我们提供准确和简洁的信息来源,而不至于在信息的海洋中苦苦查 找。信息抽取技术( i n f o r m a t i o ne x t r a c t i o n ,缩写为i e ) 是一种面向具体任务的实用的文档 理解技术。与复杂的自然语言理解技术不同,l e 技术通常采用浅层的文本分析技术,提取 出设计者关注的特定主题的信息。该技术适用于具有特定主题及相对确定的信息结构的文 档,如:广告、新闻、数据库自然语言查询和特定领域的文告等。针对这种情况,本文提 出了基于领域本体的资源管理平台,重点实现了平台中的资源采集模块,在信息抽取中引 入了o n t o l o g y 技术和d o m 模板技术,提出了一种基于o n t o l o g y 能处理语义的w e b 非规 范知识( h t m l 文档) 采集系统。 在实现w e b 网页的信息抽取中,本文引入b o t 网页抓取技术、l u c e n e 索引技术、 o n t o l o g y 技术、d o m 模板技术、h t m l 转换x m l 技术和x m l 存储技术,实现了一种基 于本体的、能把h t m l 非规范信息按领域本体生成的映射规则转换成x m l 规范信息的w e b 信息采集系统。为了减少工作量,本文尽量采用了现有的比较成熟的技术和工具包,所以 本文的工作重点是采用j a v a 技术、o n t o l o g y 技术和d o m 模板技术,使用x s l t 模板来 实现h t m l 文档向x m l 文档的转换。即设计一个h t m l _ x m l 包装器,从h t m l 页面中 抽取信息,以嵌入字符串列表s l 的形式进行存贮,最后通过领域本体生成的映射规则映 射成x m l 信元。把该x m l 文档存储到资源库中,从而实现h t m l 到x m l 的转换。 关键字:信息抽取,o n t o l o g y ,x m l ,d o m 模板,x s l t ,h t m l 到x m l 转换 a b s t 怕d a b s t r a c t n o w a d a y s ,a l o n gw i t ht h ei n t e m e tf a s td e v e l o p m e n t ,t h ew h o l ew o r l dc o u l d p o s s i b l yc o m m u n i c a t ew i t ha l l d i f i e r e n tp e o p l ew i t hu s i n gw e b i no r d e rt os p r e a d j n f o r m a t i o nt h en e t w o r kh a sa l r e a d yo b t a i n e de n o r m o u ss u c c e s s t h r o u g ht h e d e v e l o p m e n to fa b o u td e c a d et h ew e bh a sb e c a m eak i n do fm a i ni n f o r m a t i o ns o u r c e ,i t h a sa l r e a d yb e c a m eah u g eg i o b a l i z a t i o ni n f o r m a t i o nw a r e h o u s e a tp r e s e n t ,t n t e r n e tu s u a t t yu s e sh t m lt h a ti st y p i c a tu n s t a n d a r d i z e dk n o w l e d g e ,i t c a n n o th a n d l et h ev a r i o u sr e q u i r e m e n to ft h ei n t e m e ta n d 1c a n te x p r e s st h ed a t ai t s e l f t od os o j n f o r m a t i o nf r o mw e bs o u r c e sn e e d st ob ea c c e s s i b l ej nas t r u c t u r e dw a y + x m la n di t sv a r i o u se x t e n s i o n sa r eas t e pj nt h i sd i r e c t i o n u n f o r t u n a t e l y t h ew e bi sn o t y e taw e l l o r g a n i z e dr e p o s i t o r yo fn i c e l ys t r u c t u r e dx m ld o c u m e n t sb u t r a t h e ra c o n g l o m e r a t eo fv o l a t i l eh t m lp a g e s f o rw h i c hs t r u c t u r eh a st ob ee x t r a c t e d t h e m a r k i n gl a n g u a g ex m li s as u b c l a s so ft h es g m l ,i sak i n do fm e t a l a n g u a g e ,c a n m a k eu pal o to fs h o r t a g eo fh t ml _ a l o n gw i t ht h ed e v e l o p m e n to ft h es e m a n t i cw e b t h ef u t u r ew e bp a g ew i l lu s et h el a n g u a g eo fx m lt h a ti sv e r yg o o ds t r u c t u r a ll i n g u i s t i c s , b u tt h i ss t a g eo fn 铂 ,i sat r a n s i t i o np e r i o d ,w em u s tc o n s i d e rak i n do fm e t h o dt oc a r r y o u tt h eh t m lt ox m lc o n v e r s i o n ,u s i n gt h en e t w o r kr e s o u r c e sw i t ht h eb e t t e rl a n d u t i l i z a t i o n w e b 。t h eo c e a no ft h i si n f o r m a t i o n 。m u c ho ft h i sd a t ai su n s t r u c t u r e d w h i c hm a k e s s e a r c h i n gh a r da n dt r a d i t i o n a ld a t a b a s eq u e r y i n gi m p o s s i b l e f a c i n gag r e a td e a lo f i n f o r m a t i o nt h a lu s u a l l yc o m e sf r o ms e a r c h e re n g i n e t h ec u s t o m e rt h a tw a n t st 0f i n d o u tt h ea c c u r a t ei n f o r m a t i o nu s u a l l yi sa tal o s s f o rt h i s ,t h ep e o p l eh o p ef o rak i n do f p r o f e s s i o n a li n f o r m a t i o ne x t r a o r i o np r o j e c t ,w h i c hc a np r o v i d et h ea c c u r a t ei n f o r m a t i o n s o u r c ef o ru ss i m p l ya n dd i r e c t l y 1 1 1 ei n f o r m a t i o ne x t r a c t i o n ( a b b r e v i a t i o nf o ri e ) i sa k i n do fp r a c t i c a ld o c u m e n tt e c h n i q u ef o rt h ec o n c r e t em i s s i o n d i f f e r e n tf r o m c o m p l i c a t e dn a t u r a ll a n g u a g ec o m p r e h e n s i o nt e c h n i q u e 。t h et e c h n i q u eo f i eu s u a l l y a d o p t st h es i m p l ea n a l y z a b l et e c h n i q u eo fd o c u m e n t ,w i t h d r a w i n gt h ei n f o r m a t i o no ft h e p a d i c u l a rt o p i ct h a tad e s i g n e rc o n c a m s s u c ha s :m e s s a g eo ft h ea d v e r t i s e m e n t ,n e w s , t h ed a t a b a s en a t u r a ll a n g u a g es e a r c h i n ga n dp a r t i c u l a rr e a l ma d v e r t i s e m e n t ,e t c a i m a tt h i sk i n do fc i r c u m s t a n c e w ep u tf o r w a r dao n t o l o g y - b a s e dr e a l mr e s o u r c e s m a n a g e m e n tp l a t f o r m ,a n dt h ek e yp o i n ti st h er e a l i z a t i o no ft h er e s o u r c e sc o l l e c t i o n m o d u l e ,w eu s et h et e c h n i q u eo fo n t o l o g ya n dd o mt e m p l a t ei ni e ,p u tf o r w a r dak i n d o fo n t o l o g y - b a s e dw e bk n o w l e d g e ( h t m l ) i es y s t e m i no r d e rt oc a r r yo u ti eo ft h ew e bp a g e ,b yu s i n gt h es a v i n gt e c h n i q u eo fx m l t h e a b s t r a c t d o mt e m p l a t et e c h n i q u e t h eh t m l - x m lc o n v e r s i o nt e c h n i q u e t h eb o tg r a b b i n gw e b p a g e t h el u c e n ei n d e x i n gt e c h n i q u ea n dt h eo n t o l o g yt e c h n i q u e w ep u tf o r w a r dak i n d o fo n t o l o g y - b a s e dw e bn o n n o r m a lk n o w l e d g e ( h t m l ) i es y s t e mt h a tc a na c h i e v et h e c o n v e r s i o nf r o mt h eh t m ln o n n o r m a lj n f o r m a t i o nt ot h ex m ln o r m a ij n f o r m a t i o n a c c o r d i n gt ot h er e q u e s to fr e a l mo n t o l o g y f o rr e d u c i n gt h ew o r k l o a d ,t h i st e x ta d o p t s t h ee x i s t i n ga n dm a t u r et e c h n i q u ea n dt o o l sa sf a ra sp o s s i b l e 。s ot h ew o r kp o i n ti st o a d o p tt h et e c h n i q u eo fj a v a ,t e c h n i q u eo fo n t o l o g ya n dt h ed o mt e m p l a t et e c h n i q u e s a n dt ou s ex s l _ tt oc a r r yo u tt h ec o n v e r s i o nf r o mt h eh t m ld o c u m e n tt ot h ex m l d o c u m e n t t oe x t r a c tt h ei n 向m l a t i o nf r o mt h ep a g eo fh t ml _ w ed e s i g nah t m l - x m l w r a p p e r ,a n da p p l yar e c o g n i z e rt oo r g a n i z ee x t r a c t e dc o n s t a n t sa sa t t d b u t ev a l u e so f t u p l e si nag e n e r a t e dd a t a b a s es c h e m a a ti a s tw es a v et h ex m ld o c u m e n tt oo r a c l e d a t a b a s e t h u sc a r r yo u tt h ec o n v e r s i o nf m mt h eh t m l t ox ml k e yw o r d s :i n f o r m a t i o ne x t r a c t i o n o n t o l o g y x m l ,d o mt e m p l a t e 。x s l t ,h t m l t ox m lc o n v e m i o n 川 昆明理工大学学位论文原创性声明 本人郑重声明:所呈交的学位论文,是本人在导师的指导下( 或 我个人) 进行研究工作所取得的成果。除文中已经注明引用的内 容外,本论文不合任何其他个人或集体已经发表或撰写过的研究成 果。对本文的研究做出重要贡献的个人和集体,均已在论文中作了明 确的说明并表示了谢意。本声明的法律结果由本人承担。 学位论文作者签名:闻磊强 日 期:2 够o c 年弓月l 罾日 关于论文使用授权的说明 本人完全了解昆明理工大学有关保留、使用学位论文的规定,即: 学校有权保留、送交论文的复印件,允许论文被查阅,学校可以公布 论文的全部或部分内容,可以采用影印或其他复制手段保存论文。 ( 保密论文在解密后应遵守) 导师签名:塑抠论文作者签名:匿隆! 墨 日期:丝生三月! ! 旦 绪言 第一章绪言 1 1 基于本体的w e b , l i e 规范知识采集研究的产生背景: 随着i n t e r n e t 的快速发展,w e b 己经成为人们的一种主要的知识来源,经过十年左右 的发展它储存了大量的知识,已经成为一个巨大的全球化知识仓库。w e b 信息的组织格式 主要以h t m l 页面这种半结构化的形式为主,w e b 页面有无结构性、超链接的自由无序、 以及w e b 内容的海量性、多样性和动态变化等特点,是典型的非规范知识。 非规范知识或因其量太大( 海量知识) ,或内涵不够清楚( 模糊知识) ,或结构残缺不 全( 不完全知识) ,或含内在矛盾( 不协调知识) ,或禽无用杂质( 带噪音知识) ,或内涵 不稳定( 时变知识) 而需用特殊手段处理。 因特网知识的收集整理涉及多源时变知识和海量知识。时变知识非常复杂既有精确, 又有模糊:既有矛盾,又有冗余:还有时态和背景依赖性。传统的时态数据库不够用,如 果能使用多种逻辑和数学手段,使计算机自动收集和整理多源时变知识,将是很有意义的。 当前浏览器的智能太低。许多软件机器人和网络机器人之类工具,尚停留在实验室阶 段,还不能直接为广大因特网用户掌握和使用。 1 1 所以,近几年w e b 非规范知识处理成为研究的一个热点。本体就是用来描述某个领 域( 领域本体) 甚至更广范围( 通用本体) 内的概念以及概念之间的联系,使得这些概念 和联系在共享的范围内有着明确唯一的定义,达成一种共识,这样人和机器之间就可以进 行交流。在非规范知识处理方面,国内外的专家一般都认为当前本体论是一个较好的解决 办法。因此,本文提出了一个基于领域本体的资源管理平台来实现自底向上的构建本体, 作为该平台的一部分,着重地进行了基于本体的w e b 非规范知识处理中采集技术研究。 1 2 基于本体的w e b z l 乍规范知识采集研究的发展 目前基于本体的w e b 非规范知识采集技术广泛采用的是称为网页包装( w r a p p i n g ) 的 方法,主要研究集中在采集方法的研究和w r a p p e r 的自动或半自动化生成工具的研究上。 采集方法主要包括直接解析和数据建模。 1 2 1 基于本体的w e b ! l l s 规范知识采集的相关方法 基于本体的w e b 非规范知识采集方法实际上取决于w r a p p e r 的构造机制。本文主要 根据w r a p p e r 中数据抽取器的实际运行机制,将目前研究文献中出现的主要w e b 非规范 知识抽取方法归为两类。 绪言 1 2 1 1 直接解析h t m l 文档的方法 该方法利用p e r t 、j a v a 、y a c c 、p h y o n 等程序语言或其他自行设计的程序语言,编 写可执行程序直接对h t m l 网页进行分析和处理。这种方法主要利用本体生成的规则表达 式对内容进行模式匹配,不涉及h t m l 文档的层次结构。这种方法有很多众所周知的缺点, 主要的是程序的健壮性和可维护性较差。因为抽取规则固化在程序中,一旦网页内容和结 构发生变化,就必须对w r a p p e r 进行重新设计。 后来出现的一些w e b 非规范知识抽取方法中引入了规则文件的概念。抽取逻辑从程 序中被分离出来放入规则文件中。一旦结构发生变动,或者需要抽取同类网页数据,只需 改写规则文件。这在很大程度上弥补了上面谈到的缺陷。规则文件以各种形式存在着,例 如描述文件( s p e c i f i c a t i o nf i l e s ) 、x s l t 文件、d e l 脚本文件等,可以存在数据库中形成规 则库。 1 2 1 2 基于概念建模的方法( c o n c e p t u a l - m o d e l - b a s e da p p r o a c h ) 该方法主要基于o n t o l o g y 概念。b y ud a t ae x t r a c t i o ng r o u p 对此进行了大量研究。 该方法先用o n t o l o g y 建立数据模型,再把可能抽取的数据项映射到o n t o l o g y 中的元素上, 用户选择o n t o l o g y 中的元素以决定抽取的对象。o n t o l o g y 的引入既保证了结构的一致性, 又保证了数据的一致性,使不同来源的数据都能以统一的视图呈现,方便了信息的继承和 交换。 1 2 _ 2 基于本体的w e b 非规范知识采集中规则的表示 w r a p p e r 的另一主要组成部分是抽取规则。前面提到。抽取规则包含在规则文件中, 规则文件可以以各种形式存在。抽取规则中最主要的规则是关于数据项的定位问题,即如 何快速、准确地定位到网页中相关的数据。数据项的定位方式在很大程度上影响到数据抽 取的质量。下面对一些主要数据项定位方法进行比较。 1 ) 模板匹配法:模板通常用规则表达式来表达。利用模板和规则表达式,通过分析 数据项的前后边界来定位数据项。模板通常发挥着过滤器的作用,不适合模扳的部分被自 动抛弃。 2 ) 绝对路径法:绝对路径从h t m l 树的顶部节点( 标签) 开始。像w 4 f ,其 h t m le x t r a c t i o nl a n g u a g e 需要使用绝对h t m l 路径。然而,当目标h t m l 页改变后, 绝对路径法也就失效了。h t m l 设计最常改变的是数据项在页面中的位置。当向页面添加 了新内容或者移动了原先的内容,h t m l 标签的绝对位置也发生了变化。因此,建立起独 立于数据项绝对路径的位置表示就很重要。 3 ) “锚点”( a n c h o o 法:在页面中确定一个锚点,作为路径表达式的起点。锚点的选 取应该基于数据项内容而不是其路径。例如,在给出一本书的价格时,其前面通常有“价 格”这个词。通过首先找到“价格”这个词,就为价格数据项建立了一个独立于其绝对路 径的镭点。一个页面可以有一个总的锚点,各个数据项的位置从这个锚点开始描述。也可 以为每一个数据项分别建立自己的锚点。 2 绪盲 4 ) 有些系统( 如r o a dr u n n e r ) 没有独立的规则文件,因此也并不在规则文件中预先确 定数据项位置。其抽取原理是在抽取过程中比较两个或多个预先给定的属于同一类的样本 页面的结构。从而自动生成页面中所包含数据的模式( s c h e m a ) 。 本文的研究也主要是基于概念建模的方法,首先将h t m l 文档根据d o m 转换为一棵 具有层次结构的h t m l 树,利用模板匹配技术来进行数据定位与采集,利用x s l t 模板来 表示抽取规则,使得采集方法更灵活、更有弹性也更有效。后文将对此予以详细阐述。 1 2 3 基于本体的w e b 非规范知识采集具有的特点 1 2 3 1 语义分析 目前i e 技术主要是通过为待提取的目标成份建立相应的模板库,并将文档内容与模板 库中的模板匹配而实现的。模板的表达能力直接影响系统的准确度。现有的系统一般是采 用关键词与通配符的序列组合作为模板。 但这种结构有很大的局限。首先在很多情况下词与词之间并无固定的次序关系;其次 词的多义性常常会导致错误的分析结果。要克服这些局限,必须增强模板的知识表达能力。 基于o n t o l o g y 与规则相结合韵l e 技术,采用o n t o l o g y 和树形模板的结合增强模板的语义 表达能力。 1 2 3 2 针对性强精度高 在基于o n t o l o g y 的信息抽取系统中,o n t o l o g y 汇集了领域相关的所有概念与术语及 其之间的关系。o n t o l o g y 表示按对象分类构成层次结构。其中最底层是领域常用的汉语或 英语词汇;次底层是这些词汇对应的概念,该层每个概念对应底层中一个同义词集。再往 上则是这些概念的抽象。被分析的文档通常针对某个特定的类型,该类型的文档典型地包 含一些有待抽取的成份。通过分析这些成份的特殊的词法词义形态,就能相对准确地抽取 出这些成分。例如对招聘广告,它通常包含有关招聘者的信息,对求职者年龄、性别、地 域、专业技能、经验等方面的要求,以及待遇方面的信息。这些信息可通过一些对象( 如 p e r s o n ,o r g a n i z a t i o n 。e n t e r p r i s e ,u n i v e r s i t y ,a r e a ) 、属性( 如p e r s o n s e x ,p e r s o n a g e , p e r s o n d e g r e e ,p e r s o ne x p e r t i s e ,o r g a n i z a t i o n l o c a t i o n u n i v e r s i t y r a n k ) 及其约束( 如 a g e 3 5 ,d e g r e eh i g h e r - t h a nb a c h e l o r ) 来表示。对象通常分为若干类,如o r g a n i z a t i o n 可分为e n t e r p r i s e 、g o v e r n m e n t - a g e n c y 、u n i v e m i t y 、h o s p i t a l 等。子类与超类之间遵循 通常意义下的继承覆盖机制。 1 3 本课题主要解决的问题 本课题采用由底向上开发方法( b o t t o mu p ) ,提出了一个基于领域本体的资源管理 平台,介绍了该系统平台的结构和各部分的功能。其中着重介绍了信息采集模块,为了实 现该模块,本文引入b o t 网页抓取技术、l u c e n e 索引技术、o n t o l o g y 技术、d o m 模板技 术、h t m l 转换x m l 技术和x m l 存储技术,实现了一种基于本体的w e b 非规范知识采 3 绪言 4 ) 有些系统( 如r o a dr u n n e d 没有独立的规则文件,因此也并不在规则文件中预先确 定数据项位置。其抽取原理是在抽取过程中比较两个或多个预先给定的属于同一类的样本 页面的结构从而自动生成页面中所包含数据的模式( s c h e m a ) 。 本文的研究也主要是基于概念建模的方法。首先将h t m l 文档根据d o t , l 转换为一棵 具有层次结构的h t m l 树,利用模板匹配技术来进行数据定位与采集,利用x s l t 模板来 表示抽取规则,使得采集方法更灵活、更有弹性也更有效。后文将对此予以详细阐述。 1 2 3 基于本体的w e b 非规范知识采集具有的特点 1 2 3 1 语义分析 目前l e 技术主要是通过为待提取的目标成份建立相应的模板库,并将文档内容与模板 库中的模板匹配而实现的。模板的表达能力直接影响系统的准确度。现有的系统一般是采 用关键词与通配符的序列组合作为模板。 但这种结构有很大的局限。首先在很多情况下词与词之间并无固定的次序关系;其次 词的多义性常常会导致错误的分析结果;要克服这些局限,必须增强楼板的知识表达能力。 基于o n t o l o g y 与规则相结合的i e 技术,采用o n t o l o g y 和树形模板的结合增强模扳的语义 表达能力。 1 2 3 2 针对性强,精度高 在基于o n t o l o g y 的信息抽取系统中,o n t o l o g y 汇集了领域相关的所有概念与术语及 其之间的关系。o n t o l o g y 表示按对象分类构成层次结构其中最底层是领域常用的汉语或 英语词汇;次底层是这些词汇对应的概念,该层每个概念对应底层中一个同义词集。再往 上则是这些概念的抽象。被分析的文档通常针对某个特定的类型,该类型的文档典型地包 含一些有待抽取的成份。通过分析这些成份的特殊的词法词义形态,就能相对准确地抽取 出这些成分。例如对招聘广告,它通常包含有关招聘者的信息,对求职者年龄、性别、地 域、专业技能、经验等方面韵要求,以及待遇方面韵信息。这些信息可通过一些对象( 如 p e m o n o r g a n i z a t i o n ,e n t e q o r i s e ,u n i v e r s i t y ,a r e a ) 、属性( 如p e r s o n s e x ,p e r s o n a g e , p e r s o n d e g r e e ,p e r s o ne x p e r t i s e ,o r g a n i z a t i o n l o c a t i o n ,u n i v e r s i t y r a n k ) 及其约束( 如 a g e 3 5 ,d e g r e eh i g h e r - t h a nb a c h e l o r ) 来表示。对象通常分为若干类,如o r g a n i z a t i o n 可分为e n t e r p r i s e 、g o v e r n m e n t - a g e n c y 、u n i v e r s 耐、h o s p i t a l 等。子类与超类之间遵循 通常意义下的继承覆盖机制。 1 3 本课题主要解决的问题 本课题采用由底向上开发方法( b o t t o mu p ) ,提出了一个基于领域本体的资源管理 平台,介绍了该系统平台的结构和各部分的功能。其中着重介绍了信息采集模块,为了实 吼该模块,本文引入h o t 网页抓取技术、l u c e n e 索引技术、o n t o l o g y 技术、d o m 模板技 术、h t m l 转换x m l 技术和x m l 存储技术,实现了一种基于本体的w e b 非规范知识采 术、h t m l 转换x m l 技术和x m l 存储技术,实现了一种基于本体的w e b 非规范知识采 3 绪盲 4 ) 有些系统( 如r o a dr u n n e r ) 没有独立的规则文件,因此也并不在规则文件中预先确 定数据项位置。其抽取原理是在抽取过程中比较两个或多个预先给定的属于同一类的样本 页面的结构。从而自动生成页面中所包含数据的模式( s c h e m a ) 。 本文的研究也主要是基于概念建模的方法,首先将h t m l 文档根据d o m 转换为一棵 具有层次结构的h t m l 树,利用模板匹配技术来进行数据定位与采集,利用x s l t 模板来 表示抽取规则,使得采集方法更灵活、更有弹性也更有效。后文将对此予以详细阐述。 1 2 3 基于本体的w e b 非规范知识采集具有的特点 1 2 3 1 语义分析 目前i e 技术主要是通过为待提取的目标成份建立相应的模板库,并将文档内容与模板 库中的模板匹配而实现的。模板的表达能力直接影响系统的准确度。现有的系统一般是采 用关键词与通配符的序列组合作为模板。 但这种结构有很大的局限。首先在很多情况下词与词之间并无固定的次序关系;其次 词的多义性常常会导致错误的分析结果。要克服这些局限,必须增强模板的知识表达能力。 基于o n t o l o g y 与规则相结合韵l e 技术,采用o n t o l o g y 和树形模板的结合增强模板的语义 表达能力。 1 2 3 2 针对性强精度高 在基于o n t o l o g y 的信息抽取系统中,o n t o l o g y 汇集了领域相关的所有概念与术语及 其之间的关系。o n t o l o g y 表示按对象分类构成层次结构。其中最底层是领域常用的汉语或 英语词汇;次底层是这些词汇对应的概念,该层每个概念对应底层中一个同义词集。再往 上则是这些概念的抽象。被分析的文档通常针对某个特定的类型,该类型的文档典型地包 含一些有待抽取的成份。通过分析这些成份的特殊的词法词义形态,就能相对准确地抽取 出这些成分。例如对招聘广告,它通常包含有关招聘者的信息,对求职者年龄、性别、地 域、专业技能、经验等方面的要求,以及待遇方面的信息。这些信息可通过一些对象( 如 p e r s o n ,o r g a n i z a t i o n 。e n t e r p r i s e ,u n i v e r s i t y ,a r e a ) 、属性( 如p e r s o n s e x ,p e r s o n a g e , p e r s o n d e g r e e ,p e r s o ne x p e r t i s e ,o r g a n i z a t i o n l o c a t i o n u n i v e r s i t y r a n k ) 及其约束( 如 a g e 这样的标 记根本无法获得它们所包含文本究竟是什么内容。着重于数据描述的一个新的语言是 x m l 。 2 2 x m l x m l 4 的全名是可扩展标记语言( e x t e n s i b l em a r k u pl a n g u a g e ) 。它允许开发人员制 定自己的标记,从而使得文档具备自描述性。 2 2 1 x m l 的产生 首先,来了解一下可扩展标记语言x m l 的发展简史。 x m l 有两个先驱s g m l 和h t m l ,这两个语言都是非常成功的标记语言,但是它们 都在某些方面存在着与生俱来的缺陷。s g m l ( s t a n d a r dg e n e r a l i z e dm a r k u pl a n g u a g e ) 的全称是标准通用标记语言,它为语法标记提供了异常强大的工具,同时具有极好的扩展 性,因此在分类和索引数据中非常有用,但是,s g m l 非常复杂,并且价格昂贵,几个主 要的浏览器厂商都明确拒绝支持s g m l ,使s g m l 在网上传播遇到了很大障碍。 相反,超文本标记语言h t m l ( h y p e r t e x tm a r k u pl a n g u a g e ) 免费、简单。在世界 范围内得到了广泛的应用。它侧重于主页表现形式的描述,大大丰富了主页的视觉、听觉 效果,为推动w w w 的蓬勃发展、推动信息和知识的网上交流发挥了不可取代的作用。可 是,h t m l 也有如下几个致命的弱点,这些弱点逐渐成为h t m l 继续发展应用的障碍。 o h t m l 是专门为描述主页的表现形式而设计的,它琉予对信息语义及其内部结构的 描述,不能适应日益增多的信息检索要求和存档要求。 o h t m l 对表现形式的描述能力实际上也还非常不够,它无法描述矢量图形、科技符 号和一些其他的特殊显示效果。 o h t m l 标记集变得日益臃肿,而其松散的语法要求使得文档结构混乱而缺乏条理, 导致浏览器的设计越来越复杂,降低了浏览的时间效率与空间效率。 正因为如此,1 9 9 6 年人们开始致力于描述一个标记语言,它既具有s g m l 的强大功 能和可扩展性,同时又具有h t m l 的简单性。x m l 就是这样诞生的。 正像s g m l 和h t m l 一样,可扩展标记语言x m l 也是一种标记语言,它通过在数据 中加入附加信息的方式来描述结构化数据。不过,x m l 并非像h t m l 那样,只提供一组 事先已经定义好的标记。准确地说,它是一种

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论